Regressieanalyse - Fragmentatie in dataset corrigeren

Moderators: dirkwb, Xilvo

Reageer
Berichten: 126

Regressieanalyse - Fragmentatie in dataset corrigeren

Beste Wetenschapsforum,
 
Ik heb met behulp van regressieanalyse (OLS gecorrigeerd voor heteroskedasticiteit m.b.v White standaardfouten en covarianties) een model geschat dat onderhevig is aan een sterk gefragmenteerde opbouw naargelang het jaartal. Concreet werden 40 000 simulaties uitgevoerd, 10 000 telkens voor resp 2009-2012. De data verkregen uit de simulaties dienen als input voor de regressieanalyse. Wanneer de residuals, actuals en fitted worden geplot, komt de figuur hieronder te voor schijn. Het is duidelijk dat enige fragmentatie de dataset beïnvloedt. Het geschatte model heeft een verklaringskracht van 77% (R² adj), wat meer is dan wat voor de individuele datasets (per jaartal gevonden wordt - hoogste is daar R² adj = 50%). Ik vroeg me om die reden af welke stappen gezet kunnen worden om hiervoor te corrigeren of hoe dit methodologisch correct kan worden geïnterpreteerd. De tekens van de coëfficiënten zijn telkens stabiel ongeacht de regressie en liggen in de richting van wat volgens de theoretische onderbouwing van de thesis kan verwacht worden. Ik zou het erg op prijs stellen indien hierop een antwoord geboden kan worden. Alvast bedankt.
 
 

Excuses, bijlage vergeten up te loaden na ze te hebben bijgevoegd.
Bijlagen
RESIDUAL ACTUAL.png
RESIDUAL ACTUAL.png (83.75 KiB) 351 keer bekeken

Gebruikersavatar
Berichten: 467

Re: Regressieanalyse - Fragmentatie in dataset corrigeren

Datapunten binnen 1 jaar zijn sterker met elkaar gecorreleerd dan datapunten tussen jaren (zijn die simulaties per jaar uitgevoerd? Of was het simulatiemodel misschien niet optimaal?) Anyhow, met mixed models kan je rekening houden met dergelijke correlatiestructuren.

Berichten: 126

Re: Regressieanalyse - Fragmentatie in dataset corrigeren

De situatie is als volgt: de data die gehanteerd wordt verschilt inderdaad gedeeltelijk van jaar tot jaar. De interbankmarkt bestaat zo in 2009 uit 73 banken, terwijl dit in 2011 bv 119 is. De simulatie an sich krijgt deze data ter input, maar de overige determinanten worden telkens at random berekend. Mijn understanding was dat het dus door de intrinsieke verschillen tussen de jaartallen komt (grootte van de markt is gemiddeld kleiner, zo ook het kapitaal etc in 2009 dan in 2011 bv). De simulatie zelf werd per jaar uitgevoerd, de regressie over alle jaren heen met dummies voor de jaartallen. Ik heb dus de regressies ook eens per jaar uitgevoerd en dat geeft meer aannemelijke resultaten. De tekens zijn stabiel in elke regressie, maar per jaartal schiet de R² adj zo niet onmetelijk de hoogte in. Natuurlijk kan je er van dromen een goed verklarend model te vinden, maar het moet verdedigbaar blijven natuurlijk ;-) Ik zal zeker eens kijken naar de mixed models, bedankt voor de tip.

Reageer