Springen naar inhoud

Stapsgewijze lineaire regressie


  • Log in om te kunnen reageren

#1


  • Gast

Geplaatst op 14 november 2010 - 14:45

Tijdens het bestuderen van een topic op WSF was ik genoodzaakt de stapsgewijze regressie weer eens te bestuderen.
Even een opfrisser: bij gewone lineaire regressie bepaal je voor een set waarnemingen (x,y) een verband tussen y en x, waardoor de kwadratensom van de fout wordt geminimaliseerd.
Men noemt y de afhankelijke variabele, en x de onafhankelijke of verklarende variabele.

Om een tweede verklarende variabele te introduceren gebruikt men de meervoudige of multiple lineaire regressie. Zijn x1 en x2 de verklarende variabelen, dan wordt het model

y=P+Q.x1+ R.x2

waarbij ik even niet de gangbare notatie aanhoud met beta en alfa etc. Het berekenen van een meervoudig regressie-model is niet meer zo ingewikkeld, bv. in Excel schijnt het standaard te kunnen.

Als alternatief heb ik vroeger gewerkt met stapsgewijze regressie. Hierbij wordt eerst een eenvoudige lineaire regressie uitgevoerd met x1 als verklarende, waarna het zg. residu wordt bestudeerd en vergeleken met de andere mogelijke verklarende x2. Ik heb dit gedaan voor een voorbeeld in een leerboek Statistiek en kreeg een verrassend resultaat, dat nergens wordt genoemd en dat ik nooit ergens ben tegengekomen. Ik kan nl. met vier simpele regressie stappen een dubbele regressie bepalen.

Stel ik heb een dataset met 3 kolommen, y, x1 en x2. Ik wil een model bepalen zoals hierboven. Ik voer vier regressiestappen uit, waarbij ik de volgende statistische verbanden bepaal:
(1) y=A+B.x1
(2) x2=C+D.x1
(3) y=E+F.x2
(4) x1=G+H.x2
Ik bepaal hieruit zoals gezegd (5) y=P+Q.x1+ R.x2.

Ik eis nu dat de gevonden modellen voor y statistisch gezien gelijk zijn, ofwel
(1),(5): P+Q.x1+R.x2=A+B.x1
met (2): P+Q.x1+R(C+D.x1)=A+B.x1
ofwel, omdat deze voor alle x1 moet gelden, moeten de coefficienten gelijk zijn en dus
(6) P+RC=A
(7) Q+RD=B

Analoog voor (3) en (5):
(3),(5): P+Q.x1+R.x2=E+F.x2
met(4): P+Q(G+H.x2)+R.x2=E+F.x2
(8)P+QG=E
(9)R+QH=F

Nu volgen voor de gezochte Q, R en P in (5)
(9),(7): Q(1-DH)=B-DF
(9),(10):R(1-DH)=F-HB
(6) P=A-RC
of
LaTeX
LaTeX
LaTeX

Ik besef dat het bovenstaande taaie stof is, en het belang ervan is moeilijk te zien. Immers, multiple regressie is niet meer zo tijdrovend als het was. Voor het begrip echter (in elk geval het mijne) is dit inzicht wel belangrijk. Ik heb het resultaat getoetst aan de gevonden oplossingen in boek en Excel, en ze kloppen.

Ik vind het ook opvallend, dat dit resultaat nergens in leerboeken van iets oudere datum voorkomt, nl. toen multiple regressie nog dagen duurde. Voor simple regressie zijn zeer eenvoudige oplossingsmethoden, die met een calculator uitvoerbaar zijn.

De vraag aan jullie is, kenden jullie dit resultaat?

Veranderd door bessie, 14 november 2010 - 14:46


Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

Math-E-Mad-X

    Math-E-Mad-X


  • >1k berichten
  • 2383 berichten
  • Ervaren gebruiker

Geplaatst op 14 november 2010 - 15:06

Ik snap niet helemaal hoe je bij (2) en (4) een verband tussen x1 en x2 kan vinden. Je gaat er toch vanuit dat beiden onafhankelijke variabelen zijn? Als je dus maar genoeg samples hebt dan vind je iedere combinatie van x1 en x2 met even grote waarschijnlijkheid en zal er dus geen verband tussen bestaan.
while(true){ Thread.sleep(60*1000/180); bang_bassdrum(); }

#3


  • Gast

Geplaatst op 14 november 2010 - 15:22

Dat klopt, de 'modellen' voor x1 uitgedrukt in x2 en vice versa zijn gekunstelde modellen. Zij zijn nodig om uiteindelijk het uitgebreide model te kunnen bepalen en ze worden normaal ook niet berekend, vandaar dat het door mij gevonden resultaat bij mijn weten ook nooit is gevonden.
Ze beschrijven trouwens geen oorzakelijk verband maar puur een wiskundig. Het zijn echter wel gewone lineaire regressie modellen die kunnen worden bepaald met een calculator.
Ik wil wel een voorbeeld geven van een toepassing maar dat doe ik morgen dan.

#4

ZVdP

    ZVdP


  • >1k berichten
  • 2097 berichten
  • VIP

Geplaatst op 14 november 2010 - 15:25

Ik zie het verband niet met theorie ontwikkeling. Daarom verplaatst naar statistiek.
"Why must you speak when you have nothing to say?" -Hornblower
Conserve energy: Commute with a Hamiltonian

#5

Math-E-Mad-X

    Math-E-Mad-X


  • >1k berichten
  • 2383 berichten
  • Ervaren gebruiker

Geplaatst op 15 november 2010 - 11:33

Ze beschrijven trouwens geen oorzakelijk verband maar puur een wiskundig. Het zijn echter wel gewone lineaire regressie modellen die kunnen worden bepaald met een calculator.

Ik snap echt niet wat je bedoelt. Voor zover ik kan zien bestaat er geen enkel verband tussen x1 en x2. Ook geen wiskundig verband. Het zou immers best kunnen dat je twee verschillende waarden van x2 vindt voor dezelfde waarde van x1. En vice versa. Dus hoe kun je x2 als functie van x1 beschouwen?

Als dit al mogelijk is, dan zal je zo'n chaotische functie vinden dat iedere willekeurige rechte lijn hem even slecht benadert, dus heeft het weinig zin om de 'optimale' rechte lijn te vinden. Je kunt net zo goed een willekeurige rechte lijn kiezen.


Misschien wordt het inderdaad duidelijker als je een voorbeeld geeft.
while(true){ Thread.sleep(60*1000/180); bang_bassdrum(); }





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures