Even een opfrisser: bij gewone lineaire regressie bepaal je voor een set waarnemingen (x,y) een verband tussen y en x, waardoor de kwadratensom van de fout wordt geminimaliseerd.
Men noemt y de afhankelijke variabele, en x de onafhankelijke of verklarende variabele.
Om een tweede verklarende variabele te introduceren gebruikt men de meervoudige of multiple lineaire regressie. Zijn x1 en x2 de verklarende variabelen, dan wordt het model
y=P+Q.x1+ R.x2
waarbij ik even niet de gangbare notatie aanhoud met beta en alfa etc. Het berekenen van een meervoudig regressie-model is niet meer zo ingewikkeld, bv. in Excel schijnt het standaard te kunnen.
Als alternatief heb ik vroeger gewerkt met stapsgewijze regressie. Hierbij wordt eerst een eenvoudige lineaire regressie uitgevoerd met x1 als verklarende, waarna het zg. residu wordt bestudeerd en vergeleken met de andere mogelijke verklarende x2. Ik heb dit gedaan voor een voorbeeld in een leerboek Statistiek en kreeg een verrassend resultaat, dat nergens wordt genoemd en dat ik nooit ergens ben tegengekomen. Ik kan nl. met vier simpele regressie stappen een dubbele regressie bepalen.
Stel ik heb een dataset met 3 kolommen, y, x1 en x2. Ik wil een model bepalen zoals hierboven. Ik voer vier regressiestappen uit, waarbij ik de volgende statistische verbanden bepaal:
(1) y=A+B.x1
(2) x2=C+D.x1
(3) y=E+F.x2
(4) x1=G+H.x2
Ik bepaal hieruit zoals gezegd (5) y=P+Q.x1+ R.x2.
Ik eis nu dat de gevonden modellen voor y statistisch gezien gelijk zijn, ofwel
(1),(5): P+Q.x1+R.x2=A+B.x1
met (2): P+Q.x1+R(C+D.x1)=A+B.x1
ofwel, omdat deze voor alle x1 moet gelden, moeten de coefficienten gelijk zijn en dus
(6) P+RC=A
(7) Q+RD=B
Analoog voor (3) en (5):
(3),(5): P+Q.x1+R.x2=E+F.x2
met(4): P+Q(G+H.x2)+R.x2=E+F.x2
(8)P+QG=E
(9)R+QH=F
Nu volgen voor de gezochte Q, R en P in (5)
(9),(7): Q(1-DH)=B-DF
(9),(10):R(1-DH)=F-HB
(6) P=A-RC
of
Ik vind het ook opvallend, dat dit resultaat nergens in leerboeken van iets oudere datum voorkomt, nl. toen multiple regressie nog dagen duurde. Voor simple regressie zijn zeer eenvoudige oplossingsmethoden, die met een calculator uitvoerbaar zijn.
De vraag aan jullie is, kenden jullie dit resultaat?