Springen naar inhoud

Multipele lineaire regressie


  • Log in om te kunnen reageren

#1

Elke

    Elke


  • >250 berichten
  • 402 berichten
  • Ervaren gebruiker

Geplaatst op 21 februari 2012 - 13:53

Ik doe momenteel onderzoek in het ziekenhuis, bij de neonatologie. In mijn onderzoek kijk ik naar de ontwikkeling van kinderen met gehoorverlies die op de neonatale intensive care unit (NICU) hebben gelegen op de leeftijd van 5 jaar.
Dit even ter achtergrond, is verder niet zo belangrijk voor het beantwoorden van de vraag denk ik.
Het statistiekonderwijs in onze opleiding is zeer beperkt, vandaar dat ik tegen het volgende probleem aanloop.

Ik wil kijken of diverse patiŽntkenmerken van invloed zijn op de bepaalde parameters van de ontwikkeling (die normaal verdeeld zijn).
Eerst heb ik enkelvoudige regressieanalyses uitgevoerd, waarbij 2 patiŽntkenmerken significant van invloed bleken op de betreffende ontwikkelingsparameter. Als ik deze nu samen in een multipele lineaire regressie-analyse verwerk krijg ik in SPSS een aantal tabellen te zien.
Nu blijkt het model in de 'ANOVA'-tabel wel significant te zijn en R2 is groter dan in de enkelvoudige regressie, dus wordt met dit model meer van de variantie verklaard. Toch blijkt ťťn van de patiŽntkenmerken in de tabel 'Coefficients' niet meer significant te zijn (P = 0,127), de andere is nog steeds significant (P = 0,30). Maakt dit uit? Moet ik hier wat mee?

Voor zover ik heb begrepen moet je bij multipele regressie steeds een onafhankelijke variabele (in dit geval patiŽntkenmerk) toevoegen waarvan je o.b.v. enkelvoudige regressie-analyses of literatuur verwacht dat ze van invloed zijn op de afhankelijke variabele (in dit geval de ontwikkelingsparameter). Vervolgens kijk je of het model nog significant is (in de tabel 'ANOVA') en je moet kijken of de verklaarde variantie (R2) groter is dan in het model zonder de laatst toegevoegde onafhankelijke variabele. Als dat beide het geval is, is het 'nieuwe' model 'beter' dan het 'oude'.

Samengevat komt mijn vraag op het volgende neer: klopt mijn aanname over het opbouwen van een multipele regressie en moet ik dan dus nog kijken naar de significanties in de tabel 'Coefficients' van de afzonderlijke patiŽntkenmerken of doen die er eigenlijk niet meer toe?

Alvast bedankt!
Destiny is but a word created by man to accept reality

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

hanzwan

    hanzwan


  • >100 berichten
  • 132 berichten
  • Ervaren gebruiker

Geplaatst op 22 februari 2012 - 21:48

Je moet niet kijken naar R^2 maar naar R^2-adjusted. R^2 zal altijd toenemen (of op zijn minst gelijk blijven) door de toevoeging van extra variabelen (nooit afnemen). De Adjusted R^2 compenseert voor het feit dat meer variabelen altijd meer variantie zullen verklaren en haalt dus het random of 'geluks'effect weg en eist dat een extra variabele meer dan alleen dit gelukeffect moet bevatten. (geluk is niet helemaal het goede wordt maar ik hoop dat je begrijpt wat ik bedoel).

Bij enkelvoudige regressie is R^2 dus goed, maar bij meervoudig moet je de R^2 van het enkelvoudige vergelijken met de R^2-adjusted van het meervoudige model. Vaak zullen je conclusies omtrent niet-significante regressie factoren en het de adjusted score wel in lijn liggen. Mijn hoogleraar vertelde me altijd dat indien dit twijfelachtig is, hij altijd keek naar de significantie van de regressie gewichten. Indien niet significant dan is er dus of geen verband, of wordt er al veel (of bijna alles) van de waarde van de onafhankelijke variabel in kwestie 'uitgelegd' door de onafhankelijke variabelen die al in het model zitten. Dus is het logisch om deze onafhankelijke variabel weg te halen.

Ik hoop dat dit de vraag beantwoord

#3

Elke

    Elke


  • >250 berichten
  • 402 berichten
  • Ervaren gebruiker

Geplaatst op 27 februari 2012 - 09:05

Het is mij nog niet helemaal duidelijk, hoe ik nu een conclusie moet trekken over het model.
Ter uitleg zal ik wat van de cijfers meegeven, zoals ik ze ook daadwerkelijk heb, misschien dat ik het daarna beter snap.

In mijn enkelvoudige lineaire regressiemodel (er vanuit gaande dat aan alle voorwaarden is voldaan) met Y: 'total words spoken' en X: 'taaltype (gesproken/combinatie gesproken en gebarentaal)' heb ik een R2 van 0,163. Het model heeft een significantie van 0,041 (P<0,05, dus significant).
In een ander enkelvoudig lineair regressiemodel met Y: 'total words spoken' en X: 'geslacht' heb ik een R2 van 0,248 en het model heeft een significantie van 0,010.
In beide gevallen is de significantie van het model (zoals in de ANOVA-tabel staat) overeenkomstig met de significantie van de regressiecoŽffeciŽnt (zoals in tabel 'Coefficients).

Nu wil ik met deze twee verklarende variabelen een multipel lineair regressiemodel maken, waar het volgende uitkomt:
- R2 0,321
- R2Adjusted 0,262
- Significantie van het model (ANOVA-tabel) 0,012
- Significantie van de regressiecoŽfficiŽnten (tabel Coefficients): geslacht 0,030 en taaltype 0,127.
Nu is taaltype op zich dus niet meer significant, maar het model wel. Moet ik nog naar de afzonderlijke coŽfficiŽnten kijken of kan ik op basis van die 0,012 gewoon concluderen dat het model significant is? En zeggen dat met dit model 26% van de variantie in 'total spoken words' wordt verkaard, is dat terecht? ~

En als ik het goed begrijp moet ik bij toevoeging van volgende factoren, dus steeds kijken of de R2 Adjusted toeneemt en of het model nog significant blijft? Als dat zo is, lijkt dat een beter model dan een voorgaand model?

Alvast bedankt weer!
Destiny is but a word created by man to accept reality

#4

hanzwan

    hanzwan


  • >100 berichten
  • 132 berichten
  • Ervaren gebruiker

Geplaatst op 27 februari 2012 - 14:44

De ANOVA kijkt of er tussen 2 (Of meer groepen) een significant verschil zit tussen het gemiddelde. Blijkbaar zit er tussen de gemiddeldes van deze 2 of meer populaties (ik denk dat je deze baseert op een populatie met de kenmerken en een populatie zonder de kenmerken? dat is me niet helemaal duidelijk) een verschil in het gemiddelde. Dat wil dus zeggen dat de twee populaties (waarschijnlijk) niet gelijk aan elkaar zijn en dat er 1 "beter/slechter" is dan de ander.

De lineaire regressie is een ander soort methode en hoewel de anova misschien al een bepaalde verwachting kan geven over wat je aantreft bij lineaire regressie staan de twee los van elkaar. Zoals je zelf al zegt/post is de R^2 adjusted van het 2 variabele tellende model lager dan de R^2 van het model waar alleen de ene variabel in zit. Dit betekent dat het inderdaad (ook gezien de insignificante score van de coŽfficiŽnt) beter is om deze variabel eruit te halen. Er zijn meerdere redeneringen mogelijk waarom de tweede variabel weinig waarde toevoegt, bijvoorbeeld:

1) de onafhankelijke variabel heeft opzichzelfstaand al weinig verband met de afhankelijke variabel, dwz er is geen duidelijk verband te vinden tussen de 2.
2) er is misschien wel een verband tussen de onafhankelijke variabel 2 en afhankelijke variabel, maar dit verband wordt door onafhankelijke variabel 1 teniet gedaan, d.w.z, de waardes van variabel 2 kunnen al behoorlijk accuraat voorspeld worden door de waardes van variabel 1. Een illustratief voorbeeld:

stel dat ik wil weten of de twee variabelen intelligentie en educatie iets kunnen zeggen over het salaris dat iemand verdient. Allebei apart genomen zullen ze waarschijnlijk beiden een sterke regressiecoefficient hebben. Echter, wanneer ik ze samen in 1 model 'gooi' kan het gebeuren dat de ene (bijvoorbeeld educatie) niet meer significant is. Dit komt dan waarschijnlijk omdat intelligentie en educatie teveel op elkaar 'lijken. Intelligentie kan dus niet alleen salaris maar ook educatie voorspellen en dus voegt de variabel 'educatie' weinig extra kennis/waarde toe.

Conclusie:
Er zit dus een verschil tussen de 2 of meer populatie gemiddelden dus is het aannemelijk dat de een beter is dan de ander. Het regressiemodel van de enkele variabel heeft een hogere R^2 dan de R^2 adjusted van het multi variabele model dus is het enkelvoudige model beter.

En op je vraag: ja bij een enkelvoudig model kijk je naar R^2. zodra je meerdere variabelen hierbij toevoegt moet je kijken naar de R^2 adjusted en deze vergelijken met de R^2 van het enkelvoudige model. (Als je een derde variabel erbij gooit en deze wil vergelijken met het 2 variabelen model dan kijk je bij beiden naar de R^2 adjusted. )

Veranderd door hanzwan, 27 februari 2012 - 14:46


#5

Elke

    Elke


  • >250 berichten
  • 402 berichten
  • Ervaren gebruiker

Geplaatst op 29 februari 2012 - 13:48

Er zit dus een verschil tussen de 2 of meer populatie gemiddelden dus is het aannemelijk dat de een beter is dan de ander. Het regressiemodel van de enkele variabel heeft een hogere R^2 dan de R^2 adjusted van het multi variabele model dus is het enkelvoudige model beter.

En op je vraag: ja bij een enkelvoudig model kijk je naar R^2. zodra je meerdere variabelen hierbij toevoegt moet je kijken naar de R^2 adjusted en deze vergelijken met de R^2 van het enkelvoudige model. (Als je een derde variabel erbij gooit en deze wil vergelijken met het 2 variabelen model dan kijk je bij beiden naar de R^2 adjusted. )


In mijn voorbeeld is de R2 van het enkelvoudige model niet hoger dan de R2 Adjusted van het multipele model?! Dus lijkt het multipele model mij beter?
R2 Adjusted van het multipele model is we lager dan R2 van beide enkelvoudige modellen bij elkaar opgeteld, als je dat bedoelt?
Destiny is but a word created by man to accept reality

#6

hanzwan

    hanzwan


  • >100 berichten
  • 132 berichten
  • Ervaren gebruiker

Geplaatst op 29 februari 2012 - 20:31

excuus, ik heb inderdaad een leesfout gemaakt. De R^2 adjusted van het meervoudige model is het hoogst, dit betekent dan inderdaad dat het model met beide variabelen beter is. R^2's optellen heeft geen betekenis.

Mvg,





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures