Multipele lineaire regressie

Elke

Ik doe momenteel onderzoek in het ziekenhuis, bij de neonatologie. In mijn onderzoek kijk ik naar de ontwikkeling van kinderen met gehoorverlies die op de neonatale intensive care unit (NICU) hebben gelegen op de leeftijd van 5 jaar.

Dit even ter achtergrond, is verder niet zo belangrijk voor het beantwoorden van de vraag denk ik.

Het statistiekonderwijs in onze opleiding is zeer beperkt, vandaar dat ik tegen het volgende probleem aanloop.

Ik wil kijken of diverse patiëntkenmerken van invloed zijn op de bepaalde parameters van de ontwikkeling (die normaal verdeeld zijn).

Eerst heb ik enkelvoudige regressieanalyses uitgevoerd, waarbij 2 patiëntkenmerken significant van invloed bleken op de betreffende ontwikkelingsparameter. Als ik deze nu samen in een multipele lineaire regressie-analyse verwerk krijg ik in SPSS een aantal tabellen te zien.

Nu blijkt het model in de 'ANOVA'-tabel wel significant te zijn en R² is groter dan in de enkelvoudige regressie, dus wordt met dit model meer van de variantie verklaard. Toch blijkt één van de patiëntkenmerken in de tabel 'Coefficients' niet meer significant te zijn (P = 0,127), de andere is nog steeds significant (P = 0,30). Maakt dit uit? Moet ik hier wat mee?

Voor zover ik heb begrepen moet je bij multipele regressie steeds een onafhankelijke variabele (in dit geval patiëntkenmerk) toevoegen waarvan je o.b.v. enkelvoudige regressie-analyses of literatuur verwacht dat ze van invloed zijn op de afhankelijke variabele (in dit geval de ontwikkelingsparameter). Vervolgens kijk je of het model nog significant is (in de tabel 'ANOVA') en je moet kijken of de verklaarde variantie (R²) groter is dan in het model zonder de laatst toegevoegde onafhankelijke variabele. Als dat beide het geval is, is het 'nieuwe' model 'beter' dan het 'oude'.

Samengevat komt mijn vraag op het volgende neer: klopt mijn aanname over het opbouwen van een multipele regressie en moet ik dan dus nog kijken naar de significanties in de tabel 'Coefficients' van de afzonderlijke patiëntkenmerken of doen die er eigenlijk niet meer toe?

Alvast bedankt!

hanzwan

Je moet niet kijken naar R^2 maar naar R^2-adjusted. R^2 zal altijd toenemen (of op zijn minst gelijk blijven) door de toevoeging van extra variabelen (nooit afnemen). De Adjusted R^2 compenseert voor het feit dat meer variabelen altijd meer variantie zullen verklaren en haalt dus het random of 'geluks'effect weg en eist dat een extra variabele meer dan alleen dit gelukeffect moet bevatten. (geluk is niet helemaal het goede wordt maar ik hoop dat je begrijpt wat ik bedoel).

Bij enkelvoudige regressie is R^2 dus goed, maar bij meervoudig moet je de R^2 van het enkelvoudige vergelijken met de R^2-adjusted van het meervoudige model. Vaak zullen je conclusies omtrent niet-significante regressie factoren en het de adjusted score wel in lijn liggen. Mijn hoogleraar vertelde me altijd dat indien dit twijfelachtig is, hij altijd keek naar de significantie van de regressie gewichten. Indien niet significant dan is er dus of geen verband, of wordt er al veel (of bijna alles) van de waarde van de onafhankelijke variabel in kwestie 'uitgelegd' door de onafhankelijke variabelen die al in het model zitten. Dus is het logisch om deze onafhankelijke variabel weg te halen.

Ik hoop dat dit de vraag beantwoord

Elke

Het is mij nog niet helemaal duidelijk, hoe ik nu een conclusie moet trekken over het model.

Ter uitleg zal ik wat van de cijfers meegeven, zoals ik ze ook daadwerkelijk heb, misschien dat ik het daarna beter snap.

In mijn enkelvoudige lineaire regressiemodel (er vanuit gaande dat aan alle voorwaarden is voldaan) met Y: 'total words spoken' en X: 'taaltype (gesproken/combinatie gesproken en gebarentaal)' heb ik een R² van 0,163. Het model heeft een significantie van 0,041 (P<0,05, dus significant).

In een ander enkelvoudig lineair regressiemodel met Y: 'total words spoken' en X: 'geslacht' heb ik een R² van 0,248 en het model heeft een significantie van 0,010.

In beide gevallen is de significantie van het model (zoals in de ANOVA-tabel staat) overeenkomstig met de significantie van de regressiecoëffeciënt (zoals in tabel 'Coefficients).

Nu wil ik met deze twee verklarende variabelen een multipel lineair regressiemodel maken, waar het volgende uitkomt:

- R² 0,321

- R²Adjusted 0,262

- Significantie van het model (ANOVA-tabel) 0,012

- Significantie van de regressiecoëfficiënten (tabel Coefficients): geslacht 0,030 en taaltype 0,127.

Nu is taaltype op zich dus niet meer significant, maar het model wel. Moet ik nog naar de afzonderlijke coëfficiënten kijken of kan ik op basis van die 0,012 gewoon concluderen dat het model significant is? En zeggen dat met dit model 26% van de variantie in 'total spoken words' wordt verkaard, is dat terecht? ~

En als ik het goed begrijp moet ik bij toevoeging van volgende factoren, dus steeds kijken of de R² Adjusted toeneemt en of het model nog significant blijft? Als dat zo is, lijkt dat een beter model dan een voorgaand model?

Alvast bedankt weer!

hanzwan

De ANOVA kijkt of er tussen 2 (Of meer groepen) een significant verschil zit tussen het gemiddelde. Blijkbaar zit er tussen de gemiddeldes van deze 2 of meer populaties (ik denk dat je deze baseert op een populatie met de kenmerken en een populatie zonder de kenmerken? dat is me niet helemaal duidelijk) een verschil in het gemiddelde. Dat wil dus zeggen dat de twee populaties (waarschijnlijk) niet gelijk aan elkaar zijn en dat er 1 "beter/slechter" is dan de ander.

De lineaire regressie is een ander soort methode en hoewel de anova misschien al een bepaalde verwachting kan geven over wat je aantreft bij lineaire regressie staan de twee los van elkaar. Zoals je zelf al zegt/post is de R^2 adjusted van het 2 variabele tellende model lager dan de R^2 van het model waar alleen de ene variabel in zit. Dit betekent dat het inderdaad (ook gezien de insignificante score van de coëfficiënt) beter is om deze variabel eruit te halen. Er zijn meerdere redeneringen mogelijk waarom de tweede variabel weinig waarde toevoegt, bijvoorbeeld:

1) de onafhankelijke variabel heeft opzichzelfstaand al weinig verband met de afhankelijke variabel, dwz er is geen duidelijk verband te vinden tussen de 2.

2) er is misschien wel een verband tussen de onafhankelijke variabel 2 en afhankelijke variabel, maar dit verband wordt door onafhankelijke variabel 1 teniet gedaan, d.w.z, de waardes van variabel 2 kunnen al behoorlijk accuraat voorspeld worden door de waardes van variabel 1. Een illustratief voorbeeld:

stel dat ik wil weten of de twee variabelen intelligentie en educatie iets kunnen zeggen over het salaris dat iemand verdient. Allebei apart genomen zullen ze waarschijnlijk beiden een sterke regressiecoefficient hebben. Echter, wanneer ik ze samen in 1 model 'gooi' kan het gebeuren dat de ene (bijvoorbeeld educatie) niet meer significant is. Dit komt dan waarschijnlijk omdat intelligentie en educatie teveel op elkaar 'lijken. Intelligentie kan dus niet alleen salaris maar ook educatie voorspellen en dus voegt de variabel 'educatie' weinig extra kennis/waarde toe.

Conclusie:

Er zit dus een verschil tussen de 2 of meer populatie gemiddelden dus is het aannemelijk dat de een beter is dan de ander. Het regressiemodel van de enkele variabel heeft een hogere R^2 dan de R^2 adjusted van het multi variabele model dus is het enkelvoudige model beter.

En op je vraag: ja bij een enkelvoudig model kijk je naar R^2. zodra je meerdere variabelen hierbij toevoegt moet je kijken naar de R^2 adjusted en deze vergelijken met de R^2 van het enkelvoudige model. (Als je een derde variabel erbij gooit en deze wil vergelijken met het 2 variabelen model dan kijk je bij beiden naar de R^2 adjusted. )

Elke

hanzwan schreef:Er zit dus een verschil tussen de 2 of meer populatie gemiddelden dus is het aannemelijk dat de een beter is dan de ander. Het regressiemodel van de enkele variabel heeft een hogere R^2 dan de R^2 adjusted van het multi variabele model dus is het enkelvoudige model beter.

En op je vraag: ja bij een enkelvoudig model kijk je naar R^2. zodra je meerdere variabelen hierbij toevoegt moet je kijken naar de R^2 adjusted en deze vergelijken met de R^2 van het enkelvoudige model. (Als je een derde variabel erbij gooit en deze wil vergelijken met het 2 variabelen model dan kijk je bij beiden naar de R^2 adjusted. )

In mijn voorbeeld is de R² van het enkelvoudige model niet hoger dan de R² Adjusted van het multipele model?! Dus lijkt het multipele model mij beter?

R² Adjusted van het multipele model is we lager dan R² van beide enkelvoudige modellen bij elkaar opgeteld, als je dat bedoelt?

hanzwan

excuus, ik heb inderdaad een leesfout gemaakt. De R^2 adjusted van het meervoudige model is het hoogst, dit betekent dan inderdaad dat het model met beide variabelen beter is. R^2's optellen heeft geen betekenis.

Mvg,

Wetenschapsforum

Laatste berichten

Nieuwsberichten

Multipele lineaire regressie

Multipele lineaire regressie

Re: Multipele lineaire regressie

Re: Multipele lineaire regressie

Re: Multipele lineaire regressie

Re: Multipele lineaire regressie

Re: Multipele lineaire regressie