Statistische significantie categorische variabele

Moderators: dirkwb, Xilvo

Reageer
Berichten: 92

Statistische significantie categorische variabele

Hallo!
 
Ik zit een beetje te sukkelen met de analyse van mijn enquete. Ik moet de tevredenheid over een marktplein evalueren:

Tevredenheid = f(% groen, % bebouwing, grootte, weertype)
 
Tevredenheid = ordinaal (schaal van 1 tot 10)
% groen en % bos = numerisch
Grootte = nominaal (1 = klein, 2 = middelgroot, 3 = groot)
Weertype = nominaal (1 = bewolkt, 2 = half bewolkt, 3 = zonnig)
 
Ik zou hier graag een regressie opdoen maar ik zit wat vast met de categorische variabele. Ik heb univariate regressie gedaan tussen tevredenheid en % groen alsook tussen tevredenheid en % bebouwing om de statistische significantie tussen beiden te onderzoeken. Hoe bepaal ik de significantie per level  van de categorische variabele (en niet van de categorische variabele in z'n geheel) met de tevredenheid?

M.a.w. hoe kan ik weten of bv. weertype 1 (bewolkt) significant verband houdt met tevredenheid, weertype 2 (half bewolkt) dan weer niet, ... Ik doe mijn analyse in Rstudio.
 
Nog een extra vraagje: is het nodig de ordinale tevredenheidsgegevens te normaliseren?
 
Het uiteindelijke resultaat moet iets zijn van (puur hypothetisch) : Tevredenheid = -0.11 + 0.38(% bos) - 2.3(W1) + 1.1(W2) - 1.9(G3)
 
Alvast bedankt!

Gebruikersavatar
Berichten: 467

Re: Statistische significantie categorische variabele

Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.

Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.

Berichten: 92

Re: Statistische significantie categorische variabele

Saffron schreef: Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.

Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.
Bedankt voor de reactie. Ik heb het eens uitgeprobeerd in R (weliswaar met andere variabelen dan hierboven) en krijg volgende resultaten. Ik weet echter niet welke van de twee de beste is? De eerste (reg1 in bijlage) is met en de tweede (reg2) zonder intercept, maar ze geven beide een andere significantie per level van de variabele aan? Indien de eerste methode de beste is, mag ik dan (Intercept) interpreteren als de 3e level, namelijk 'golvend' (naast vlak en steil is er ook nog golvend als onderverdeling)?
Bijlagen
reg2.png
reg2.png (15.22 KiB) 783 keer bekeken
reg1.png
reg1.png (14.72 KiB) 783 keer bekeken

Gebruikersavatar
Berichten: 467

Re: Statistische significantie categorische variabele

Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.

Berichten: 92

Re: Statistische significantie categorische variabele

Saffron schreef: Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.
Hmm ja, daar heb je gelijk in. Dus conclusie: enkel data$Topogolvend = (Intercept) uit reg1 houdt significant verband met data$LA?

Gebruikersavatar
Berichten: 467

Re: Statistische significantie categorische variabele

Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.

Berichten: 92

Re: Statistische significantie categorische variabele

Saffron schreef: Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.
Hmm, ik ben niet zo mee. Hoe weet ik nu het antwoord op mijn originele vraag aan de hand van deze analyse: welke variabelen moet ik meenemen in de uiteindelijke multivariate regressie omdat deze significant is met de afhankelijke variabele? TopoVlak en TopoSteil alleszins niet want p > 0,05 maar wat dan met TopoGolvend?

Gebruikersavatar
Berichten: 467

Re: Statistische significantie categorische variabele

Maar je wilde toch het volgende model:

Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??

Berichten: 92

Re: Statistische significantie categorische variabele

Saffron schreef: Maar je wilde toch het volgende model:

Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
 
Saffron schreef: Maar je wilde toch het volgende model:

Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
Het is de bedoeling dat aan de hand van wat er op een marktplein in het echt te zien is, een waarde voor de tevredenheid ervan wordt voorspeld.
 
Dus adhv het percentage groen en bebouwing aanwezig, het type grootte, het weertype op dat moment (en eventueel ook de topografie ervan zoals hierboven)
 
Ik zou dus een regressievergelijking willen die kan zeggen
Tevredenheid = a + b(% groen) + c(% bebouwing) + d(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot) + g(weer = bewolkt) + h(weer = halfbewolkt  + i(weer = zonnig) + j(topografie = vlak) + k(topografie = golvend) + l(topografie = steil).

Dat je dan op het marktplein kan zien: er is 30% groen dus ik vul dat in. Het marktplein is groot dus

d*(grootte=klein) en e*(grootte =middelgroot) zijn 0 en f*(grootte = groot) wordt dan f*1.

Daarvoor moet ik natuurlijk wel weten of grootte=klein significant verband houdt met tevredenheid? Of grootte=middelgroot of grootte=groot? Anders kunnen die zowiezo weggelaten worden uit de regressievergelijking. Voor kwantitatieve variabelen is dat eenvoudig, maar ik weet niet hoe ik dat met deze categorische data moet doen (zie output hierboven).

Gebruikersavatar
Berichten: 467

Re: Statistische significantie categorische variabele

Oke, een predictie model dus.

Maar in de regressievergelijking zul je nooit 'd(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot)' hebben. Je hebt maar 2 dummies, de 3e groep is de referentiegroep. Dus stel klein is de referentie, dan geeft de coefficient voor middelgroot het effect weer van middelgroot tov klein, en de coefficient voor groot het effect van groot tov klein. Voor klein heb je geen coefficient of p-waarde, want je kan niet de referentiegroep met de referentiegroep vergelijken.

Reageer