Statistische significantie categorische variabele
-
- Berichten: 92
Statistische significantie categorische variabele
Hallo!
Ik zit een beetje te sukkelen met de analyse van mijn enquete. Ik moet de tevredenheid over een marktplein evalueren:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)
Tevredenheid = ordinaal (schaal van 1 tot 10)
% groen en % bos = numerisch
Grootte = nominaal (1 = klein, 2 = middelgroot, 3 = groot)
Weertype = nominaal (1 = bewolkt, 2 = half bewolkt, 3 = zonnig)
Ik zou hier graag een regressie opdoen maar ik zit wat vast met de categorische variabele. Ik heb univariate regressie gedaan tussen tevredenheid en % groen alsook tussen tevredenheid en % bebouwing om de statistische significantie tussen beiden te onderzoeken. Hoe bepaal ik de significantie per level van de categorische variabele (en niet van de categorische variabele in z'n geheel) met de tevredenheid?
M.a.w. hoe kan ik weten of bv. weertype 1 (bewolkt) significant verband houdt met tevredenheid, weertype 2 (half bewolkt) dan weer niet, ... Ik doe mijn analyse in Rstudio.
Nog een extra vraagje: is het nodig de ordinale tevredenheidsgegevens te normaliseren?
Het uiteindelijke resultaat moet iets zijn van (puur hypothetisch) : Tevredenheid = -0.11 + 0.38(% bos) - 2.3(W1) + 1.1(W2) - 1.9(G3)
Alvast bedankt!
Ik zit een beetje te sukkelen met de analyse van mijn enquete. Ik moet de tevredenheid over een marktplein evalueren:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)
Tevredenheid = ordinaal (schaal van 1 tot 10)
% groen en % bos = numerisch
Grootte = nominaal (1 = klein, 2 = middelgroot, 3 = groot)
Weertype = nominaal (1 = bewolkt, 2 = half bewolkt, 3 = zonnig)
Ik zou hier graag een regressie opdoen maar ik zit wat vast met de categorische variabele. Ik heb univariate regressie gedaan tussen tevredenheid en % groen alsook tussen tevredenheid en % bebouwing om de statistische significantie tussen beiden te onderzoeken. Hoe bepaal ik de significantie per level van de categorische variabele (en niet van de categorische variabele in z'n geheel) met de tevredenheid?
M.a.w. hoe kan ik weten of bv. weertype 1 (bewolkt) significant verband houdt met tevredenheid, weertype 2 (half bewolkt) dan weer niet, ... Ik doe mijn analyse in Rstudio.
Nog een extra vraagje: is het nodig de ordinale tevredenheidsgegevens te normaliseren?
Het uiteindelijke resultaat moet iets zijn van (puur hypothetisch) : Tevredenheid = -0.11 + 0.38(% bos) - 2.3(W1) + 1.1(W2) - 1.9(G3)
Alvast bedankt!
- Berichten: 467
Re: Statistische significantie categorische variabele
Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.
Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.
Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.
-
- Berichten: 92
Re: Statistische significantie categorische variabele
Bedankt voor de reactie. Ik heb het eens uitgeprobeerd in R (weliswaar met andere variabelen dan hierboven) en krijg volgende resultaten. Ik weet echter niet welke van de twee de beste is? De eerste (reg1 in bijlage) is met en de tweede (reg2) zonder intercept, maar ze geven beide een andere significantie per level van de variabele aan? Indien de eerste methode de beste is, mag ik dan (Intercept) interpreteren als de 3e level, namelijk 'golvend' (naast vlak en steil is er ook nog golvend als onderverdeling)?Saffron schreef: Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.
Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.
- Bijlagen
-
- reg2.png (15.22 KiB) 783 keer bekeken
-
- reg1.png (14.72 KiB) 783 keer bekeken
- Berichten: 467
Re: Statistische significantie categorische variabele
Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.
-
- Berichten: 92
Re: Statistische significantie categorische variabele
Hmm ja, daar heb je gelijk in. Dus conclusie: enkel data$Topogolvend = (Intercept) uit reg1 houdt significant verband met data$LA?Saffron schreef: Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.
- Berichten: 467
Re: Statistische significantie categorische variabele
Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.
-
- Berichten: 92
Re: Statistische significantie categorische variabele
Hmm, ik ben niet zo mee. Hoe weet ik nu het antwoord op mijn originele vraag aan de hand van deze analyse: welke variabelen moet ik meenemen in de uiteindelijke multivariate regressie omdat deze significant is met de afhankelijke variabele? TopoVlak en TopoSteil alleszins niet want p > 0,05 maar wat dan met TopoGolvend?Saffron schreef: Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.
- Berichten: 467
Re: Statistische significantie categorische variabele
Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
-
- Berichten: 92
Re: Statistische significantie categorische variabele
Saffron schreef: Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
Het is de bedoeling dat aan de hand van wat er op een marktplein in het echt te zien is, een waarde voor de tevredenheid ervan wordt voorspeld.Saffron schreef: Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??
Dus adhv het percentage groen en bebouwing aanwezig, het type grootte, het weertype op dat moment (en eventueel ook de topografie ervan zoals hierboven)
Ik zou dus een regressievergelijking willen die kan zeggen
Tevredenheid = a + b(% groen) + c(% bebouwing) + d(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot) + g(weer = bewolkt) + h(weer = halfbewolkt + i(weer = zonnig) + j(topografie = vlak) + k(topografie = golvend) + l(topografie = steil).
Dat je dan op het marktplein kan zien: er is 30% groen dus ik vul dat in. Het marktplein is groot dus
d*(grootte=klein) en e*(grootte =middelgroot) zijn 0 en f*(grootte = groot) wordt dan f*1.
Daarvoor moet ik natuurlijk wel weten of grootte=klein significant verband houdt met tevredenheid? Of grootte=middelgroot of grootte=groot? Anders kunnen die zowiezo weggelaten worden uit de regressievergelijking. Voor kwantitatieve variabelen is dat eenvoudig, maar ik weet niet hoe ik dat met deze categorische data moet doen (zie output hierboven).
- Berichten: 467
Re: Statistische significantie categorische variabele
Oke, een predictie model dus.
Maar in de regressievergelijking zul je nooit 'd(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot)' hebben. Je hebt maar 2 dummies, de 3e groep is de referentiegroep. Dus stel klein is de referentie, dan geeft de coefficient voor middelgroot het effect weer van middelgroot tov klein, en de coefficient voor groot het effect van groot tov klein. Voor klein heb je geen coefficient of p-waarde, want je kan niet de referentiegroep met de referentiegroep vergelijken.
Maar in de regressievergelijking zul je nooit 'd(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot)' hebben. Je hebt maar 2 dummies, de 3e groep is de referentiegroep. Dus stel klein is de referentie, dan geeft de coefficient voor middelgroot het effect weer van middelgroot tov klein, en de coefficient voor groot het effect van groot tov klein. Voor klein heb je geen coefficient of p-waarde, want je kan niet de referentiegroep met de referentiegroep vergelijken.