Springen naar inhoud

Statistische significantie categorische variabele


  • Log in om te kunnen reageren

#1

jones123

    jones123


  • >25 berichten
  • 92 berichten
  • Ervaren gebruiker

Geplaatst op 06 mei 2014 - 23:29

Hallo!

 

Ik zit een beetje te sukkelen met de analyse van mijn enquete. Ik moet de tevredenheid over een marktplein evalueren:

Tevredenheid = f(% groen, % bebouwing, grootte, weertype)

 

Tevredenheid = ordinaal (schaal van 1 tot 10)

% groen en % bos = numerisch

Grootte = nominaal (1 = klein, 2 = middelgroot, 3 = groot)

Weertype = nominaal (1 = bewolkt, 2 = half bewolkt, 3 = zonnig)

 

Ik zou hier graag een regressie opdoen maar ik zit wat vast met de categorische variabele. Ik heb univariate regressie gedaan tussen tevredenheid en % groen alsook tussen tevredenheid en % bebouwing om de statistische significantie tussen beiden te onderzoeken. Hoe bepaal ik de significantie per level  van de categorische variabele (en niet van de categorische variabele in z'n geheel) met de tevredenheid?

M.a.w. hoe kan ik weten of bv. weertype 1 (bewolkt) significant verband houdt met tevredenheid, weertype 2 (half bewolkt) dan weer niet, ... Ik doe mijn analyse in Rstudio.

 

Nog een extra vraagje: is het nodig de ordinale tevredenheidsgegevens te normaliseren?

 

Het uiteindelijke resultaat moet iets zijn van (puur hypothetisch) : Tevredenheid = -0.11 + 0.38(% bos) - 2.3(W1) + 1.1(W2) - 1.9(G3)

 

Alvast bedankt!


Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 07 mei 2014 - 21:07

Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.
Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.

#3

jones123

    jones123


  • >25 berichten
  • 92 berichten
  • Ervaren gebruiker

Geplaatst op 08 mei 2014 - 16:19

Je weet dat je met een ordinale uitkomstmaat strikt gezien geen regressie mag doen? Als je dat toch wilt doen, check dan wel even of je residuen normaal verdeeld zijn.
Voor de nominale variabelen moet je zorgen dat je dummies in je model hebt. Het aantal dummies= het aantal categorieen-1; de categorie waarvoor je geen dummy hebt is dan de referentie-categorie. In R kan je je aangeven dat een variabele een factor is; dan maakt hij automatisch dummies.

Bedankt voor de reactie. Ik heb het eens uitgeprobeerd in R (weliswaar met andere variabelen dan hierboven) en krijg volgende resultaten. Ik weet echter niet welke van de twee de beste is? De eerste (reg1 in bijlage) is met en de tweede (reg2) zonder intercept, maar ze geven beide een andere significantie per level van de variabele aan? Indien de eerste methode de beste is, mag ik dan (Intercept) interpreteren als de 3e level, namelijk 'golvend' (naast vlak en steil is er ook nog golvend als onderverdeling)?

Bijgevoegde miniaturen

  • reg1.png
  • reg2.png

Veranderd door jones123, 08 mei 2014 - 16:20


#4

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 08 mei 2014 - 20:51

Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.

#5

jones123

    jones123


  • >25 berichten
  • 92 berichten
  • Ervaren gebruiker

Geplaatst op 08 mei 2014 - 21:11

Waarom zou je een model zonder intercept doen? Dit dwingt je regressie-lijn door het (0,0) punt, maw als al je dependent variabelen 0 zijn, is je independent variabele ook 0. Dat is hier niet aannemelijk.

Hmm ja, daar heb je gelijk in. Dus conclusie: enkel data$Topogolvend = (Intercept) uit reg1 houdt significant verband met data$LA?


#6

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 08 mei 2014 - 21:22

Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.

#7

jones123

    jones123


  • >25 berichten
  • 92 berichten
  • Ervaren gebruiker

Geplaatst op 08 mei 2014 - 21:26

Het intercept interpreteer je verder niet. Je kijkt alleen naar de dummies die het effect van de betreffende dummy t.o.v. de referentiegroep (=golvend) weergeeft.

Hmm, ik ben niet zo mee. Hoe weet ik nu het antwoord op mijn originele vraag aan de hand van deze analyse: welke variabelen moet ik meenemen in de uiteindelijke multivariate regressie omdat deze significant is met de afhankelijke variabele? TopoVlak en TopoSteil alleszins niet want p > 0,05 maar wat dan met TopoGolvend?


#8

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 09 mei 2014 - 19:32

Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??

#9

jones123

    jones123


  • >25 berichten
  • 92 berichten
  • Ervaren gebruiker

Geplaatst op 10 mei 2014 - 18:21

Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??

 

Maar je wilde toch het volgende model:
Tevredenheid = f(% groen, % bebouwing, grootte, weertype)??

Het is de bedoeling dat aan de hand van wat er op een marktplein in het echt te zien is, een waarde voor de tevredenheid ervan wordt voorspeld.

 

Dus adhv het percentage groen en bebouwing aanwezig, het type grootte, het weertype op dat moment (en eventueel ook de topografie ervan zoals hierboven)

 

Ik zou dus een regressievergelijking willen die kan zeggen

Tevredenheid = a + b(% groen) + c(% bebouwing) + d(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot) + g(weer = bewolkt) + h(weer = halfbewolkt  + i(weer = zonnig) + j(topografie = vlak) + k(topografie = golvend) + l(topografie = steil).

Dat je dan op het marktplein kan zien: er is 30% groen dus ik vul dat in. Het marktplein is groot dus
d*(grootte=klein) en e*(grootte =middelgroot) zijn 0 en f*(grootte = groot) wordt dan f*1.

Daarvoor moet ik natuurlijk wel weten of grootte=klein significant verband houdt met tevredenheid? Of grootte=middelgroot of grootte=groot? Anders kunnen die zowiezo weggelaten worden uit de regressievergelijking. Voor kwantitatieve variabelen is dat eenvoudig, maar ik weet niet hoe ik dat met deze categorische data moet doen (zie output hierboven).

Veranderd door jones123, 10 mei 2014 - 18:23


#10

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 13 mei 2014 - 20:47

Oke, een predictie model dus.
Maar in de regressievergelijking zul je nooit 'd(grootte=klein) + e(grootte =middelgroot) + f(grootte = groot)' hebben. Je hebt maar 2 dummies, de 3e groep is de referentiegroep. Dus stel klein is de referentie, dan geeft de coefficient voor middelgroot het effect weer van middelgroot tov klein, en de coefficient voor groot het effect van groot tov klein. Voor klein heb je geen coefficient of p-waarde, want je kan niet de referentiegroep met de referentiegroep vergelijken.





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures