[wiskunde] statistische intelligentie, correlatie

carbon

Hallo,

Voor wiskunde moeten we i.v.m. de bundels statistische intelligentie zelf een onderzoek verrichten waarbij wij moeten nagaan of er een verband bestaat tussen twee variabelen.

Wij kregen als groepje het (weinig inspirerend) onderwerp toegewezen: "Is er een samenhang tussen de hoeveelheid zakgeld dat je maandelijks (of wekelijks) krijgt, en het budget dat je spendeert aan je GSM?"

Eerst wouden wij als populatie de hele middelbare school nemen, maar aangezien in de opdrachten staat dat we 30 steekproefpersonen mogen hebben, zijn we niet zeker of zo'n kleine groep representatief kan zijn voor meer dan 1000 leerlingen.

Wat zou beter zijn? Zouden we als populatie het 6e jaar nemen? Dat is ongeveer 110-120 man. Indien de populatie dan weer te klein is, kunnen we mss ook de 3e graad (= 5e & 6e leerjaar) nemen als populatie, vertegenwoordigd door die 30 proefpersonen. Wat is het best?

Eens we een representatieve groep hebben gevonden, moeten we ook aselect te werk gaan. Het leek ons hierbij goed om gewoonweg de gehele populatie alfabetisch te ordenen en dan de eerste 30 te nemen. Aan die steekproefpersonen vragen we dan beleefd een papiertje in te vullen met hun zakgeld + hoeveel ze spenderen aan de GSM.

Daarna zullen we de correlatie van deze gegevens onderzoeken a.d.h.v. correlatiecoëfficiënten, regressierechten, ... wat we dan tot een kleine paper vormen met afbeeldingen over puntwolken (= spreidingsdiagrammen) en dergelijke.

Als leken vroegen we ons af of dit de goede wetenschappelijke benadering is?

P.S.: onze gegevens, eens verzameld, zouden we ze dan best opsplitsen in toepasselijke groepen zoals [0,10[; [10,20[; ... voor zakgeld?

carbon

geen gedachten?

kort dan: hoe groot moet de steekproef ongeveer zijn in vgl. met de populatie?

Gesp

zijn we niet zeker of zo'n kleine groep representatief kan zijn voor meer dan 1000 leerlingen

Waarom wil je representatief zijn voor 1000 leerlingen? Je vraag gaat niet over de leerlingen, maar over de hoeveelheid zakgeld. Je moet dus zorgen dat er veel verschillende niveau's van zakgeld in je steekproef vertegenwoordigd zijn.

in de opdrachten staat dat we 30 steekproefpersonen mogen hebben

Bij kleine aantallen is het extra belangrijk dat je alle proefpersonen kunt gebruiken. Voor je vraag kun je alleen mensen gebruiken met een GSM - mensen zonder GSM (mochten die nog bestaan) geven geen informatie over je vraag en kun je vantevoren al weglaten.

de hoeveelheid zakgeld dat je ... krijgt

Wat doe je met inkomsten uit baantjes? Maakt het voor je onderzoek uit of de ouders het GSM-abbonnement betalen?

Eens we een representatieve groep hebben gevonden, moeten we ook aselect te werk gaan. Het leek ons hierbij goed om gewoonweg de gehele populatie alfabetisch te ordenen en dan de eerste 30 te nemen.

Wat is meer aselect:

a- selectie op basis van naam,

b- willekeurige personen uit de populatie (obv rangnummer mbv een randomnummer generator).

hoe groot moet de steekproef ongeveer zijn in vgl. met de populatie?

Dat hangt ervan af:

- hoe groot is de populatie?

- (belangrijker:) hoe homogeen is de populatie?

- (allerbelangrijkst:) hoe willekeurig is je steekproef getrokken?

Als je de gemiddelde lengte wilt schatten in een groep 15-jarigen of heb je aan 10 proefpersonen voldoende. Voor de standaarddeviatie geldt hetzelfde.

Je vragen gaan alleen over de representativiteit van je steekproef. Minstens zo belangrijk zijn: je vraag exact formuleren, zodat je zo precies mogelijk antwoord krijgt. En goed nadenken over

- hoe meet je 'zakgeld'

- hoe meet je 'budget gespendeerd aan GSM'

Als de ene proefpersoon dat heel anders doet dan de ander, krijg je ruis en wordt het moeilijker om een verband -als dat bestaat- te meten.

Algemene tip: denk eens na of er ook andere variabelen zijn die het GSM-budget bepalen

Is er verschil tussen meisjes en jongens? Is er invloed van leeftijd? Maakt het uit of iemand verkering heeft? Maakt het uit of iemand een baantje heeft?

carbon

Oké bedankt! Ik zal met die informatie mijn methode wat aanpassen.

Al snap ik niet echt waarom alfabetisch kiezen niet volledig aselect is... Dat is toch alsof de persoon eigenlijk bij de geboorte al de random integer methode onderging in de vorm van woorden?

Ook: is het wetenschappelijk om bijv. deze vraag "Hoeveel zakgeld krijg je per week?" vrij te laten invullen? Dan ben ik van plan eens ik de informatie heb intervallen te maken die praktisch zijn adhv de verkregen informatie (als ik op voorhand bijvoorbeeld heb [0,10], [10,20], [20,30] heb en de frequentie is respectievelijk 0, 30, 0 --weliswaar overdreven-- blijkt zou dat erg irritant zijn).

Gesp

Al snap ik niet echt waarom alfabetisch kiezen niet volledig aselect is... Dat is toch alsof de persoon eigenlijk bij de geboorte al de random integer methode onderging in de vorm van woorden?

- Omdat familieleden dan bij elkaar in de groep komen. Familieleden zijn niet van elkaar onafhankelijk

- Omdat in sommige streken/talen sommige letters vaker gebruikt worden. Daardoor kunnen sommige groepen vaker (of juist minder vaak) in je steekproef terecht komen dan je zou willen.

Ook: is het wetenschappelijk om bijv. deze vraag "Hoeveel zakgeld krijg je per week?" vrij te laten invullen? Dan ben ik van plan eens ik de informatie heb intervallen te maken die praktisch zijn adhv de verkregen informatie (als ik op voorhand bijvoorbeeld heb [0,10], [10,20], [20,30] heb en de frequentie is respectievelijk 0, 30, 0 --weliswaar overdreven-- blijkt zou dat erg irritant zijn).

Als dat laatste zou gebeuren zou je onderzoek waardeloos zijn. Statistisch gezien is het beter om een getal te vragen. Je kunt het inderdaad altijd nog in intervallen verdelen. Maar daarmee verlies je informatie (en daarmee 'power'). Continue variabelen gebruiken is krachtiger (bv. student t-test of pearson correlatiecoefficient of lineaire regressie). Maar de meest gebruikte testen doen de aanname dat data afkomstig zijn uit een normaalverdeling (als dat je wat zegt); die aanname hoeft niet realistisch te zijn.

carbon

Hm, oké, dus continue variabelen zijn handiger voor de berekeningen, maar opdelen in intervallen is waarschijnlijk wel overzichtelijker bij het presenteren.

Ik zal dus "vrije" antwoorden vragen en achteraf zien wat de beste optie is.

Bedankt voor alle hulp!

Wetenschapsforum

Laatste berichten

Nieuwsberichten

[wiskunde] statistische intelligentie, correlatie

[wiskunde] statistische intelligentie, correlatie

Re: [wiskunde] statistische intelligentie, correlatie

Re: [wiskunde] statistische intelligentie, correlatie

Re: [wiskunde] statistische intelligentie, correlatie

Re: [wiskunde] statistische intelligentie, correlatie

Re: [wiskunde] statistische intelligentie, correlatie