Statistiek: tijdstippen en aantal tweets

ekimike86

Ik probeer duidelijk te krijgen over een significant verschil bestaat tussen aantallen onbeleefde tweets en aantallen beleefde tweets op verschillende tijdstippen (00:00 uur tot en met 23:00 uur).

Met een ANOVA moet dit te berekenen zijn, maar ik krijg geen juiste data (omdat N=1 voor uren/tijdstippen, waardoor er geen post hoc analyse kan worden uitgedraaid).

Heeft iemand suggesties?

ter verduidelijking, ik heb een simpele datamatrix gemaakt met daarin een kolom tijdstip 0 tot en met 23, dan een kolom onbeleefde tweets (per uur de frequentie) en idem voor beleefde tweets.

hanzwan

Je probleem is het aantal waarnemingen. Zoals de ANOVA (Analysis of Variance) in de naam eigenlijk al zegt analyseert het de variatie tussen de groepen. In het onderzoek is er echter maar 1 waarneming per tijdstip en dit is niet genoeg om conclusies te doen. Wat zo'n test ongeveer doet is namelijk het volgende:

De test neemt per groep/tijdstip (in dit geval uren) alle metingen (in dit geval maar 1 per tijdstip) samen, berekent het gemiddelde en de variantie, en doet op basis hiervan een uitspraak over significante verschillen. De variantie is hoeveel elke meting afwijkt van het gemiddelde van de groep/het tijdstip. Omdat er maar 1 meting is is er geen variantie en heeft deze test dus niet zoveel zin.

Dit kan worden opgelost door bijvoorbeeld de komende 10 dagen ook metingen te doen en deze 10 metingen onder elkaar als extra waarneming neer te zetten.

Intuitief is het ook wel logisch, als je maar 1 meting hebt kan het zijn dat je puur toeval of pech hebt gehad en dat er daardoor misschien een foute conclusie wordt gemaakt. Stel dat de kans op winnen in een bepaalde loterij 1 op 1000 is, en ik win meteen na 1 keer spelen, dan kan ik hieruit geen zinnige waarnemingen doen. Echter, als ik 12 000 keer speel en ik win ongeveer tussen de 11 en 13 keer dan valt er een veel redelijkere schatting te maken. Ik hoop dat het hiermee duidelijk is wat ik bedoel

ekimike86

hanzwan schreef:Je probleem is het aantal waarnemingen. Zoals de ANOVA (Analysis of Variance) in de naam eigenlijk al zegt analyseert het de variatie tussen de groepen. In het onderzoek is er echter maar 1 waarneming per tijdstip en dit is niet genoeg om conclusies te doen. Wat zo'n test ongeveer doet is namelijk het volgende:

De test neemt per groep/tijdstip (in dit geval uren) alle metingen (in dit geval maar 1 per tijdstip) samen, berekent het gemiddelde en de variantie, en doet op basis hiervan een uitspraak over significante verschillen. De variantie is hoeveel elke meting afwijkt van het gemiddelde van de groep/het tijdstip. Omdat er maar 1 meting is is er geen variantie en heeft deze test dus niet zoveel zin.

Dit kan worden opgelost door bijvoorbeeld de komende 10 dagen ook metingen te doen en deze 10 metingen onder elkaar als extra waarneming neer te zetten.

Intuitief is het ook wel logisch, als je maar 1 meting hebt kan het zijn dat je puur toeval of pech hebt gehad en dat er daardoor misschien een foute conclusie wordt gemaakt. Stel dat de kans op winnen in een bepaalde loterij 1 op 1000 is, en ik win meteen na 1 keer spelen, dan kan ik hieruit geen zinnige waarnemingen doen. Echter, als ik 12 000 keer speel en ik win ongeveer tussen de 11 en 13 keer dan valt er een veel redelijkere schatting te maken. Ik hoop dat het hiermee duidelijk is wat ik bedoel

Ah dan moet ik er nog bij vertellen, dat ik 28 dagen aan data heb (dus vier keer 7 dagen). maar hoe zet ik dat het makkelijkst in SPSS? Een dag per kolom?

Want ik liep al weer te knoeien met labels etc. maar volgens mij lukt dat niet echt met de data die ik heb. Voorbeeld van de gegevens zoals ik ze in excel heb staan in de bijlage van dit bericht. 1 cel betekent dus alle tweets op dat tijdstip op die dag (e.g. vier keer maandag).

Je uitleg is overigens kraak helder (EN snel !!)

ekimike86

Mijn output ziet er nu uit. Heb kolommen dag | uur | onbeleefd | beleefd

bijgesloten ook de anova

hanzwan

Ik vraag me af of dit echt de handigste manier is om het aan te pakken, wat ik ervan snap gebaseerd op de geleverde files test u per uur van de dag op zowel beleefde als onbeleefde tweets. Zelf denk ik dat dit op een handigere manier kan (ik kan er naast zitten maar ik probeer het hier uit te leggen).

Hier wordt dus puur en alleen op totale aantallen gekeken en niet op relatieve frequenties. De hele lage significantie ( en dus de conclusie dat zowel de dagen/uren voor beleefd en onbeleefd zeer waarschijnlijk niet overal gelijk zijn) ontstaat vanwege deze absolute aantallen. Op deze manier wordt er bijvoorbeeld niet gecorrigeerd voor de uit de data te halen trend dat er op sommige dagen gemiddeld meer twitter activiteit is dan op andere dagen. Misschien dat ik dit met een niet gerelateerd voorbeeld kan verduidelijken:

Stel dat ik in een populatie ratten een bepaalde ziekte wil testen, ik ben geïnteresseerd of er nog steeds een even grote kans is voor een willekeurige rat om deze ziekte te hebben. In week 1 doe ik een meting en schrijf ik op dat er in totaal 4 ratten geïnfecteerd zijn. In week 10 meet ik weer en zie ik vervolgens dat er 400 ratten geïnfecteerd zijn. Kan ik hierop iets concluderen? Hier worden alleen naar absolute aantallen gekeken, als er in week 1 maar 10 ratten waren, en in week 10 maar liefst 1000 ratten dan is in beide gevallen de kans op een willekeurig geïnfecteerde rat 40% en zal een Anova test (of wat voor test ik ook wil gebruiken) geen significant verschil vinden. Echter, als ik puur de absolute 4 en 400 invul dan zal al snel alles significant verschillen.

Gebaseerd op de informatie die ik krijg voorgeschoteld lijkt mij dit ook hier het geval, probeer (wellicht) over te gaan in percentages; bestaan de tweets uit 2 categorieën? Netjes vs Niet Netjes? In dit geval is percentages helemaal makkelijk omdat ze "mutual exclusief en collectief exhaustieve" zijn (een berichtje is alleen netjes of niet netjes en kan niks anders zijn dan dit) en dit maakt de test dan ook makkelijker.

De anova zal vervolgens concluderen of alle dagen ongeveer gelijk zijn of dat er reden is om ervan uit te gaan dat er op 1 dag een grotere kans is op nette/niet nette tweets. Probeer na de anova test is een Turkey Range Test te doen:

http://en.wikipedia.org/wiki/Tukey's_range_test

Als de Anova aangeeft dat niet alle groepen (nu dagen) gelijk zijn dan geeft de Turkey Range test een idee over welke groepen waarschijnlijk beter/slechter zijn dan anderen.

Ik hoop dat u hier wat mee kunt.

ekimike86

hanzwan schreef:Ik vraag me af of dit echt de handigste manier is om het aan te pakken, wat ik ervan snap gebaseerd op de geleverde files test u per uur van de dag op zowel beleefde als onbeleefde tweets. Zelf denk ik dat dit op een handigere manier kan (ik kan er naast zitten maar ik probeer het hier uit te leggen).

Hier wordt dus puur en alleen op totale aantallen gekeken en niet op relatieve frequenties. De hele lage significantie ( en dus de conclusie dat zowel de dagen/uren voor beleefd en onbeleefd zeer waarschijnlijk niet overal gelijk zijn) ontstaat vanwege deze absolute aantallen. Op deze manier wordt er bijvoorbeeld niet gecorrigeerd voor de uit de data te halen trend dat er op sommige dagen gemiddeld meer twitter activiteit is dan op andere dagen. Misschien dat ik dit met een niet gerelateerd voorbeeld kan verduidelijken:

Stel dat ik in een populatie ratten een bepaalde ziekte wil testen, ik ben geïnteresseerd of er nog steeds een even grote kans is voor een willekeurige rat om deze ziekte te hebben. In week 1 doe ik een meting en schrijf ik op dat er in totaal 4 ratten geïnfecteerd zijn. In week 10 meet ik weer en zie ik vervolgens dat er 400 ratten geïnfecteerd zijn. Kan ik hierop iets concluderen? Hier worden alleen naar absolute aantallen gekeken, als er in week 1 maar 10 ratten waren, en in week 10 maar liefst 1000 ratten dan is in beide gevallen de kans op een willekeurig geïnfecteerde rat 40% en zal een Anova test (of wat voor test ik ook wil gebruiken) geen significant verschil vinden. Echter, als ik puur de absolute 4 en 400 invul dan zal al snel alles significant verschillen.

Gebaseerd op de informatie die ik krijg voorgeschoteld lijkt mij dit ook hier het geval, probeer (wellicht) over te gaan in percentages; bestaan de tweets uit 2 categorieën? Netjes vs Niet Netjes? In dit geval is percentages helemaal makkelijk omdat ze "mutual exclusief en collectief exhaustieve" zijn (een berichtje is alleen netjes of niet netjes en kan niks anders zijn dan dit) en dit maakt de test dan ook makkelijker.

De anova zal vervolgens concluderen of alle dagen ongeveer gelijk zijn of dat er reden is om ervan uit te gaan dat er op 1 dag een grotere kans is op nette/niet nette tweets. Probeer na de anova test is een Turkey Range Test te doen:

http://en.wikipedia.org/wiki/Tukey's_range_test

Als de Anova aangeeft dat niet alle groepen (nu dagen) gelijk zijn dan geeft de Turkey Range test een idee over welke groepen waarschijnlijk beter/slechter zijn dan anderen.

Ik hoop dat u hier wat mee kunt.

"(een berichtje is alleen netjes of niet netjes en kan niks anders zijn dan dit) en dit maakt de test dan ook makkelijker."

Dit is inderdaad het geval. Wanneer er maar een lelijk woord in een tweet staat, is deze niet netjes. Ik kan percentages maken van de absolute getallen, dat is ook geen probleem.

Zie bijlage voor de anova van de relatieve getallen. Significantie is nog altijd <.001

Ik leg het nu uit als volgt:

Er is inderdaad een statistisch significant verschil ontdekt tussen beleefde tweets en onbeleefde tweets (F(23,44) = 29.511; p<.001). Alle paarsgewijze vergelijkingen lieten een significant scoreverschil zien (Tukey’s HSD-procedure). De tweets die rond 5:00 uur ’s nachts zijn verstuurd, scoorde het laagst; de tweets die om 22:00 uur ’s avonds zijn verstuurd scoorde het hoogst.

Ik vraag me toch nog af hoe ik die subset moet interpreteren en het zelfde geldt voor de post hoc test (tukey). Ik krijg dan enorme lijsten te zien per uur die vergeleken wordt met de andere 23 uur. Ik vind het maar lastig, rekenen met tijdstippen.

ekimike86

ekimike86 schreef:"(een berichtje is alleen netjes of niet netjes en kan niks anders zijn dan dit) en dit maakt de test dan ook makkelijker."

Dit is inderdaad het geval. Wanneer er maar een lelijk woord in een tweet staat, is deze niet netjes. Ik kan percentages maken van de absolute getallen, dat is ook geen probleem.

Zie bijlage voor de anova van de relatieve getallen. Significantie is nog altijd <.001

Ik leg het nu uit als volgt:

Er is inderdaad een statistisch significant verschil ontdekt tussen beleefde tweets en onbeleefde tweets (F(23,44) = 29.511; p<.001). Alle paarsgewijze vergelijkingen lieten een significant scoreverschil zien (Tukeys HSD-procedure). De tweets die rond 5:00 uur s nachts zijn verstuurd, scoorde het laagst; de tweets die om 22:00 uur s avonds zijn verstuurd scoorde het hoogst.

Ik vraag me toch nog af hoe ik die subset moet interpreteren en het zelfde geldt voor de post hoc test (tukey). Ik krijg dan enorme lijsten te zien per uur die vergeleken wordt met de andere 23 uur. Ik vind het maar lastig, rekenen met tijdstippen.

Is er iemand op het forum die hier nog een antwoord op heeft?

Wetenschapsforum

Laatste berichten

Nieuwsberichten

Statistiek: tijdstippen en aantal tweets

Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets

Re: Statistiek: tijdstippen en aantal tweets