Betrouwbaarheid ranglijst

Marko

Mijn vraag is of er een statistische test bestaat die de betrouwbaarheid van een ranglijst kan uitdrukken. Daarmee bedoel ik een ranglijst die op grond van bijvoorbeeld een consumentenonderzoek wordt opgesteld. Laten we uitgaan van het volgende geval:

Er zijn 2 bakkers. Die bakken ieder in totaal 20 worstenbroodjes, met een enigzins wisselende kwaliteit. Van die 20 worstenbroodjes worden er willekeurig 3 getest. In totaal worden er dus 6 getest, en dit gebeurt per broodje door een ander persoon, met elk een iets andere smaak.

De broodjes worden beoordeeld met een cijfer tussen 0 en 10.

De eindscore is:

Bakker 1:

7

7,5

8

Bakker 2:

7

8

8

Bakker 2 haalt het hoogste gemiddelde. Maar is er een uitspraak te doen met welke zekerheid bakker 2 daadwerkelijk betere worstenbroodjes bakt?

Wat ik ooit aan statistiek heb gehad, had vooral betrokking op nulhypotheses dat de een gelijk was aan de ander. Nu gaat het dus om de nulhypothese dat (de kwaliteit van) bakker 2 hoger is dan bakker 1. Dit lijkt er erg op maar ik weet niet zo goed hoe het verder moet.

Ik ga ervan uit dat er verschillende methodes zijn, afhankelijk van het feit of de spreiding voor beide gevallen gelijk is of niet, en voor allerlei soorten verdelingen. Heb al wel iets gevonden op Wikipedia, maar ik zag al snel door de bomen het bos niet meer...

Kan iemand verder helpen en vertellen:

- hoe je zoiets aanpakt wanneer je enkel deze gegevens (dus de 6 rapportcijfers) hebt, zonder verdere informatie over de verdeling

- of een uitspraak over de betrouwbaarheid van de uitslag ook te doen is wanneer er van de ene bakker 3 broodjes, en van de andere 4 zijn getest;

- of in zijn algemeenheeid: in hoeverre het voor de betrouwbaarheid uitmaakt of er een verschil in ahet antal gesteste broodjes is;

- in welke mate de betrouwbaarheid toeneemt wanneer het aantal geteste broodjes verdubbelt.

- hoe je een dergelijke test zou doen wanneer je 100 bakkers vergelijkt, en de scores van alle bakkers gebruikt om een waarde voor de spreiding te bepalen (is dat overigens gerechtvaardigd?)

Drieske

Manieren van aanpak kunnen zeer divers zijn. Je spreekt over hypothesetesten van de vorm

\(H_0: \mu_1 \geq \mu_2\)

. Dit als hypothesetest is absoluut niets vreemds ofzo. Dit is gewoon een test van de vorm

\(H_0: \mu_1 - \mu_2 \geq 0\)

en dit kun je zo testen:

\(\mu = \frac{\mu_1 n_1 + \mu_2 n_2}{n_1 + n_2}\)

en

\(SE = \sqrt{\mu (1 - \mu) \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}\)

dan is je z-score

\(z = \frac{\mu_1 - \mu_2}{SE}\)

Een site die dit bijv bespreekt, is deze.

Het aantal geteste broodjes maakt wel uit. Het is aan te raden dat beide groepen minimaal 30 groot is. Bovendien is het ook best dat je groepen een factor 5 (tot 10) kleiner zijn dan je populatie. Dit omdat hoe groter je groep, hoe gevoeliger voor één afwijkende mening.

In se kun je je verdeling ook altijd normaal verdeeld maken. Dit kan bijv met Box-Cox.

Nu ben ik er mij van bewust dat dit zeer waarschijnlijk nog geen volledig antwoord is, maar hopelijk kan het als opstapje dienen

.

Marko

Ik kom er in ieder geval een stuk mee verder! Als ik dit volg kom ik tot

\(\mu = 7.56\)

\(SE = -24.8\)

\(z=-0.00673\)

Als ik dat opzoek vind ik een waarde van 0.497 - als ik dat terugvertaal is de kans dat Bakker 2 daadwerkelijk beter is, dus 50.3 %

Of, anders vertaald, de kans dat deze uitslag op toeval berust is 99.5 %

Heb ik dat juist?

Je opmerking over de groepen was niet helemaal helder. Welke groep moet minimaal 30 groot zijn? Is dat de groep testpersonen? En de populatie, gaat het dan over de bakkers of over het totaal aantal broodjes?

Drieske

Op dit voorbeeld, maakt het nu niet echt uit, omdat het gewoon illustratief is uiteraard. Maar vergeet niet om je data eerst normaal verdeeld te maken. Verder ben ik niet zeker of je hiermee het juiste bedoeld:

Als ik dat opzoek vind ik een waarde van 0.497 - als ik dat terugvertaal is de kans dat Bakker 2 daadwerkelijk beter is, dus 50.3 %

Of, anders vertaald, de kans dat deze uitslag op toeval berust is 99.5 %

Je p-waarde is inderdaad 0,503 (of in percentages dus 50,3%). Bijgevolg is je p-waarde groter dan eender welk zinnig significantieniveau (jij werkte op 0,005, of 0,5%?). Bijgevolg verwerp je je hypothese niet. Ik heb uit jouw laatste zin eerder het gevoel dat je wél zou verwerpen...

En die opmerking ivm groepen was misschien inderdaad wat vaag. Het hangt er maar vanaf wat je nu precies test. Ik veronderstel even dat iedere klant één cijfer per gekocht brood moet geven (dit omdat het anders zou uitmaken of ik dagelijks een brood ga kopen of in één keer 7 broden koop, en dat zou uiteraard niet ideaal zijn). Dan zou je ervoor moeten proberen te zorgen dat je bij beide bakkers over minstens 30 broden een beoordeling krijgt. Maar tegelijkertijd moet je weer proberen te bereiken dat er ongeveer 5 keer zoveel broden worden verkocht bij een bakker als dat jij beoordelingen hebt. Dit omdat je anders nauwelijks nog zinnige uitspraken kan doen.

Nu zul je btw ook wel merken dat ik ook wat valkuilen achterwege laat. Zo is het bijvoorbeeld ook niet erg optimaal om 2 personen te hebben die telkens 15 broden kopen en dat als enige beoordelingen te hebben bij één bakker. Maar dit negeer ik gewoon omdat het voorbeeld mij meer illustratief lijkt dan werkelijkheid

. Toegepast op jouw situatie zul je zelf wel dergelijke gevaren incalculeren.

Wetenschapsforum

Laatste berichten

Nieuwsberichten

Betrouwbaarheid ranglijst

Betrouwbaarheid ranglijst

Re: Betrouwbaarheid ranglijst

Re: Betrouwbaarheid ranglijst

Re: Betrouwbaarheid ranglijst