boxplot

Moderators: dirkwb, Xilvo

Reageer
Gebruikersavatar
Berichten: 3.681

boxplot

boxplot.png
boxplot.png (40.87 KiB) 927 keer bekeken
Wordt hier een eenduidige conclusie bedoelt of een aantal conclusies?

Gebruikersavatar
Berichten: 486

Re: boxplot

De middelste (bij rangschikking van weinig naar veel) jongen doet 2 uur meer aan sport dan het middelste meisje. De spreiding bij jongens en meisjes is ongeveer dezelfde. Je kan iets concluderen over het aantal uren sport en de spreiding van de verdeling. Veel verder dan herhalen in woorden dan wat er staat in de tabel ga je niet komen qua conclusie.

Gebruikersavatar
Berichten: 1.222

Re: boxplot

De context is moeilijk vast te stellen welke kennis wordt verondersteld. Ik zal trachten een uitleg te geven. Maar dit is misschien kennis allang bekend bij jullie.

Dus ik zie deze bijdrage als zelfstudie iets proberen uit te leggen. Mijn begripsvorming in boxplots en betrouwbaarheid interval van de mediaan:

1) Confidence interval CLT normale verdeling:
Stel men heeft een willekeurige populatie met standaarddeviatie \(\sigma\). Als men een steekproef neemt van \(n\) stuks kan men het gemiddelde bepalen. Indien men een heleboel gemiddelden neemt levert dit een normale verdeling op van het gemiddelde (in de meeste gevallen *). De centrale limietstelling CLT toont dit aan.

Het blijkt dat deze normaalverdeling van het gemiddelde een standaard afwijking heeft van:
$$\sigma_\bar{x}=\frac{\sigma}{\sqrt{n}}$$
Middels deze vergelijking kan men aan de hand van de \(z\)-score bekijken hoe waarschijnlijk een geobserveerde waarneming is. Voor de \(z\)-score zijn opzoek tabellen waarmee de oppervlakte normaal verdeling (lees de "kans") als functie van \(\sigma\) kan worden opgezocht. Voor betrouwbaarheid interval \(95\%\) dat is \(z=2\) neemt men dan: \(2 \cdot \sigma_\bar{x}\)

2) Confidence interval mediaan:
Hier begeef ik mij op glad ijs. Maar neem een poging het uit te leggen. In plaats van te kijken naar een continue normaalverdeling gaat men uit van een binomiaal verdeling.

In de meeste gevallen gaat men uit van een binomiaalverdeling met: \(p=0.5\) met \(q=1-p\). De mediaan voor \(p=0.5\) ligt precies in het middel van populatie omvang \(n\) (Wiki).

De \(mediaan\) en \(\sigma\) in binomiale verdeling:
$$mediaan=np$$
$$\sigma^2=nq(q-1)$$
Lower bound:
$$LB=nq-z\sqrt{nq(1-q)}$$
Upper bound:
$$UB=nq+z\sqrt{nq(1-q)}$$
Net als bij de normaalverdeling aanpak kan men een betrouwbaarheid interval kiezen. Deze zijn voor de mediaan/binomiaal aanpak net een beetje anders. Voor \(95 \%\) vind ik een \(z=1.96\).

Het handige is dat deze binomiaalverdeling direct genormaliseerd is, alleen de steekproef grootte \(n\) heeft invloed. Dit in tegenstelling tot punt 1), waarbij de standaard deviatie van de populatie word gedeeld door: \(\sqrt{n}\).

Een rekenvoorbeeld (en betere uitleg wellicht) is hieronder te vinden en volgens mij bijna direct toepasbaar op de vraag.
https://www.statology.org/confidence-in ... or-median/

Zelf gebruik ik de CI van de mediaan bijna dagelijks. Dan maak ik analyses met boxplots. Dan laat ik de betrouwbaarheid intervallen plotten van de mediaan. Stel er zijn twee of meer process/productie instellingen getest, indien de CI's overlappen dan is een mogelijke verbetering niet waarneembaar. Dan hoeft men niet direct naar abstracte ANOVA's te grijpen welke moeilijk uitlegbaar zijn (en juist verwarrend kunnen werken).

Met boxplots werken met CI mediaan heeft mijn voorkeur. Zo kunnen ook mensen met minder ervaring in statistiek (zoals ik) zelf een oordeel maken zonder in techno babbel te komen.

* Indien het niet normaal verdeeld is dient men een black belt te vragen. Zo kreeg ik dat geleerd :) . Zelf heb ik maar bescheiden basale statistiek kennis en van veel fouten moeten leren.

Gebruikersavatar
Berichten: 1.222

Re: boxplot

nb. De \(UB\) en \(LB\) zijn uitgedrukt in welke waarneming in de lijst gesorteerde getallen/waarnemingen. Bijvoorbeeld de \(LB=3.7\) betekend de afgerond: \(4\)e waarneming in de gesorteerde lijst.

Gebruikersavatar
Berichten: 486

Re: boxplot

@OOOVincentOOO
Ben nieuwsgierig hoe je dit gaat toepassen op deze concrete case.
Ik ga er van uit dat je een 95% betrouwbaarheidsinterval wil schatten voor de mediaan voor de jongens en de meisjes mits de nodige aannames met betrekking tot de originele verdeling. Er is zeker iets mogelijk...

Gebruikersavatar
Berichten: 1.222

Re: boxplot

Ik weet de achtergrond en context niet van de vraag. Mijn aanpak kan verkeerd zijn maar zou iets dergelijks als dit zijn:

Voor de Jongens:
n=73
q=0.5
z=1.96

Bounds waarnemingen UB en LB (95%):
LB=nq-z sqrt(nq(1-q))
LB=(73)(0.5)-(1.96) sqrt((73)(0.5)(1-0.5))
LB=28
UB=45

De mediaan is op positie:
Mediaan=(73)(0.5)=37
Eerste Kwartiel=(73)(0.25)=18
Derde Kwartiel=(73)(0.75)=55

Hieruit blijkt dat de LB en UB voor de jongens binnen de kwartielen valt.

Voor de Meisjes:
n=102
q=0.5
z=1.96

Bounds waarnemingen UB en LB (95%):
LB=nq-z sqrt(nq(1-q))
LB=(102)(0.5)-(1.96) sqrt((102)(0.5)(1-0.5))
LB=41
UB=61

De mediaan is op positie:
Mediaan=(102)(0.5)=51
Eerste Kwartiel=(102)(0.25)=25
Derde Kwartiel=(102)(0.75)=77

Hieruit blijkt dat de LB en UB voor de meisjes binnen de kwartielen valt.

Mijn conclusie.
Door alleen naar de kwartielen te te kijken kan men inschatten of de verschillen relevant zijn.

De kwartiel intervallen:
Jongens: 1.8<4<6
Meisjes: 0.3<2<4.3

In grafiekvorm:
boxplot.png
boxplot.png (2.78 KiB) 632 keer bekeken
De kwartielen overlappen. Dit betekend dat de verschillen tussen jongens en meisjes niet aannemelijk zijn.

De bovenste kwartiel meisjes komt bijna tegen mediaan van Jongens.

Echter de betrouwbaarheid (95%) intervallen liggen hierbinnen. Hoe dit hierin goed te betrekken weet ik niet nu direct. Inschatten kan en dan nog overlappen de kwartielen.

Voetnote:
Rekenfouten voorbehouden. Ik heb totaal geen routine dergelijke analysis met de hand te doen.

Wellicht zijn er ook vuistregels die stellen dat de betrouwbaarheids intervallen binnen de kwartielen vallen bij een bepaald minimum aantal waarnemingen.

Afhankelijk uit welk boek deze opgave komt lijkt het mij aannemelijk dat men met vuistregels moet werken. Echter deze kan ik niet halen uit de opgave.

Betreffende het laatste zou ik moeten studeren.

Gebruikersavatar
Berichten: 1.222

Re: boxplot

Zie zojuist dat mediaan in grafiek jongens dient: 4 te zijn en niet 5. Dit zou correct moeten zijn:
boxplot.png
boxplot.png (3.93 KiB) 608 keer bekeken

Gebruikersavatar
Berichten: 3.681

Re: boxplot

Het vraagstukje (opgave 2) is onderdeel van het onderwerp "verschil tussen kwantitatieve variabelen" (wiskunde A Havo4)
als antwoord wordt gegeven:
Er is overloop en de medianen vallen binnen de andere boxen, dus is het verschil gering.
https://content.math4all.nl/view?comp=h ... em=answers

Gebruikersavatar
Moderator
Berichten: 6.762

Re: boxplot

ukster schreef: di 23 nov 2021, 09:58 Het vraagstukje (opgave 2) is onderdeel van het onderwerp "verschil tussen kwantitatieve variabelen" (wiskunde A Havo4)
als antwoord wordt gegeven:
Er is overloop en de medianen vallen binnen de andere boxen, dus is het verschil gering.
Hoe verzinnen ze het :o

De helft van de meisjes sport minder dan 2 uur/week, terwijl dat bij de jongens iets meer dan een kwart is.
Een kwart van de meisjes sport niet of nauwelijks. Hoeveel dat bij de jongens is valt niet uit de gegevens te herleiden maar waarschijnlijk een veel kleinere fractie.
De helft van de jongens sport meer dan 4 uur/week, bij de meisjes is dat iets meer dan een kwart.

Noem dat verschil maar gering.

Je zal maar beoordeeld worden op je antwoord op zo'n vraagstuk.

Gebruikersavatar
Berichten: 1.222

Re: boxplot

Xilvo schreef: di 23 nov 2021, 11:17 Je zal maar beoordeeld worden op je antwoord op zo'n vraagstuk.
Precies, men zou meer focus kunnen leggen wat de afwijking van gemiddelde en/of mediaan betekend.

Volgens Cross Validated (relatie CI mediaan en IQR):
$$95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}}$$
Bron: Cross Validated

Of dit tot de lesstof behoort betwijfel ik.

Volgens bovenstaande formule kom ik op onderstaande plot:
boxplot.png
boxplot.png (5.44 KiB) 544 keer bekeken
Komt overeen met handmatig berekende LB en UB zie eerder antwoord.

Uit deze plot zou ik voor engineering doeleinden (95%) zeggen dat er aanwijzingen zijn voor een verschil tussen jongens en meisjes. De CI(95%) raken elkaar bijna/niet.

Waarom in de vraag over "conclusies" gesproken word weet ik niet. Statistiek is niet zwart wit kijken met een uniek antwoord. Conclusies trekken doe je samen in een groep.

Gebruikersavatar
Berichten: 486

Re: boxplot

Ik ga uit van een normale verdeling. En reken alles om naar standaard deviaties. In het geval van parametrische statistiek schatten we de grootte van een verschil in via Cohen’s d. We nemen het verschil van de gemiddeldes en delen dat door de gepoolde SD. Hieronder mijn code in R.

De output is

Verschil gemiddelden Standaard Fout t p-value d
2.000000e+00 2.320917e-01 8.617284e+00 4.182497e-15 1.321076e+00

Je verwoordt dat dan mooi als:

Een onafhankelijke t-toets toont aan dat er een significant verschil is tussen de tijd dat jongens en meisjes sporten, t(173)=8.61, p<.001. De effectgrootte is 1.32. Dit wijst op een sterk effect van geslacht op het aantal uur sport.

Mogelijk is de niet-parametrische variant wel meer op zijn plek.



Code: Selecteer alles

t.test2 <- function(m1,m2,s1,s2,n1,n2,m0=0,equal.variance=FALSE)
{
  # pooled standard deviation, scaled by the sample sizes
  se <- sqrt( (1/n1 + 1/n2) * ((n1-1)*s1^2 + (n2-1)*s2^2)/(n1+n2-2) ) 
  sp <- sqrt( ((n1-1)*s1^2 + (n2-1)*s2^2)/(n1+n2-2) ) 
  df <- n1+n2-2
    t <- (m1-m2-m0)/se 
  d <- (m1-m2)/sp
  dat <- c(m1-m2, se, t, 2*pt(-abs(t),df), d)    
  names(dat) <- c("Verschil gemiddelden", "Standaard Fout", "t", "p-value", "d")
  return(dat) 
}



(tt2 <- t.test2(4, 2, 4.2/1.34896/2, 4.0/1.34896/2, 73, 102))

Gebruikersavatar
Berichten: 486

Re: boxplot

Correctie, moet zijn

(tt2 <- t.test2(4, 2, 4.2/1.34896, 4.0/1.34896, 73, 102))

in de code, zonder die gedeeld door 2.

Gebruikersavatar
Berichten: 1.222

Re: boxplot

Knap, hoe je dat allemaal berekend en uitzoekt! Onze methoden verschillen nogal. Nooit van Cohen's d gehoord ik zou niet weten hoe dat uit te leggen aan anderen! Is jouw normaal benadering wel mogelijk? De gegevens komen uit binomiaal met IRQ en mediaan, ik zie niet hoe jij dit bepaald/aantoond? Effecten zullen denk ik gering zjin omdat de populatie omvang redelijk groot is \(>73\).

Zelf probeer ik immer de meest eenvoudige manier van statistiek te bedrijven. Anova alleen wanneer nodig, hypothese testen zijn verwarrend als je dat niet dageljiks doet. Vaak ook problemen met niet normaal verdeelde residuals. Een beerput voor mij!

Liever op een manier wat ik kan uitleggen aan anderen. Ook probeer ikzelf woorden als significant te vermijden. Uit eigen ervaring weet ik dat mensen in (mijn) werkomgeving hun eigen conclusie/bevinding willen trekken. Veel boze blikken in meetings gezien als ik het woord significant zeg :) !

Als ik met nul hypothesis kom en p-values gaat het vaak mis. Verwarrend voor mijzelf en collega's. Ik kan mij goed voorstellen dat statistici onderling graag zo praten of in officiele documenten.

Zoals onderstaande had ik nog een intuitieve uitleg voor onderstaande formule:
$$95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}}$$
Uitleg:
Bij een normaal verdeling is de \(95 \%\) CI van (gemiddelde) op \(±2 \sigma\). De CI van de mediaan heeft een correctie factor \(1.57\). Een normaal verdeling: \(±1 \sigma\) is \(68 \%\) de IRQ is \(50 \%\). Dit geeft als \(68/50=1.36\) de rest is de correctie factor van binomiaal naar de normaal verdeling.
boxplot.png
boxplot.png (5.44 KiB) 384 keer bekeken
Dit zouden mijn bevindingen zijn van resultaten hoe ik dat in een ppt zou vermelden:
  • Er zijn groepen jongens en meisjes waarbij geen verschil in aantal uren sport is. De halve interkwartielen \(25 \%\) j/m overlappen elkaar. Gedetailieerde gegevens over populatie verdelingen is onbekend.
  • Op basis van de mediaan is een aantoonbaar verschil tussen aantal uren sport tussen j/m. De medianen overlappen elkaar (bijna) niet met een CI van \(95 \%\). De "gemiddelde" jongen sport meer dan een "gemiddeld" meisje.
Conclusies? Weet ik niet. Als het een technisch probleem was zou ik zeggen eerst de reprocuceerbaarheid verbeteren, de spreiding is te groot. Hierna kunnen we process verbeteren door offset (verschil gemiddelden) te verkleinen.

Wel begrijp ik nu de insteek wat een HAVO student moet leren herkennen (punt 1) en een simpel box plotje maken van IRQ).

Reageer