Uitschieters bepalen

WoutMartens

Hallo,

Ik ben bezig met het bepalen van uitschieters van een reeks meetwaarden.

De reeks van meetwaarden betreft het aantal dagen dat een product zich tijdens een productieproces op de laatste plek bevind. Deze data komt voort uit SAP.

Ik heb +- 4000 metingen. De laagste meting is 0 dagen en de hoogste 81 dagen. Het gemiddelde is 2. 81 is 100% zeker onwaarschijnlijk en is of verkeerd ingevoerd of vertekend het werkelijke beeld.

Metingen:

33 % = 0 dagen

32% = 0 < 1 dagen

13% = 1 < 2 dagen.

7%= = 2 < 3 dagen.

4% = 3 < 4 dagen.

De histogram toont geen normaal verdeling. Ik denk dat ik hier wel mee kan rekenen klopt dit?

Zo heb ik het berekend:

Sigma berekenen mbv. excel: STDEV(reeks) over de gehele aantal metingen (incl. mogelijke uitschieters) = 4 dagen.

Moet ik bovenstaande sigma gebruiken of onderstaande?

Sigma zonder mogelijke uitschieters = 2 dagen.

mu = gem. meting = 2

sigma = 4

Ik neem aan dat alles buiten 3x sigma een uitschieter is. Kan ik dit inderdaad op gevoel baseren of kan ik dit wetenschappelijk aantonen?

Dit houdt in dat mu- (3xsigma) en mu + (3xsigma) de spreidingen zijn.

De spreiding is dan: [-10, 14] Dus [0,14]

Alle meetwaarden buiten deze reeks zijn uitschieters.

Klopt mijn manier van denken?

Graag reacties, omdat veel voor mij nog onduidelijk is.

Als er meer informatie nodig is of iets onduidelijk is hoor ik dit graag.

Mvg,

hanzwan

Dit kan je helaas niet wetenschappelijk aantonen. Het weghalen van data gebeurd altijd op basis van 'eigen gevoel' en of een goed argument in de vorm van 'het is erg onwaarschijnlijk dat...'. Gebaseerd op de data hierboven is het inderdaad handig om de 81 eruit te halen. Als er echter redelijk wat data ver van het gemiddelde af ligt (dwz, er komen veel meer van dit soort waarnemingen ver van het gemiddelde voor) dan is het beter het te laten zitten omdat de onderliggende kansverdeling anders niet goed wordt geschat.

Op de vraag over de normaalverdeling. Dit lijkt mij dan niet juist, als de data na 4000 samples niet erg sterk op een normaal verdeling lijkt dan lijkt het mij onjuist zo'n verdeling te gebruiken. Het is natuurlijk erg fijn om te doen, maar helaas. Volgens de centrale limiet theorie neemt een gemiddelde wel een normale verdeling aan, dat wil zeggen, het gemiddelde is 2, dus als er een groot aantal producten wordt genomen en gemiddeld zal dit gemiddelde richting de 2 gaan en is de distributie van het gemiddelde normaal. Dit is iets anders dan dat de individuele waarnemingen van de normale verdeling afkomstig zijn.

Trouwens, ik weet niet zeker of je standaard afwijking helemaal klopt, dit geeft namelijk aan dat er behoorlijk wat spreiding is in de data. Het probleem met een normale verdeling(2,4) is dat de negatieve waardes niet voorkomen, probeer misschien eens een andere distributie, een gamma, exponentiële verdeling ( in de vorm van, tot tijdstip T zijn er al X aantal pakketen verscheept etc.) misschien dat het antwoord daarin ligt. Dit zijn pure suggesties, gebaseerd op deze gegevens kan ik ook niet meer dan dit adviseren.

WoutMartens

Dankje voor je bericht!

Ik heb een screenshot gemaakt en geupload van de data en de histogram:

http://postimage.org/image/jkqpcmmtb/

Het lijkt inderdaad niet op een normale verdeling omdat ik de negatieve waarden al weggehaald heb, omdat deze zeker incorrect zjin.

De histogram lijkt het meest op een gamma kansdichtheid verdeling (k=1 of k=2.0) Zoals hier:

http://commons.wikim...ibution_pdf.png

Mij is dan nog niet duidelijk of ik kan kiezen voor de k=1 (exponentiele functie) of k=2.

Een tijd van geheel 0 is nameiljk onwerkelijk. 0 dagen is wel werkelijk. De tijd die in de tabel als 0 wordt omschreven is in werkelijkheid [0,1}. En passeert dus binnen één dag.

Ditzelfde geld voor de rest van de reeks. t=1 houdt in : [1,2} en t=3 houdt in: [2,3} etc. etc.

Is de exponentiele kansverdeling of de gamma verdeling met k=2 toe te passen?

Dankje!

WoutMartens

Is het overigens geen eenzijdige normaalverdeling?

hanzwan

Het blijft gissen op deze manier, het kan getest worden door bijvoorbeeld het toepassen van de kolmogorov-Smirnof test; http://en.wikipedia.org/wiki/Kolmogorov ... irnov_test. SPSS, R, Matlab etc hebben meestal deze test wel in hun pakket zitten (van R en Eviews weet ik het zeker).

Veel statistische pakketten staan het toe om de gevonden data in een q_q plot te plotten tegenover theoretische verdelingen, oa de gamma en exponentiële verdeling. Als de data punten dan precies op of heel dicht om de lijn y=x liggen is het redelijk om ervan uit te gaan dat de data van dezelfde verdeling komt als de theoretische verdeling. Echter, het gaat erom dat alle punten dicht bij de lijn liggen, niet gemiddeld (dus uitschieters naar boven mogen niet gecompenseerd worden door uitschieters naar beneden)

De data lijkt mij te snel af te nemen om een normaalverdeling voor te stellen, met als gevolg dat de normaal verdeling een te grote kans zou geven op 'extremere' gebeurtenissen dan werkelijk het geval. Probeer is zo'n QQ http://en.wikipedia.org/wiki/Q–Q_plot uit te voeren. Wellicht verduidelijkt dit het een en ander.

De vraag over de grenzen hangt van de conclusies die getrokken moeten worden af. Gebaseerd op het voorgaande zou ik bijvoorbeeld argumenteren voor deze aanpak:

-Alle pakketjes die worden verscheept/verzonden/verstuurd binnen 0 en 1 dagen noteer ik als 1 dag, binnen 1 en 2 dagen noteer ik als 2 dagen. Wat ik dus eigenlijk doe is dat ik de rechtergrens neem van elk discreet interval. Nu wordt de kans van het interval 0-1 gelezen als: De kans dat de pakketen aan het eind van de dag zijn verstuurd. Dit zorgt er wel voor dat de verkregen conclusies wat 'strenger' om gaan met de data.

Ook een middelpunt kan bijvoorbeeld genomen worden, hierbij wordt er dan impliciet van uitgegaan dat over de hele dag genomen steeds een zelfde percentage van het aantal pakketen wordt verstuurd per tijdseenheid; dus 24 pakjes per dag betekent precies 1 per uur. Als dit aannemelijk is dan zou een gemiddelde genomen kunnen worden. Het probleem is echter dat de data daardoor al snel te mild genomen kan worden. Stel bijvoorbeeld dat de afdeling op het eind van de dag pas een tempo begint te maken en daardoor meer afhandelt aan het eind van de dag, dan is deze assumptie al niet meer juist.

Wat ik hiermee bedoel te zeggen is dat het ligt aan hoe u de data interpreteert en welke conclusies u wilt trekken. Het is makkelijk om data zo te manipuleren dat er een gunstig of ongustig antwoord uit komt. Wilt u graag de kwaliteit controleren van een afdeling en dit testen tegen strenge eisen, dan zou ik persoonlijk voor de rechtergrens gaan (ik zou zelf altijd voor de rechtergrens gaan) er zijn echter genoeg bedrijfsanalisten die graag zouden willen concluderen dat de afdeling in orde is, dan is een middengrens (of zelfs linkergrens) vaak een methode die gebruikt wordt (soms niet helemaal terecht)

Wetenschapsforum

Laatste berichten

Nieuwsberichten

Uitschieters bepalen

Uitschieters bepalen

Re: Uitschieters bepalen

Re: Uitschieters bepalen

Re: Uitschieters bepalen

Re: Uitschieters bepalen