Springen naar inhoud

Wat te doen met uitschieters?


  • Log in om te kunnen reageren

#1

pietje_38

    pietje_38


  • 0 - 25 berichten
  • 4 berichten
  • Gebruiker

Geplaatst op 05 december 2010 - 22:26

Beste mensen,

ik heb een probleem waar ik na zoveel weken niet uitkom. Nu is er een databestand. In dat bestand zijn er enkele uitschieters geconstateerd. Dat zie je door de punten die je op een scatterplotdiagram ziet. Deze wijken namelijk nogal uit. Hiernaast heb ik in een regressieanalyse geconstateerd dat de R2 rond 25% komt te liggen. Door deze uitschieters te verwijderen, komt de R2 uit op 52%. Als ik dit op deze manier aangeef, dan heeft mn docent hier nogal kritiek op.

Hij vindt dat je pas kunt aangeven of de waardes uitschieters zijn, door te kijken naar...ik citeer: "de variabelen in kaart brengen m.b.v. histogrammen en een overzicht van de belangrijkste kengetallen en voer je daarna de regressie uit. Pas op basis van de grafieken en regressiemodel kun je pas iets zeggen over het wel of niet zinvol zijn van het verwijderen van enkele gegevens.

Wat doe ik fout hier? Wat moet ik uit de belangrijkste kentallen kunnen lezen???

alsjeblieft jullie reacties.....

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

317070

    317070


  • >5k berichten
  • 5567 berichten
  • Moderator

Geplaatst op 05 december 2010 - 22:40

Wat doe ik fout hier? Wat moet ik uit de belangrijkste kentallen kunnen lezen???

Je mag inderdaad niet zomaar getallen weghalen omdat je regressie dan beter gaat werken... de getallen zijn gemeten geweest. Dus als je ze weghaalt, dan zou je vind ik minstens moeten aangeven.

a) hoe je geconstateerd hebt dat ze verkeerd zijn (want dat is de enige reden om ze weg te smijten, niet omdat je r2 plots beter wordt)
b) waaraan die (meet)fout dan wel kan liggen

Die kengetallen zouden typisch de 4 kwartielen kunnen zijn of metingen buiten 3x de standaardafwijking.

Concreet bij regressieanalyse kun je eerst je verwachte waarde voor iedere meting berekenen (let: hiervoor moet je al een regressie uitgevoerd hebben), daarna bereken je de 'fout' op al je metingen. Als je nu de standaardafwijking van de fout op de metingen bepaalt, en er dan metingen op meer dan 3x de standaardafwijking liggen, dan kun je wegsmijten (mits verantwoording waar die fout dan wel vandaan komt)

Of je kunt een histogram van de fout maken, en zien dat er bepaalde uitschieters zijn in het histogram. (dit zijn metingen in gebieden die 'afgesneden' zijn van de rest van de metingen.
What it all comes down to, is that I haven't got it all figured out just yet
And I've got one hand in my pocket and the other one is giving the peace sign
-Alanis Morisette-

#3

pietje_38

    pietje_38


  • 0 - 25 berichten
  • 4 berichten
  • Gebruiker

Geplaatst op 05 december 2010 - 22:55

Aha...ik snap je reactie, .....denk ik :$. Als ik puur naar die kentallen kijk, kan ik zeggen dat de twee uitschieters op respectievelijk ruim 16 keer en bijna 8 keer de standaardafwijking van het gemiddelde liggen
Dit is dus meer dan 3x de standaardafwijking als zoals hierboven aangegeven.

Mag ik vragen wat je bedoelt met het stukje over regressieanalyse? Vooral met het stukje...."Let op.....hebben"?

#4

317070

    317070


  • >5k berichten
  • 5567 berichten
  • Moderator

Geplaatst op 05 december 2010 - 23:03

Aha...ik snap je reactie, .....denk ik :$. Als ik puur naar die kentallen kijk, kan ik zeggen dat de twee uitschieters op respectievelijk ruim 16 keer en bijna 8 keer de standaardafwijking van het gemiddelde liggen
Dit is dus meer dan 3x de standaardafwijking als zoals hierboven aangegeven.

Mag ik vragen wat je bedoelt met het stukje over regressieanalyse? Vooral met het stukje...."Let op.....hebben"?

Tuurlijk, overigens is het het gemakkelijkst als je zo wat je niveau aangeeft bij vragen ;) dan kan ik wat 'gerichter' antwoorden.

Wel, een receptje

1) je hebt metingen uitgevoerd (waar iets mis ging)
2) je berekent je regressiemodel
3) je bemerkt uitschieters
4) je berekent het verschil tussen de waarde die je zou verwachten met je regressiemodel, en de waarden die je effectief gemeten hebt, dit is je fout
5) je bepaalt de standaardafwijking van je fouten.
6) alle metingen met een fout boven 3x de standaardafwijking zijn wegsmijtbaar. De kans dat je ze echt zou meten bij een normaal-verdeelde meetfout is slechts 0,3% dus zijn ze tenzij je honderden metingen hebt, waarschijnlijk fout.
7) je berekent opnieuw je regressie, maar nu zonder de waarden die je al weggesmeten hebt, indien nodig kun je nog terug keren naar stap 3)
What it all comes down to, is that I haven't got it all figured out just yet
And I've got one hand in my pocket and the other one is giving the peace sign
-Alanis Morisette-

#5

pietje_38

    pietje_38


  • 0 - 25 berichten
  • 4 berichten
  • Gebruiker

Geplaatst op 05 december 2010 - 23:13

1) je hebt metingen uitgevoerd (waar iets mis ging)
2) je berekent je regressiemodel

Dat heb ik inderdaad gedaan en dan komen die waarden uit zoals hierboven aangegeven (standaardevaiatie, gemiddelde, max...)

3) je bemerkt uitschieters

Hier kunnen we wat meer op inzoomen door een histogram te maken (scatterplot) en op deze manier zien welke uitschieters deze zijn.

Is het misschien een idee om het databestand toe te voegen? Heb je een beter idee waar ik het over heb.
4) je berekent het verschil tussen de waarde die je zou verwachten met je regressiemodel, en de waarden die je effectief gemeten hebt, dit is je fout

Hier gaat het mis....hoe doe je dit? Je hebt eenmaal een regressiemodel met de fouten erin.

5) je bepaalt de standaardafwijking van je fouten.

Overigens, is het een idee om het databestand toe te voegen? Heb je een beter idee waar ik het over heb...

#6

317070

    317070


  • >5k berichten
  • 5567 berichten
  • Moderator

Geplaatst op 05 december 2010 - 23:31

Hier gaat het mis....hoe doe je dit? Je hebt eenmaal een regressiemodel met de fouten erin.

Ah, als je de fouten al hebt is het eenvoudiger. Of begrijp ik je verkeerd?

Als je een regressiemodel hebt, kun je bijvoorbeeld gegeven x de waarde y bepalen. Maar je meting was y' voor die waarde van x. Dan is de fout y'-y.

Overigens, is het een idee om het databestand toe te voegen? Heb je een beter idee waar ik het over heb...

Ik heb hier geen excell ofzo, maar een plotje of een grafiekje zijn meestal het handigst.
Anders kun je het nog altijd plaatsen (zie bijlagen onderaan waar je een bericht schrijft), en dan kan iemand anders je misschien verder helpen.
What it all comes down to, is that I haven't got it all figured out just yet
And I've got one hand in my pocket and the other one is giving the peace sign
-Alanis Morisette-

#7

pietje_38

    pietje_38


  • 0 - 25 berichten
  • 4 berichten
  • Gebruiker

Geplaatst op 05 december 2010 - 23:45

statistics.JPG
income.JPG
assets.JPG
debt.JPG .
sales.JPG


Ow jah, logisch natuurlijk...

Ik heb trouwens screenshots gemaakt. Ik bedoelde met "de fouten zijn al geconstateerd", dus eigenlijk de uitschieters die je kunt zien in scatterplot.

#8

317070

    317070


  • >5k berichten
  • 5567 berichten
  • Moderator

Geplaatst op 06 december 2010 - 02:03

Zeg het als ik iets stom zeg, ik ben een elektrotechnieker, geen economieker, maar zou een (dubbel)logaritmische schaal niet logischer zijn?

Verder denk ik dat ik nu begrijp wat je prof bedoelt. Volgens mij verwacht hij een histogram van bv value, waarop je dan perfect kunt aantonen dat er 2 'missers' zijn. Formeel meer dan 3x de standaarddeviatie. Ook bij assets, value en sales zijn er dan een paar uitschieters, die je dan natuurlijk ook zo moet aanpakken. Je mag natuurlijk geen biased statistiek uitvoeren en je methode maar op 1 parameter gebruiken, tenzij je dit kunt verantwoorden.

Zomaar zeggen, deze zijn fout, is slechte wetenschap.

Vergeet daarnaast die weglatingen ook niet te verantwoorden, la, dit model is betrouwbaar in een beperkt gebied tot ... value.
What it all comes down to, is that I haven't got it all figured out just yet
And I've got one hand in my pocket and the other one is giving the peace sign
-Alanis Morisette-





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures