Springen naar inhoud

Schatting van de standaardafwijking


  • Log in om te kunnen reageren

#1

Hans Kuiper

    Hans Kuiper


  • 0 - 25 berichten
  • 6 berichten
  • Gebruiker

Geplaatst op 30 mei 2007 - 09:49

De formule voor de schatting van de standaardafwijking van de populatie uit een steekproef is:

sigma=s*(n/n-1)^0,5

Hoe dit is afgeleid weet ik niet, maar het staat in elk statistiekboek.
Ik deed steekproefsimulaties in Excel, met een populatie met een normale verdeling met een bekende mu en sigma.
De gemiddelde uitkomst van de schatting week af van de mijn bekende werkelijkheid.
Ik ging wat spelen met de macht en probeerde wat anders dan de tweedemachts wortel.
Toen bleek mij dat (bij ca 1000 steekproeven met n=2 tot n=40) de formule

sigma=s*(n/n-1)^0,8

leidt tot een veel betere gemiddelde voorspelling dan de formule uit de literatuur.
Hoe kan dat?
Ik ben geen statisticus maar ben ermee bezig omdat ik probeer iets te begrijpen van probabilistische ramen.

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

EvilBro

    EvilBro


  • >5k berichten
  • 6703 berichten
  • VIP

Geplaatst op 30 mei 2007 - 21:33

De formule voor de schatting van de standaardafwijking van de populatie uit een steekproef is:

sigma=s*(n/n-1)^0,5

Ik vermoed dat LaTeX hier gelijk is aan:
LaTeX
Als schatting voor de standaarddeviatie wordt nu gekozen:
LaTeX

De gemiddelde uitkomst van de schatting week af van de mijn bekende werkelijkheid.

De vraag die je jezelf dan moet stellen is of hij ook buiten je verwachting valt.

Hoe kan dat?

Drie mogelijkheden: 1. Stom toeval. 2. Excel heeft geen goede random-functie. 3. Er is iets mis met je experiment.

ik heb hieronder even het resultaat van een simulatie gedaan waarbij ik de variantie bepaal (N=2 tot 40, 1000 simulaties per stuk, werkelijke gemiddelde is 0 en werkelijke variantie is 1). In het plaatje zie je dat de gecompenseerde variantie (de groene lijn) rond de 1 zit (de werkelijke variantie). Precies zoals de wiskunde voorspelt dus...

Geplaatste afbeelding

#3

Hans Kuiper

    Hans Kuiper


  • 0 - 25 berichten
  • 6 berichten
  • Gebruiker

Geplaatst op 31 mei 2007 - 13:09

Bedankt voor je reactie.

Ik deed precies dezelfde simulatie, dus met een populatie van mu=0 en sigma=1.

Laten we ons beperken tot het geval N=2. Bij mijn simulatie ligt het gemiddelde (van 1000 steekproeven) van de standaardafwijking van de steekproef rondom 0,56. Omdat de populatie een standaardafwijking van 1 heeft is er een vergrotingsfactor van ca. 1,78 nodig, immers 0.56*1.78=ca. 1
De theoretische factor (wortel 2) = 1,41 en geeft dus een te lage waarde.

In jouw grafiek lees ik ook (blauwe lijn) 0,56 bij N=2. Hoe3 komt het dat jouw groene lijn wél bij de 1 zit?
Want 2^0.5*0.56=ca 0.8

(N.B. is variantie wel het zelfde als standaardafwijking?)

Veranderd door Hans Kuiper, 31 mei 2007 - 13:10


#4

EvilBro

    EvilBro


  • >5k berichten
  • 6703 berichten
  • VIP

Geplaatst op 31 mei 2007 - 15:09

(N.B. is variantie wel het zelfde als standaardafwijking?)

Nee, dat is het niet natuurlijk (standaardafwijking is de wortel van de variantie). De reden dat ik de variantie heb genomen i.p.v. de standaarddeviatie is omdat de schatter voor de variantie wel unbiased is (wil zeggen dat de verwachtingswaarde gelijk is aan de werkelijke waarde). Ik zal vanavond even kijken of het 'biased' zijn van jouw schatter de oorzaak van het geziene is...

#5

Hans Kuiper

    Hans Kuiper


  • 0 - 25 berichten
  • 6 berichten
  • Gebruiker

Geplaatst op 31 mei 2007 - 21:02

Ik simuleerde het gemiddelde van de standaardafwijking van een steekproef.
Jij simuleerde het kwadraat ervan, de variantie.
Voor N=2 komen we op ongeveer de zelfde waarde: 0,56.
Hoe kan dat?
Ik bepaalde het rekenkundig gemiddelde.
En jij het kwadratisch gemiddelde??? Of het rekenkundig gemiddelde van de kwadraten???
Hoe kom jij dan van 0,56 (blauw) naar ongeveer 1 (groen) ?
Het begrip bias ken ik "van horen zeggen". Ik ben er niet vertrouwd mee.

#6

EvilBro

    EvilBro


  • >5k berichten
  • 6703 berichten
  • VIP

Geplaatst op 01 juni 2007 - 05:33

Voor N=2 komen we op ongeveer de zelfde waarde: 0,56.

Dit is onjuist. Ik doe nu even drie simulaties en vind de waarden: 0.5104, 0.4855, 0.5117. Ik vind dus helemaal niet 0.56. Het punt is ook dat ik dat niet verwacht. Daarom heb ik de 1-sigma grenzen erbij getekend. Deze grenzen zijn een maat voor de onzekerheid (en zoals je kan zien is bij N=2 de onzekerheid nogal groot).

Hoe kan dat?

Het antwoord valt binnen je onzekerheidsgrenzen. Er is geen probleem. Alleen als je telkens 0.56 vindt, is er iets raars aan de hand (en dan zul je de fout bij jezelf of bij Excel moeten zoeken, niet in de wiskunde).

Hoe kom jij dan van 0,56 (blauw) naar ongeveer 1 (groen) ?

Vermenigvuldigen met 2 (=(N)/(N-1) met N = 2)

#7

Hans Kuiper

    Hans Kuiper


  • 0 - 25 berichten
  • 6 berichten
  • Gebruiker

Geplaatst op 01 juni 2007 - 14:07

Ik heb nu de verschillen op een rijtje.
Ik deed ook een simulatie met de variantie (SA^2) . Kom dan ook bij N=2 op een gemiddelde van 0,5.
Dat betekent dan de Excel-formule voor de SA van de populatie goed is.
Maar is de (Excel-) formule voor de schatting van de standaardafwijking uit een steekproef wel goed?
Kennelijk is N/N-1 de goede vermenigvuldigingsfactor voor het schatten van de variantie.
Maar (N/N-1)^0,5 is geen goede vermenigvuldigingsfactor voor het schatten van de standaardafwijking.
Ik vond dat (N/N-1)^0,8 beter is.
Het verschil komt doordat in het ene geval (variantie) het kwadratisch gemiddelde wordt genomen en in het andere geval (standaardafwijking) het rekenkundige gemiddelde.
Geldt het één óf het andere en moeten we een keuze doen, of kunnen beide naast elkaar bestaan?
Bij mij dringt zich de vergelijking op met een weiland in de vorm van een cirkel met een zekere diameter D. Als je er een hek om moet zetten ben je geinteresseerd in D, als je het moet inzaaien dan ben je geinteresseerd in D^2.

#8

EvilBro

    EvilBro


  • >5k berichten
  • 6703 berichten
  • VIP

Geplaatst op 02 juni 2007 - 21:45

Maar is de (Excel-) formule voor de schatting van de standaardafwijking uit een steekproef wel goed?

Dat hangt af van wat je als goed ziet. De schatter is biased. Bij kleine waarden voor N zul je dat merken. Een unbiased schatter voor de standaard deviatie bij een normaal verdeeld proces is:
LaTeX
Met behulp van een benadering voor de noemer kom ik dan uiteindelijk op een verwachtingswaarde van 0.58 voor de schatter s (die jij gebruikt).

Naarmate n groter wordt, hoe dichter de noemer naar 1 gaat en hoe beter de schatting gaat kloppen (n=2 vind ik niet erg realistisch, maar misschien heb je toevallig een toepassing waarbij dit het geval is...).

Dit alles kun je gewoon voorkomen door de variantie te gebruiken, want daar is wel een simpele unbiased schatter voor.

#9

Hans Kuiper

    Hans Kuiper


  • 0 - 25 berichten
  • 6 berichten
  • Gebruiker

Geplaatst op 04 juni 2007 - 20:48

Is n=2 wel realistisch?
Ik beschouw de inschrijvingen bij een aanbesteding in de bouw als een steekproef. Er zijn b.v. wel 50 bouwbedrijven die geschikt zijn om een werk uit te voeren maar er schrijven er maar tussen de 2 en 8 in. Ik beschouw dat aantal als de steekproef en probeer uit de gedane inschrijvingen de eigenschappen van de pupulatie (mu en sigma) te schatten. Zodoende is ook n=2 een reele voorkomende mogelijkheid.

Ik kan door omstandigheden tot 20 juni niet meer reageren.
Bedankt voor je reacties tot nu toe.

Veranderd door Hans Kuiper, 04 juni 2007 - 20:49






0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures