[wiskunde] variantie

Moderators: ArcherBarry, Fuzzwood

Reageer
Berichten: 412

[wiskunde] variantie

Hallo,

ik snap de formule voor de variantie niet helemaal.

In mijn cursus staat:



De variantie (s²) is de belangrijkste maat die de spreiding van de waarnemingen weergeeft en wordt ook nog de kwadratensom genoemd. Het is de gemiddelde gekwadrateerde afwijking van elke waarde tov de gemiddelde waarde.

s² = (Σi = 1 n (x1 - x¯))/(n-1) (hier staat de formule duidelijker: http://remmelt.com/OR/algemeen_spreidingsmaten.png)

De som van de kwadraten wordt gedeeld door n-1, dit is het aantal onafhankelijke verschillen of vrijheidsgraden (df). het parametrisch gemiddelde (populatiegemiddelde, µ) is niet gekend en het steekproefgemiddelde (x) is de beste benadering (schatting) van het parametrisch gemiddelde (µ), één verschil ligt daardoor vast waardoor er nog n-1 onafhankelijke verschillen overblijven.


Ik snap niet waarvan de n-1 in de noemer komt. Ik heb al op verschillende sites gekeken, maar het lukt niet om het te snappen.

In het stukje tekst dat ik gekopieerd heb staat dus: "variantie = gemiddelde gekwadrateerde afwijking van elke waarde tov de gemiddelde waarde". Ik zou dan verwachten dat dat zo berekend wordt:

Afwijking van elke waarde tov de gemiddelde waarde = elke waarde aftrekken van de gemiddelde waarde

Gekwadrateerde = die waarden kwadrateren ( :P )

Gemiddelde = alle waarden die je dan hebt optellen en delen door het aantal waarden

Tenzij ik mis ben, is dat dezelfde formule, maar dan met "n" in de noemer ipv "n-1".

Ik heb zo het vermoeden dat het tweede stukje tekst er iets mee te maken heeft, maar daarvan snap ik eigenlijk niet al te veel. Ik begrijp wel dat als het gemiddelde en n-1 variabelen gekend zijn, de nde variabele eigenlijk ook bekend is, maar ik snap niet wat het verband tussen dat en de noemer van de formule voor variantie is. Kan er iemand mij dat uitleggen aub?

In ieder geval al bedankt voor het lezen van mijn vraag ;)

Groeten,

Laura.
Vroeger Laura.

Gebruikersavatar
Berichten: 7.556

Re: [wiskunde] variantie

Dat is een bekend punt van verwarring.
One common source of confusion is that the term sample variance may refer to either the unbiased estimator s2 of the population variance, or to the variance s_n^2 of the sample viewed as a finite population. Both can be used to estimate the true population variance. Apart from theoretical considerations, it doesn't really matter which one is used, as for small sample sizes both are inaccurate and for large values of n they are practically the same. Naively computing the variance by dividing by n instead of n-1 systematically underestimates the population variance. Moreover, in practical applications most people report the standard deviation rather than the sample variance, and the standard deviation that is obtained from the unbiased n-1 version of the sample variance has a slight negative bias (though for normally distributed samples a theoretically interesting but rarely used slight correction exists to eliminate this bias). Nevertheless, in applied statistics it is a convention to use the n-1 version if the variance or the standard deviation is computed from a sample. The definition of standard test-statistics, such as Student's t-test, are often expressed in terms of estimated standard deviations where it is assumed that this convention is followed.

In practice, for large n, the distinction is often a minor one. In the course of statistical measurements, sample sizes so small as to warrant the use of the unbiased variance virtually never occur. In this context Press et al.[3] commented that if the difference between n and n−1 ever matters to you, then you are probably up to no good anyway - e.g., trying to substantiate a questionable hypothesis with marginal data.
(van hier)

Hier en hier wordt de kwestie ook besproken.
Never express yourself more clearly than you think.

- Niels Bohr -

Berichten: 412

Re: [wiskunde] variantie

Bedankt voor het antwoord!
Originally Posted by Tedjn View Post

I have had the same problem understanding this issue. Frequently, textbooks and online websites gloss over the issue with a pithy and unsatisfactory statement about degrees of freedom, leaving me to wonder whether the real explanation has anything to do with degrees of freedom at all.

It is degrees of freedom. Specifically, it's because you're already using the same data to estimate the mean; if you were to know the population mean ahead of time, and were only interested in the variance on its own, then the unbiased estimator would indeed use a denominator of n. What's more common, however, is that you need to first estimate the mean, and then use that estimate in your estimate of the variance. It's this cascaded method of estimation that throws off the variance estimator, and requires the n-1 denominator. Intuitively speaking, introducing the mean estimate into the variance estimator eliminates one degree of freedom because the mean estimate (which is just the population average), together with any n-1 of the samples, uniquely determines the other sample.
-> http://www.physicsforums.com/showthread.ph...848#post1636848

Ik snap het nog steeds niet vrees ik. Ik snap wel dat als je het gemiddelde van enkele getallen weet én n-1 van die getallen, dat je dan het andere getal kan bepalen, maar ik snap niet wat dat te maken heeft met de n-1 in de noemer. Je hebt toch nog steeds n termen in de teller? En een gemiddelde bereken je toch door alles op te tellen en dan te delen door het aantal termen?

Ik heb ook de uitleg op de andere sites doorgelezen, maar ook daar kon ik niet helemaal aan uit.
Vroeger Laura.

Berichten: 4.246

Re: [wiskunde] variantie

Dit is de variantie:
\( {}\sigma^2 = \frac 1N \sum_{i=1}^N \left(x_i - \overline{x} \right)^2 \, \)
Dit zijn schatters voor de variantie:
\( s_n^2 = \frac 1n \sum_{i=1}^n \left(y_i - \overline{y} \right)^ 2 = \left(\frac{1}{n} \sum_{i=1}^{n}y_i^2\right) - \overline{y}^2, \)
\( s^2 = \frac{1}{n-1} \sum_{i=1}^n\left(y_i - \overline{y} \right)^ 2 = \frac{1}{n-1}\sum_{i=1}^n y_i^2 - \frac{n}{n-1} \overline{y}^2, \)
In de tweede vergelijking staat n-1 omdat deze nodig om een zuivere schatter te krijgen (zie ook de wikipagina voor het bewijs).
Quitters never win and winners never quit.

Berichten: 412

Re: [wiskunde] variantie

De wikipediapagina van variantie? Waar staat het bewijs voor de n-1 daar? Ik zie daar enkel bewijzen staan voor een andere schrijfwijze van die twee formules...

En een zuivere schatter is wanneer de verwachtingswaarde (wat elke waarde is die de schatter kan aannemen, vermenigvuldigd met de kans dat de schatter die waarde aanneemt?) gelijk is aan de variantie? Ik heb het gevoel dat ik het niet helemaal snap ;) . Nog geen statistiek gehad op school en 'k kan niet aan de uitleg op internet uit.

Bedankt voor je reactie trouwens!
Vroeger Laura.

Berichten: 4.246

Re: [wiskunde] variantie

De wikipediapagina van variantie? Waar staat het bewijs voor de n-1 daar? Ik zie daar enkel bewijzen staan voor een andere schrijfwijze van die twee formules...
http://en.wikipedia.org/wiki/Variance#Popu...sample_variance
Quitters never win and winners never quit.

Gebruikersavatar
Pluimdrager
Berichten: 10.058

Re: [wiskunde] variantie

Laura. schreef:Afwijking van elke waarde tov de gemiddelde waarde = elke waarde aftrekken van de gemiddelde waarde

Gekwadrateerde = die waarden kwadrateren ( ;) )

Gemiddelde = alle waarden die je dan hebt optellen en delen door het aantal waarden

Tenzij ik mis ben, is dat dezelfde formule, maar dan met "n" in de noemer ipv "n-1".
Dit is helemaal in orde, maar wat is de achtergrond van je vraag? Wil je het exact weten dan is het bewijs wel te vinden in de aanbevolen sites. Moet je het weten dan idem.

In principe komt het erop neer dat je jouw definitie gebruikt bij een populatie, bv een klas leerlingen waarvan je (als docent) de standaardafwijking wil bepalen van cijfers bij een proefwerk.

De andere definitie moet je gebruiken als het een steekproef uit een populatie betreft, bv de stand. afw. van de cijfers van een steekproef (ter grootte n) van het schriftelijk eindexamen in een bepaald vak.

De theorie leert dat voor een 'zuivere schatter' van de st. dev. de tweede def de juiste is.

Berichten: 412

Re: [wiskunde] variantie

dirkwb schreef:Dit is helemaal in orde, maar wat is de achtergrond van je vraag? Wil je het exact weten dan is het bewijs wel te vinden in de aanbevolen sites. Moet je het weten dan idem.

In principe komt het erop neer dat je jouw definitie gebruikt bij een populatie, bv een klas leerlingen waarvan je (als docent) de standaardafwijking wil bepalen van cijfers bij een proefwerk.

De andere definitie moet je gebruiken als het een steekproef uit een populatie betreft, bv de stand. afw. van de cijfers van een steekproef (ter grootte n) van het schriftelijk eindexamen in een bepaald vak.

De theorie leert dat voor een 'zuivere schatter' van de st. dev. de tweede def de juiste is.


Het exact weten is natuurlijk wel leuk, maar ik zou graag de uitleg die erbij stond in de cursus begrijpen. Want daar wordt in woorden uitgelegd waarom in de noemer n-1 staat, als ik het goed begrepen heb? Dat zou ik graag begrijpen.
Vroeger Laura.

Gebruikersavatar
Pluimdrager
Berichten: 10.058

Re: [wiskunde] variantie

Die uitleg is correct, maar of je dat begrijpt ...?

Het is wel zo dat deze uitleg bij verdere statistische toetsen steeds gebruikt wordt. Het is dus belangrijk deze gedachtengang te volgen.

Berichten: 412

Re: [wiskunde] variantie

Safe schreef:Die uitleg is correct, maar of je dat begrijpt ...?

Het is wel zo dat deze uitleg bij verdere statistische toetsen steeds gebruikt wordt. Het is dus belangrijk deze gedachtengang te volgen.
Oh, maar ik betwijfelde niet dat die uitleg correct was hoor ;)

Ik snap hem dus inderdaad niet. Ik begrijp wel dat er nog n-1 onafhankelijke verschillen overblijven, maar niet wat dat te maken heeft met de n-1 in de noemer.
Vroeger Laura.

Reageer