statistiek bij genetica vraagje

Magda

ik heb een statistiek vraag. Weet niet of dit de goede plek is anders moeten de mods hem maar verplaatsen

op de afdeling pathologie hebben we een onderzoekje gedaan naar allel lengte verdelingen over chromosomen. We zijn al een tijd aan het discussieren hoe we dit statistisch moeten bekijken: is wat we zien binnen de marges van de normale verdeling of is het een scheve verdeling?

Alles is een beetje lastig uit te leggen in woorden maar ik heb een excelsheet gemaakt met de data (zo vereenvoudigd dat je geen kennis van genetica hoeft te hebben!)

We wil er eens naar die excelsheet kijken en ons de methode geven hoe we aan de slag moeten gaan met onze data?

Anonymous

Om de methode te beschrijven heb ik niet de specifieke data nodig. Julllie

hebben vast zelf reeds bedacht de data in een grafiek te zetten en dan te

kijken welke normale verdeling er op lijkt. Echter, welke afwijking noem

je toelaatbaar? Om kwantitatieve uitspraken te kunnen doen, ontkom je

niet aan het toetsen van de data aan een normale verdeling m.b.v. een

daartoe geschikte test.

Er zijn verschillende tests bekend om data te toetsen aan een bepaald

statistisch model. Elk van de tests wordt gekarakteriseerd door een

´onderscheidend vermogen´ (eng: power) bij een bepaald statistisch

model. Dit vermogen geeft zoiets aan als hoe betrouwbaar je conclusies

zullen zijn. Om te toetsen of data normaal is verdeeld, is heel goed

bruikbaar de 'L1-distance kerndichtheid' en ook bruikbaar is de 'likelihood

ratio'-test. Deze heb ik zelf nog wel eens gebruikt. Bekend zijn ook de

verschillende chi.gif -square tests. Echter, deze tests steunen op reeds

behoorlijk wat pittigere wiskunde. Het lijkt me niet verstandig je daar zelf

aan te wagen en deze methoden zelf te implementeren in Excel ofzo.

Wel goed mogelijk lijkt mij dat jullie zelf met kant en klare, speciaal

daartoe ontwikkelde statische software als SPSS de data onderzoeken

(met SPSS ben ik overigens zelf niet bekend). Misschien dat er op dit

forum wel een deskundige is op het gebied van toetsen en SPSS.

Echt veel help ik je wellicht niet, in die zin dat ik me niet aanbied om de

data te evalueren, maar ik hoop toch dat je er wat aan hebt. Ik ben

overigens nog wel geinteresseerd in de conclusie.

Anonymous

ik heb een statistiek vraag. ...

Ik neem aan dat jullie met SPSS werken?

In dat geval zijn er een aantal mogelijkheden:

1. histogram met normale curve.

Deze vindt je onder Graphs, Histogram. Voer de variabele in en klik aan: Display normal curve. Je krijgt dan de histogram op basis van je waargenomen waarden te zien, met daarin getekend de normale verdeling.

2. Normale waarschijnlijkheids plot.

Deze is te vinden onder Graphs, P-P. Voer de variabele in en klik op ok. SPSS toont een gewone grafiek en een afwijkingengrafiek.

Beide opties vragen een subjectief oordeel.

3. Een andere (meer objectieve) mogelijkheid is de Chi2-toets. Deze vindt je onder Analyze, Nonparametric tests, Chi-square. Daar voer je de variabele in. Vervolgens klik je op values, waar je per categorie (mogelijke waarde in je data) de frequentie invoert zoals je die mag verwachten bij een normale verdeling. Dat moet je dan eerst berekenen ahv de gebruikelijke percentages behorende bij een standaard normale verdeling. (Dus: gem + 1sd=34% van het aantal waarneming enz.) Je kunt ook eerst je data in categorieen aanmaken en per categorie het aantal proefpersonen invoeren zoals gebruikelijke zou zijn bij een st.n.verdeling. Ook dat moet je natuurlijk berekenen op dezelfde manier. In de output vindt je de overschrijdingskans in hoeverre je werkelijke verdeling afwijkt van je ingevoerde normale verdeling. Of deze test zinnig is hangt wel af van het aantal waarden.

Kris Hauchecorne

Wat bedoel je met een scheve verdeling? Een lognormale verdeling?

Magda

Magda schreef:ik heb een statistiek vraag. ...
Ik neem aan dat jullie met SPSS werken?

In dat geval zijn er een aantal mogelijkheden:

1. histogram met normale curve.

Deze vindt je onder Graphs, Histogram. Voer de variabele in en klik aan: Display normal curve. Je krijgt dan de histogram op basis van je waargenomen waarden te zien, met daarin getekend de normale verdeling.

2. Normale waarschijnlijkheids plot.

Deze is te vinden onder Graphs, P-P. Voer de variabele in en klik op ok. SPSS toont een gewone grafiek en een afwijkingengrafiek.

Beide opties vragen een subjectief oordeel.

3. Een andere (meer objectieve) mogelijkheid is de Chi2-toets. Deze vindt je onder Analyze, Nonparametric tests, Chi-square. Daar voer je de variabele in. Vervolgens klik je op values, waar je per categorie (mogelijke waarde in je data) de frequentie invoert zoals je die mag verwachten bij een normale verdeling. Dat moet je dan eerst berekenen ahv de gebruikelijke percentages behorende bij een standaard normale verdeling. (Dus: gem + 1sd=34% van het aantal waarneming enz.) Je kunt ook eerst je data in categorieen aanmaken en per categorie het aantal proefpersonen invoeren zoals gebruikelijke zou zijn bij een st.n.verdeling. Ook dat moet je natuurlijk berekenen op dezelfde manier. In de output vindt je de overschrijdingskans in hoeverre je werkelijke verdeling afwijkt van je ingevoerde normale verdeling. Of deze test zinnig is hangt wel af van het aantal waarden.

Sorry, een tijdje weg geweest van huis, dus geen tijd om te antwoorden. We werken op onze afdeling wel met SPSS (ik zelf niet) maar dan komen we er nog niet uit hoe we het moeten testen. Om het geheel even wat duidelijker te maken heb ik onze vraag vertaald naar een plaatje.

Afbeelding

Je ziet 14 personen met ieder 2 balken onder hun persoonsnummer. De twee balken stellen chromosomen voor en de blokjes in de chromosomen stellen markers voor. Het chromosoom dat links staat had net zo goed rechts kunnen staan: je zou ze net zo goed om kunnen wisselen.

De donkere blokjes zijn de lange markers en de witte dus de korte allelen. De volgorde van de zwarte en witte blokjes heeft geen betekenis. De rechts-links verdeling is het enige wat hier belangrijk is. Het gaat alleen om het aantal zwarte blokjes tov het aantal witte blokjes op een chromosoom

Wij willen weten of het aantal lange en korte allelen op een chromosoom random verdeeld is en of dus de verdeling die je hier ziet binnen de normale verdeling valt.

Dit willen we het liefste voor de hele populatie uitgerekend hebben, maar kan misschien ook per persoon.

De vraag die we dus hebben is of 20:11 en 19:11 en 16:14 en 8:20 onder een normale verdeling vallen (je hebt geen reden aan te nemen dat het niet fifty-fifty zou zijn) Kan iemand ons nu nog verder helpen?

sdekivit

bij een scheve verdeling is er geen sprake van een klokvormige curve, maar is deze naar 1 kant verschoven, zodat je als het ware de curve van de chi.gif ^2-curve krijgt.

Magda

bij een scheve verdeling is er geen sprake van een klokvormige curve, maar is deze naar 1 kant verschoven, zodat je als het ware de curve van de chi.gif ^2-curve krijgt.

Helemaal mee eens, maar hoe TEST is of de genoemde verhoudingen binnen de klokvormige curve zitten??

sdekivit

als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.

Magda

als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.

En kan iemand dit dan voor mij uitrekenen, want ik heb echt geen kaas gegeten van statistiek en weet gewoon niet hoe ik het moet doen.

Als iemand nog meer informatie nodig heeft dan hoor ik het graag.

Rogier

sdekivit schreef:als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.
En kan iemand dit dan voor mij uitrekenen, want ik heb echt geen kaas gegeten van statistiek en weet gewoon niet hoe ik het moet doen.

Als iemand nog meer informatie nodig heeft dan hoor ik het graag.

Dat is meer een algemeen bekende eigenschap van de normale verdeling, uiteraard zou je dat zelf kunnen narekenen als je dat zou willen, maar dat is niet heel eenvoudig.

Het gaat om de zogenaamde

-functie (hoofdletter phi), waarbij

(t) de kans voorstelt dat een standaard normaal verdeelde stochast < t is.

Deze functie

(t) is een primitieve van

(t) = (e^-x²/2)/ [wortel] (2pi.gif) maar die is niet analytisch (als combinatie van elementaire functies) uit te drukken.

Als je een normaal verdeelde stochast X hebt met gemiddelde mu.gif en standaarddeviatie sigma.gif kun je er een standaard normaal verdeelde stochast van maken door (X-mu.gif)/sigma.gif te nemen. Voor een standaard normaal verdeelde stochast gebruikt men vaak de letter Z, dit is een normaal verdeelde stochast met mu.gif=0 en sigma.gif=1.

Wat je nou in zo'n geval doet is waarden opzoeken in een "greek004.gif-tabel".

De kans dat een normaal verdeelde stochast hoogstens één standaarddeviatie van het gemiddelde ligt, is hetzelfde als de kans dat een standaard normaal verdeelde stochast tussen de -1 en 1 ligt (want daar zijn standaarddeviatie en gemiddelde 1 resp. 0).

Deze kans is

(1) -

(-1)

0.841 - 0.159 [wortel] 0.68

Net zo de kans dat hij maximaal twee standaarddeviaties van het gemiddelde afwijkt:

(2) - [wortel] (-2)

0.977 - 0.023

0.95

Zie ook:

http://nl.wikipedia.org/wiki/Normaalverdeling

http://www.wiswijzer.nl/pagina.asp?nummer=72

Wetenschapsforum

Laatste berichten

Nieuwsberichten

statistiek bij genetica vraagje

statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje

Re: statistiek bij genetica vraagje