Springen naar inhoud

statistiek bij genetica vraagje


  • Log in om te kunnen reageren

#1

Magda

    Magda


  • >25 berichten
  • 45 berichten
  • Gebruiker

Geplaatst op 03 november 2005 - 08:56

ik heb een statistiek vraag. Weet niet of dit de goede plek is anders moeten de mods hem maar verplaatsen :-)

op de afdeling pathologie hebben we een onderzoekje gedaan naar allel lengte verdelingen over chromosomen. We zijn al een tijd aan het discussieren hoe we dit statistisch moeten bekijken: is wat we zien binnen de marges van de normale verdeling of is het een scheve verdeling?
Alles is een beetje lastig uit te leggen in woorden maar ik heb een excelsheet gemaakt met de data (zo vereenvoudigd dat je geen kennis van genetica hoeft te hebben!)
We wil er eens naar die excelsheet kijken en ons de methode geven hoe we aan de slag moeten gaan met onze data?

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2


  • Gast

Geplaatst op 03 november 2005 - 18:57

Om de methode te beschrijven heb ik niet de specifieke data nodig. Julllie
hebben vast zelf reeds bedacht de data in een grafiek te zetten en dan te
kijken welke normale verdeling er op lijkt. Echter, welke afwijking noem
je toelaatbaar? Om kwantitatieve uitspraken te kunnen doen, ontkom je
niet aan het toetsen van de data aan een normale verdeling m.b.v. een
daartoe geschikte test.

Er zijn verschillende tests bekend om data te toetsen aan een bepaald
statistisch model. Elk van de tests wordt gekarakteriseerd door een
īonderscheidend vermogenī (eng: power) bij een bepaald statistisch
model. Dit vermogen geeft zoiets aan als hoe betrouwbaar je conclusies
zullen zijn. Om te toetsen of data normaal is verdeeld, is heel goed
bruikbaar de 'L1-distance kerndichtheid' en ook bruikbaar is de 'likelihood
ratio'-test. Deze heb ik zelf nog wel eens gebruikt. Bekend zijn ook de
verschillende chi.gif -square tests. Echter, deze tests steunen op reeds
behoorlijk wat pittigere wiskunde. Het lijkt me niet verstandig je daar zelf
aan te wagen en deze methoden zelf te implementeren in Excel ofzo.

Wel goed mogelijk lijkt mij dat jullie zelf met kant en klare, speciaal
daartoe ontwikkelde statische software als SPSS de data onderzoeken
(met SPSS ben ik overigens zelf niet bekend). Misschien dat er op dit
forum wel een deskundige is op het gebied van toetsen en SPSS.

Echt veel help ik je wellicht niet, in die zin dat ik me niet aanbied om de
data te evalueren, maar ik hoop toch dat je er wat aan hebt. Ik ben
overigens nog wel geinteresseerd in de conclusie.

#3


  • Gast

Geplaatst op 05 november 2005 - 16:52

ik heb een statistiek vraag. ...


Ik neem aan dat jullie met SPSS werken?

In dat geval zijn er een aantal mogelijkheden:

1. histogram met normale curve.
Deze vindt je onder Graphs, Histogram. Voer de variabele in en klik aan: Display normal curve. Je krijgt dan de histogram op basis van je waargenomen waarden te zien, met daarin getekend de normale verdeling.

2. Normale waarschijnlijkheids plot.
Deze is te vinden onder Graphs, P-P. Voer de variabele in en klik op ok. SPSS toont een gewone grafiek en een afwijkingengrafiek.

Beide opties vragen een subjectief oordeel.

3. Een andere (meer objectieve) mogelijkheid is de Chi2-toets. Deze vindt je onder Analyze, Nonparametric tests, Chi-square. Daar voer je de variabele in. Vervolgens klik je op values, waar je per categorie (mogelijke waarde in je data) de frequentie invoert zoals je die mag verwachten bij een normale verdeling. Dat moet je dan eerst berekenen ahv de gebruikelijke percentages behorende bij een standaard normale verdeling. (Dus: gem + 1sd=34% van het aantal waarneming enz.) Je kunt ook eerst je data in categorieen aanmaken en per categorie het aantal proefpersonen invoeren zoals gebruikelijke zou zijn bij een st.n.verdeling. Ook dat moet je natuurlijk berekenen op dezelfde manier. In de output vindt je de overschrijdingskans in hoeverre je werkelijke verdeling afwijkt van je ingevoerde normale verdeling. Of deze test zinnig is hangt wel af van het aantal waarden.

#4

Kris Hauchecorne

    Kris Hauchecorne


  • >250 berichten
  • 294 berichten
  • Ervaren gebruiker

Geplaatst op 08 november 2005 - 21:05

Wat bedoel je met een scheve verdeling? Een lognormale verdeling?
Geloven staat vrij, maar kwak blijft kwak.

#5

Magda

    Magda


  • >25 berichten
  • 45 berichten
  • Gebruiker

Geplaatst op 04 december 2005 - 16:00

ik heb een statistiek vraag. ...


Ik neem aan dat jullie met SPSS werken?

In dat geval zijn er een aantal mogelijkheden:

1. histogram met normale curve.
Deze vindt je onder Graphs, Histogram. Voer de variabele in en klik aan: Display normal curve. Je krijgt dan de histogram op basis van je waargenomen waarden te zien, met daarin getekend de normale verdeling.

2. Normale waarschijnlijkheids plot.
Deze is te vinden onder Graphs, P-P. Voer de variabele in en klik op ok. SPSS toont een gewone grafiek en een afwijkingengrafiek.

Beide opties vragen een subjectief oordeel.

3. Een andere (meer objectieve) mogelijkheid is de Chi2-toets. Deze vindt je onder Analyze, Nonparametric tests, Chi-square. Daar voer je de variabele in. Vervolgens klik je op values, waar je per categorie (mogelijke waarde in je data) de frequentie invoert zoals je die mag verwachten bij een normale verdeling. Dat moet je dan eerst berekenen ahv de gebruikelijke percentages behorende bij een standaard normale verdeling. (Dus: gem + 1sd=34% van het aantal waarneming enz.) Je kunt ook eerst je data in categorieen aanmaken en per categorie het aantal proefpersonen invoeren zoals gebruikelijke zou zijn bij een st.n.verdeling. Ook dat moet je natuurlijk berekenen op dezelfde manier. In de output vindt je de overschrijdingskans in hoeverre je werkelijke verdeling afwijkt van je ingevoerde normale verdeling. Of deze test zinnig is hangt wel af van het aantal waarden.


Sorry, een tijdje weg geweest van huis, dus geen tijd om te antwoorden. We werken op onze afdeling wel met SPSS (ik zelf niet) maar dan komen we er nog niet uit hoe we het moeten testen. Om het geheel even wat duidelijker te maken heb ik onze vraag vertaald naar een plaatje.

Geplaatste afbeelding

Je ziet 14 personen met ieder 2 balken onder hun persoonsnummer. De twee balken stellen chromosomen voor en de blokjes in de chromosomen stellen markers voor. Het chromosoom dat links staat had net zo goed rechts kunnen staan: je zou ze net zo goed om kunnen wisselen.
De donkere blokjes zijn de lange markers en de witte dus de korte allelen. De volgorde van de zwarte en witte blokjes heeft geen betekenis. De rechts-links verdeling is het enige wat hier belangrijk is. Het gaat alleen om het aantal zwarte blokjes tov het aantal witte blokjes op een chromosoom
Wij willen weten of het aantal lange en korte allelen op een chromosoom random verdeeld is en of dus de verdeling die je hier ziet binnen de normale verdeling valt.
Dit willen we het liefste voor de hele populatie uitgerekend hebben, maar kan misschien ook per persoon.

De vraag die we dus hebben is of 20:11 en 19:11 en 16:14 en 8:20 onder een normale verdeling vallen (je hebt geen reden aan te nemen dat het niet fifty-fifty zou zijn) Kan iemand ons nu nog verder helpen?

#6

sdekivit

    sdekivit


  • >250 berichten
  • 704 berichten
  • Ervaren gebruiker

Geplaatst op 04 december 2005 - 22:11

bij een scheve verdeling is er geen sprake van een klokvormige curve, maar is deze naar 1 kant verschoven, zodat je als het ware de curve van de chi.gif ^2-curve krijgt.

#7

Magda

    Magda


  • >25 berichten
  • 45 berichten
  • Gebruiker

Geplaatst op 05 december 2005 - 09:46

bij een scheve verdeling is er geen sprake van een klokvormige curve, maar is deze naar 1 kant verschoven, zodat je als het ware de curve van de  chi.gif ^2-curve krijgt.


Helemaal mee eens, maar hoe TEST is of de genoemde verhoudingen binnen de klokvormige curve zitten??

#8

sdekivit

    sdekivit


  • >250 berichten
  • 704 berichten
  • Ervaren gebruiker

Geplaatst op 05 december 2005 - 13:47

als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.

#9

Magda

    Magda


  • >25 berichten
  • 45 berichten
  • Gebruiker

Geplaatst op 06 december 2005 - 11:35

als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.


En kan iemand dit dan voor mij uitrekenen, want ik heb echt geen kaas gegeten van statistiek en weet gewoon niet hoe ik het moet doen.
Als iemand nog meer informatie nodig heeft dan hoor ik het graag.

#10

Rogier

    Rogier


  • >5k berichten
  • 5679 berichten
  • VIP

Geplaatst op 06 december 2005 - 12:01

als er sprake is van een normale verdeling dan zal 68% van de waarden 1 maal de standaardafwijking afwijken en 95% 2 maal de standaardafwijking.


En kan iemand dit dan voor mij uitrekenen, want ik heb echt geen kaas gegeten van statistiek en weet gewoon niet hoe ik het moet doen.
Als iemand nog meer informatie nodig heeft dan hoor ik het graag.

Dat is meer een algemeen bekende eigenschap van de normale verdeling, uiteraard zou je dat zelf kunnen narekenen als je dat zou willen, maar dat is niet heel eenvoudig.

Het gaat om de zogenaamde :P-functie (hoofdletter phi), waarbij :roll:(t) de kans voorstelt dat een standaard normaal verdeelde stochast < t is.
Deze functie :?(t) is een primitieve van :P(t) = (e-x2/2)/[wortel](2pi.gif) maar die is niet analytisch (als combinatie van elementaire functies) uit te drukken.

Als je een normaal verdeelde stochast X hebt met gemiddelde mu.gif en standaarddeviatie sigma.gif kun je er een standaard normaal verdeelde stochast van maken door (X-mu.gif)/sigma.gif te nemen. Voor een standaard normaal verdeelde stochast gebruikt men vaak de letter Z, dit is een normaal verdeelde stochast met mu.gif=0 en sigma.gif=1.

Wat je nou in zo'n geval doet is waarden opzoeken in een "greek004.gif-tabel".

De kans dat een normaal verdeelde stochast hoogstens ťťn standaarddeviatie van het gemiddelde ligt, is hetzelfde als de kans dat een standaard normaal verdeelde stochast tussen de -1 en 1 ligt (want daar zijn standaarddeviatie en gemiddelde 1 resp. 0).

Deze kans is :P(1) - :P(-1) :P 0.841 - 0.159 [wortel] 0.68

Net zo de kans dat hij maximaal twee standaarddeviaties van het gemiddelde afwijkt:
:P(2) - [wortel](-2) :P 0.977 - 0.023 :P 0.95

Zie ook:
http://nl.wikipedia....ormaalverdeling
http://www.wiswijzer...a.asp?nummer=72
In theory, there's no difference between theory and practice. In practice, there is.





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures