[biologie] Bio-informatica: vinden van homologen

Themisto

Hallo iedereen,

Momenteel ben ik bezig met opgaven maken voor de module bio-informatica. Hierbij moeten we met behulp van Entrez en UniProtKB (voorkeur voor swiss-prot) de paralogen en orthologen van bepaalde eiwitten opzoeken.

Nu weet ik al dat je met behulp van BLAST naar de E-waardes kan kijken om te zien in hoeverre een gevonden eiwit verwant is aan de ingevoerde sequentie. Maar wat is eigenlijk de cut-off waarde van de E-waardes, waarbij je een eiwit wel/niet een homoloog van de ingevoerde sequentie kan benoemen?

Wat ik echter lastiger vind is vanuit de UniProtKB entry van één eiwit de paralogen en orthologen op te zoeken. Ik snap hoe een fylogenetische boom in elkaar steekt, dat paralogen eiwitten zijn van hetzelfde organismen die verwant aan elkaar zijn en orthologen verwante eiwitten zijn in een ander organisme.

Kunnen jullie mij misschien duidelijk maken hoe ik dit moet aanpakken?

rwwh

Ik ben geen ervarings-expert, dus ik kan alleen vanuit mijn gevoel van statistiek antwoorden.

De E-waarde in BLAST is een schatting van het aantal hits dat je zou kunnen vinden als de database volledig willekeurig zou zijn. Dus E=1 betekent ongeveer dat 1 van je hits puur toeval zou kunnen zijn, je verwacht 1 hit als er geen informatie in zit. De E waarde neemt heel snel af als je sequenties langer zijn.

Er is natuurlijk geen "harde limiet" waaronder je kunt zeggen "dit is een homoloog" en erboven niet. Het gaat allemaal om waarschijnlijkheden.

Themisto

Bedankt rwwh voor je antwoord. Ik ben het eens met wat je daar zegt, daarom vind ik dit ook een lastig onderwerp. Want stel iemand vraagt aan mij "Zoek alle paralogen op van dUTPase uit het organisme Escherischia Coli", dan kan ik hier niet zo 1 2 3 een antwoord op vinden.

Sjitty

Bedoel je dan dat je niet goed weet hoe het onderscheid te maken tussen paralogen en homologen in de lijst van hits? Indien zo kun je toch gewoon kijken uit welk organisme je hit komt, indien dezelfde, paraloog, indien een ander, homoloog.

Themisto

Sjitty schreef: ↑wo 11 apr 2012, 11:22
Bedoel je dan dat je niet goed weet hoe het onderscheid te maken tussen paralogen en homologen in de lijst van hits? Indien zo kun je toch gewoon kijken uit welk organisme je hit komt, indien dezelfde, paraloog, indien een ander, homoloog.

Ik denk dat je hier het verschil tussen paralogen en orthologen bedoeld, zowel paralogen als orthologen zijn homologen namelijk. Maar is het echt zo makkelijk dan? Want als ik de vraag krijg "Zoek alle paralogen op dUTPase uit het organisme Escherichia Coli", dan vermoed ik dat er toch een bepaalde grenswaarde is aan het aantal paralogen en dat je die dan ook moet kunnen onderscheiden.

Vooral bij het BLASTen van een aminozuurvolgorde krijg je vele hits, als je hieruit alle paralogen moet opzoeken dan lijkt me dat een ongedane kwestie. Of is er een manier om deze lijst te vereenvoudigen of om de database zelf de opdracht te geven om paralogen/orthologen op te zoeken? (Ik heb het hier m.n. over UniProtKB)

Wetenschapsforum

Laatste berichten

Nieuwsberichten

[biologie] Bio-informatica: vinden van homologen

Bio-informatica: vinden van homologen

Re: Bio-informatica: vinden van homologen

Re: Bio-informatica: vinden van homologen

Re: Bio-informatica: vinden van homologen

Re: Bio-informatica: vinden van homologen