Bioinformatica course 5
Week 1
Essentiële onderdelen van een database
- Filter opties (bijvoorbeeld alleen eiwitten, of alleen uit een bepaald organisme).
- Referenties, hieruit wordt duidelijk of de informatie door een computer berekend is of
uit de literatuur is onderzocht.
- Accession codes: identificatienummer dat elk bestand heeft.
- Data tabellen
- Metadata: geannoteerde data, bijvoorbeeld bij een sequentie. De metadata van die
sequentie geeft aan welk deel van de sequentie een gen codeert.
- Datum en afkomst.
Nucleotide sequence databases: GenBank (NCBI). Hier is ruwe data beschikbaar maar ook
is de coderende sequentie of het mRNA transcript zichtbaar.
Eiwit sequence databases: UniProtKB en NCBI protein. UniProt bevat het vaak
geannoteerde SwissProt. SwissProt bevat alleen informatie over eiwitten dat bewezen is,
UniProt heeft ook voorspellingen over bijvoorbeeld de structuur van een eiwit. In een eiwit
database kan je onder andere onderzoek doen naar de functie van verschillende domeinen
van een eiwit.
Hoe kies je data?
Redundancy/herhaaldelijkheid: bepalen hoeveel data over hetzelfde onderwerp exact
hetzelfde is. Door te zoeken op Refseq vind je unieke informatie.
Consistentie: herhaaldelijke fouten kunnen wijzen op geautomatiseerde data. Check daarom
altijd of een DNA sequentie alleen uit A,T,G,C bestaat.
Updatering van databases: bekijk de datum en versienummers, zoek de meest recente
versie.
Annotatie van data: de initiële annotatie van data is vaak geautomatiseerd. Dit houdt in dat
een computer zelf voorspelt wat de data betekent. Dit is heel snel maar minder betrouwbaar.
Menselijk cureren van data is betrouwbaarder maar kost meer tijd. SwissProt en Refseq zijn
curated databases. Alle informatie is dus gecontroleerd door mensen.
Refseq bevat informatie over DNA en eiwit.
, Eiwit functie hangt af van
- Cellulaire locatie
- Biologisch proces
- Moleculaire functie
Week 2
SwissProt zijn niet alleen de verwachte functies en structuren van eiwitten, maar is het ook
experimenteel bewezen. UniProt heeft bewezen en hypothetische informatie. SwissProt is
eigenlijk een onderdeel van UniProt.
Data zoeken
Welke data/annotatie is correct?
- Controleer datum
- Controleer literatuur
Wat betekent de data?
- Controleer de accession code, hieruit kan blijken of het bijvoorbeeld genomisch DNA
is of een eiwitdomein.
- Controleer over welk stuk van de sequentie de data is.
Gene ontology (GO): een gereguleerd woordenboek. Universele termen die gebruikt worden
in biologische databases. Het is belangrijk dat verschillende databases dezelfde gene
ontology gebruiken. Hierdoor kan namelijk data met elkaar vergeleken worden. Er zijn drie
gene ontologies.
1. Cellulaire processen
2. Biologische processen
3. Moleculaire functies
GO zijn nummers, ze gaan van een algemene categorie naar steeds specifieker.
Week 1
Essentiële onderdelen van een database
- Filter opties (bijvoorbeeld alleen eiwitten, of alleen uit een bepaald organisme).
- Referenties, hieruit wordt duidelijk of de informatie door een computer berekend is of
uit de literatuur is onderzocht.
- Accession codes: identificatienummer dat elk bestand heeft.
- Data tabellen
- Metadata: geannoteerde data, bijvoorbeeld bij een sequentie. De metadata van die
sequentie geeft aan welk deel van de sequentie een gen codeert.
- Datum en afkomst.
Nucleotide sequence databases: GenBank (NCBI). Hier is ruwe data beschikbaar maar ook
is de coderende sequentie of het mRNA transcript zichtbaar.
Eiwit sequence databases: UniProtKB en NCBI protein. UniProt bevat het vaak
geannoteerde SwissProt. SwissProt bevat alleen informatie over eiwitten dat bewezen is,
UniProt heeft ook voorspellingen over bijvoorbeeld de structuur van een eiwit. In een eiwit
database kan je onder andere onderzoek doen naar de functie van verschillende domeinen
van een eiwit.
Hoe kies je data?
Redundancy/herhaaldelijkheid: bepalen hoeveel data over hetzelfde onderwerp exact
hetzelfde is. Door te zoeken op Refseq vind je unieke informatie.
Consistentie: herhaaldelijke fouten kunnen wijzen op geautomatiseerde data. Check daarom
altijd of een DNA sequentie alleen uit A,T,G,C bestaat.
Updatering van databases: bekijk de datum en versienummers, zoek de meest recente
versie.
Annotatie van data: de initiële annotatie van data is vaak geautomatiseerd. Dit houdt in dat
een computer zelf voorspelt wat de data betekent. Dit is heel snel maar minder betrouwbaar.
Menselijk cureren van data is betrouwbaarder maar kost meer tijd. SwissProt en Refseq zijn
curated databases. Alle informatie is dus gecontroleerd door mensen.
Refseq bevat informatie over DNA en eiwit.
, Eiwit functie hangt af van
- Cellulaire locatie
- Biologisch proces
- Moleculaire functie
Week 2
SwissProt zijn niet alleen de verwachte functies en structuren van eiwitten, maar is het ook
experimenteel bewezen. UniProt heeft bewezen en hypothetische informatie. SwissProt is
eigenlijk een onderdeel van UniProt.
Data zoeken
Welke data/annotatie is correct?
- Controleer datum
- Controleer literatuur
Wat betekent de data?
- Controleer de accession code, hieruit kan blijken of het bijvoorbeeld genomisch DNA
is of een eiwitdomein.
- Controleer over welk stuk van de sequentie de data is.
Gene ontology (GO): een gereguleerd woordenboek. Universele termen die gebruikt worden
in biologische databases. Het is belangrijk dat verschillende databases dezelfde gene
ontology gebruiken. Hierdoor kan namelijk data met elkaar vergeleken worden. Er zijn drie
gene ontologies.
1. Cellulaire processen
2. Biologische processen
3. Moleculaire functies
GO zijn nummers, ze gaan van een algemene categorie naar steeds specifieker.