Bio-informatica
Bio-informatica is het oplossen van problemen. Die op meerdere manieren oplosbaar zijn door combinatie van
verschillende hulpmiddelen
Overzicht
1. Database
1.1. Databank: ENTREZ GENE (NCBI)
1.2. Databank: ENTREZ NUCLEOTIDE (NCBI)
1.3. Databank: ENTRER PROTEIN (NCBI)
1.4. Databank: DBFETCH
1.5. Proteïn sequence databases
1.6. Gene ontology: www.geneontology.org
Database
Moeder van alle databanken = NCBI (= National Center for Biotechnology Information)
• Geeft structuren, nucleotiden, proteïnen en genen weer
1. Databank: ENTREZ GENE (NCBI): https://www.ncbi.nlm.nih.gov/gene/
Welke informatie willen we weten over een gen of eiwit (dat gecodeerd wordt door het gen)?
• Gen structuur
• Aantal exonen/mRNA’s
• Functionele annotatie
• Waar komt het tot expressie
• Heeft het gen/eiwit interactie met andere eiwitten
• Zijn er mutaties, mutante fenotypes in de populatie
• Homologie, wat is het homologe gen in de muis, vlieg of gist
Hoe ga je naar de databank?
Entrez gene ingeven in google (je komt dan op NCBI-gene uit)
Hoe databank gebruiken, welke info vind je er?
1) Databank gene
2) Gen ingeven (bv. TP53), je krijgt dan lijstje van genen te zien
3) Je zoekt dan de juiste species, die je nodig hebt voor de opdracht
4) Als je dan klikt op een gen, krijg je alle informatie te zien over dat gen
- Volledige naam van het gen
- Functie van het gen, extra informatie bij “summary”
- Genomische context (waar ligt het gen)
- Hoe ziet het gen eruit
→ Positie van het gen
→ Blokjes = exonen (lichtgroen = niet-coderend, donkergroen = coderend)
→ Lijntjes = intronen
→ Verschillende lijnen = aantal transcripten, isovormen
(Verschillende isovormen resulteren in andere eiwitten, sommige isovormen geven wel
hetzelfde eiwit, dan kan er verschil zijn tussen de UTR)
→ Pijltjes = strand (→ positieve strand / negatieve strand)
, - Als je uitzoomt, kan je zien welke genen er naast liggen (buurgenen)
- Expressie, in welke weefsels het gen tot expressie komt
- Bibliografie, artikels van Pubmed die gelinkt zijn met het gen
- Gen reference, zinnen uit artikels waar er iets gezegd wordt over het gen
- Interacties, lijst van eiwitten die met het gen interageren
- Gene ontology, termen die zeggen wat het gen doet (functie gen)
- RefSeq, elk transcript heeft een nummer (NM_...) als je dat ziet betekent dit dat het een
identifier is van RefSeq. Die nummers worden onderaan opgelijst
2. Databank: ENTREZ NUCLEOTIDE (NCBI)
Dit is voor mRNA, hier zijn de intronen al uit. Dit gaat over 1 transcript van de x -aantal transcripten die je vindt in
de entrez gene databank
Hoe ga je naar de databank?
Ofwel klik je op een RefSeq van bij de entrez gene databank, bij een gen dat je ingaf
Ofwel geef je entrez nucleotide in op google
Hoe gebruik je de databank, welke info vind je er?
1) Als je via Google zocht, geef je de RefSeq in die in de opgave stond (NM_...)
2) Als je dan op zoeken klikt, vind je allerlei informatie
- Features, stukjes van het mRNA met specifieke rol
→ Exon, CDS (coding sequence), mics feature (interaction with …)
- Origin, dit is sequentie van het hele mRNA
3) Klik bovenaan op Graphics
- Fosforylatiesites (als deze er tussen staan worden er aminozuren gefosforyleerd)
- Methylatiesites
- Interacties
- …
4) Klik bovenaan op FASTA (nucleotidensequentie)
- Je kan dit downloaden, copy-paste in editor
ACESSIE NUMBER: vb U54469 (= ID nummer ≠ Gene)
Zoekopdracht uitvoeren → Faste klikken: hier krijg je heel de nucleotidesequentie
Genbank formaat = Flatfile (.gb) opgedeeld in 3 delen (Header, Features, sequences) → Features: hier vind je
dingen die in de sequentie zitten terug
• Vb. CDS = coding sequence. Ook hier product van die bepaalde sequentie kan je vinden. Of mRNA
Related information: Hier vind je meer over de sequenties
“Graphics”: krijg je een grafische weergave van het genoom. Hierop zie je goed de alternative splicing. Eerste
stukje van mRNA wordt niet vertaald! Zie twee laatste grafieken. Dit niet vertaalde stukje is het UTR
(untranslated reagion)
• Zoem je hier hard genoeg op in kun je ook de AZ die hiervan worden afgeleid vinden
“FASTA”: met > ‘Sequence identifier”
ENA (= European Nucleotide Archive): Ook in ENA kan je de coding sequences en FASTA raadplegen. Dit doe
je door het ID nummer in te geven
Bio-informatica is het oplossen van problemen. Die op meerdere manieren oplosbaar zijn door combinatie van
verschillende hulpmiddelen
Overzicht
1. Database
1.1. Databank: ENTREZ GENE (NCBI)
1.2. Databank: ENTREZ NUCLEOTIDE (NCBI)
1.3. Databank: ENTRER PROTEIN (NCBI)
1.4. Databank: DBFETCH
1.5. Proteïn sequence databases
1.6. Gene ontology: www.geneontology.org
Database
Moeder van alle databanken = NCBI (= National Center for Biotechnology Information)
• Geeft structuren, nucleotiden, proteïnen en genen weer
1. Databank: ENTREZ GENE (NCBI): https://www.ncbi.nlm.nih.gov/gene/
Welke informatie willen we weten over een gen of eiwit (dat gecodeerd wordt door het gen)?
• Gen structuur
• Aantal exonen/mRNA’s
• Functionele annotatie
• Waar komt het tot expressie
• Heeft het gen/eiwit interactie met andere eiwitten
• Zijn er mutaties, mutante fenotypes in de populatie
• Homologie, wat is het homologe gen in de muis, vlieg of gist
Hoe ga je naar de databank?
Entrez gene ingeven in google (je komt dan op NCBI-gene uit)
Hoe databank gebruiken, welke info vind je er?
1) Databank gene
2) Gen ingeven (bv. TP53), je krijgt dan lijstje van genen te zien
3) Je zoekt dan de juiste species, die je nodig hebt voor de opdracht
4) Als je dan klikt op een gen, krijg je alle informatie te zien over dat gen
- Volledige naam van het gen
- Functie van het gen, extra informatie bij “summary”
- Genomische context (waar ligt het gen)
- Hoe ziet het gen eruit
→ Positie van het gen
→ Blokjes = exonen (lichtgroen = niet-coderend, donkergroen = coderend)
→ Lijntjes = intronen
→ Verschillende lijnen = aantal transcripten, isovormen
(Verschillende isovormen resulteren in andere eiwitten, sommige isovormen geven wel
hetzelfde eiwit, dan kan er verschil zijn tussen de UTR)
→ Pijltjes = strand (→ positieve strand / negatieve strand)
, - Als je uitzoomt, kan je zien welke genen er naast liggen (buurgenen)
- Expressie, in welke weefsels het gen tot expressie komt
- Bibliografie, artikels van Pubmed die gelinkt zijn met het gen
- Gen reference, zinnen uit artikels waar er iets gezegd wordt over het gen
- Interacties, lijst van eiwitten die met het gen interageren
- Gene ontology, termen die zeggen wat het gen doet (functie gen)
- RefSeq, elk transcript heeft een nummer (NM_...) als je dat ziet betekent dit dat het een
identifier is van RefSeq. Die nummers worden onderaan opgelijst
2. Databank: ENTREZ NUCLEOTIDE (NCBI)
Dit is voor mRNA, hier zijn de intronen al uit. Dit gaat over 1 transcript van de x -aantal transcripten die je vindt in
de entrez gene databank
Hoe ga je naar de databank?
Ofwel klik je op een RefSeq van bij de entrez gene databank, bij een gen dat je ingaf
Ofwel geef je entrez nucleotide in op google
Hoe gebruik je de databank, welke info vind je er?
1) Als je via Google zocht, geef je de RefSeq in die in de opgave stond (NM_...)
2) Als je dan op zoeken klikt, vind je allerlei informatie
- Features, stukjes van het mRNA met specifieke rol
→ Exon, CDS (coding sequence), mics feature (interaction with …)
- Origin, dit is sequentie van het hele mRNA
3) Klik bovenaan op Graphics
- Fosforylatiesites (als deze er tussen staan worden er aminozuren gefosforyleerd)
- Methylatiesites
- Interacties
- …
4) Klik bovenaan op FASTA (nucleotidensequentie)
- Je kan dit downloaden, copy-paste in editor
ACESSIE NUMBER: vb U54469 (= ID nummer ≠ Gene)
Zoekopdracht uitvoeren → Faste klikken: hier krijg je heel de nucleotidesequentie
Genbank formaat = Flatfile (.gb) opgedeeld in 3 delen (Header, Features, sequences) → Features: hier vind je
dingen die in de sequentie zitten terug
• Vb. CDS = coding sequence. Ook hier product van die bepaalde sequentie kan je vinden. Of mRNA
Related information: Hier vind je meer over de sequenties
“Graphics”: krijg je een grafische weergave van het genoom. Hierop zie je goed de alternative splicing. Eerste
stukje van mRNA wordt niet vertaald! Zie twee laatste grafieken. Dit niet vertaalde stukje is het UTR
(untranslated reagion)
• Zoem je hier hard genoeg op in kun je ook de AZ die hiervan worden afgeleid vinden
“FASTA”: met > ‘Sequence identifier”
ENA (= European Nucleotide Archive): Ook in ENA kan je de coding sequences en FASTA raadplegen. Dit doe
je door het ID nummer in te geven