BIO-INFORMATICA
Inleiding
Prof Dr. Lennart Martens
We kunnen data in de biomedische wetenschappen indelen zoals volgt:
-> peptiden: 3-30 AZ
-> eiwitten vanaf 30 AZ
-> kunnen we later omzetten naar numerische
data
Denk aan een hartslagfilmpje, CT-scan
Metadata = data dat de data zelf beschrijf
Vaak incopleet
Deze soorten data wordt dan onderverdeeld in publieke data bronnen:
EBI en NCBI = Europese en
Amerikaanse tegenhangers
Hoofdstuk 1: databronnen
EBI
Goed begin als je iets wil weten over genen en eiwitten
EBI openen -> kom je terecht op thuispagina -> bevat een prominente zoekfunctie => laat toe
om doorheen alle EBI databanken tegelijk te zoeken = krachtige manier om info te
verzamelen over gen of eiwit zeker als niet precies geweten is waar deze geplaats kan worden
,1.1 ensemble
Onderhouden door EBI
Één van de meest gebruikte sequentiedatabanken in de wereld
Informatie over organismen (genoom – transcriptoom – proteoom) -> heel het dogma van de
biologie vinden we terug
Een eiwit kan ook getraceerd worden naar het gen van origine via ensemble
Alle gekende transcripten kunnen we terugvinden
Experimentele data wordt verenigd
Door op 1 chromosoom te drukken
kunnen we informatie krijgen van elle
genen op dat chromosoom
Horizontale as = chromosoom
Alles wat eronder ligt = genen zijn die mogelijk
getransleerd worden
Best veel overlap tussen genen = wil zeggen dat we alle
mogelijke transcripten die een gen voortbrengen hier in
ogenschouw nemen = alle mogelijke gentranscripten die
we kunnen krijgen van een coding region opgenomen is
als een aparte entiteit in ensemble
Uniciteit wordt bepaald op transcript niveau
-> dus 2 EW met identieke sequentie maar die wel
verschillende transcripten hebben in hun UTRs
, komen voor als twee onderscheiden eiwitten in
Ensemble databank, ondanks het feit dat ze op
eiwitniveau ononderscheidbaar zijn
als je klikt op een van de transcripten dan krijg je dit: twee onderscheiden eiwitten in de Ensembl databank
zullen voorkomen, ondanks het
feit dat ze op eiwitniveau ononderscheidbaar zijn
geworden
,1.2 UniProt
Wordt ook onderhouden door EBI
UniProtKB bestaat uit een aantal onderscheiden onderdelen:
- UniprotKB/Swiss-Prot = manueel geannoteerde eiwitdatabank
- UniProtKB/TrEMBL = automatisch geannoteerde complement van UniProtKB/Swiss-Prot
-UniRef = bestaande uit sequentieclusters die handig gebruikt kunnen worden om
sequentiemilariteiten sneller uit te rekenen
Om sequenties te gaan vergelijken
- UniParc = UniProt archief, waarin alle sequenties die door de grote sequentie databanken
wereldwijd opgenomen wordenn gearchiveerd worden
UniProt beschikt ook over een taxonomisch systeem (NEWT) -> het is gesynchroniseerd met
taxonomisch systeem van NCBI
External sources: bv Ensemble, genBank = informatiebronnen over bv sequentiële informatie,
daar wordt door informatie uitgehaald en in UniParc geparkeerd
UniParc is de eerste stap naar mogelijke inclusie binnen UniProt, er wordt dus beslist welke
informatie doorgaat naar UniProt
Als het niet naar UniProt mag, keert het terug naar UniParc
1.2.1 UniProt ID mapping
Wat doen we hier?
Tussen verschillende databronnen de identifiers van bv genen en eiwitten aan elkaar linken
(bv ensemble identifiers linken met UniProt identifiers)
het kan dat het een 1-veel relatie is: dus 1 gen identifier die je kan linken naar meerdere
transcript identifiers of meerder eiwit identifiers
identifiers bv: P00356
NCBI
eiwit invullen in zoekbank
2.1 GenBank
grootste maar werkt nog steeds samen met anderen
2.2 OMIM
= database die gaat over verschillende genetische ziekten die gelinkt zijn aan bepaalde pathologieën
vaak wordt er literatuur aangehaald
2.3 RefSeq
= tegenhanger van Ensemble
heel de stroom van biologisch dogma ter beschikking (van gen tot transcript tot eiwit)
ziet er niet mooi uit
UniProt haalt heel veel informatie uit RefSeq en verwerkt dit binnen UniProt
Annotatie bronnen: gene ontology en andere ontologies
We kijken nu niet naar sequentiële of numerieke data maar naar de annotatie van die data
Bv: hoe we een functie van een bepaald eiwit gaan noemen en hoe we die daar gaan linken
3.1 controlled Vocabularies (CVs)
, Er zijn heel verschillende manieren of synoniemen om iets te benoemen (bv: TOF of T.O.F.)
-> dit is problematisch want het kan voor verwarring zorgen en kan ook zorgen voor overlap tussen
termen die niet hetzelfde zijn
-> oplossing: een nummer gebruiken of gaan beschrijven wat het woord betekend
Bronnen voor drie-dimensionele structuren
4.1 RCSB PDB
We gaan eiwitstructuren terugvinden
Deze zijn bepaald met 2 verschillende structuren: 1) X-ray
2) RENR
Informatie over deze structuren
Protein Atlas
Gratis beschikbaar
Kunt bv zien in welk orgaan een bepaald eiwit zich bevindt
Informatie over kankers
Laatste 5 min van les 1 = samenvatting
Hoofdstuk 2: Sequentie data
Inleiding
Prof Dr. Lennart Martens
We kunnen data in de biomedische wetenschappen indelen zoals volgt:
-> peptiden: 3-30 AZ
-> eiwitten vanaf 30 AZ
-> kunnen we later omzetten naar numerische
data
Denk aan een hartslagfilmpje, CT-scan
Metadata = data dat de data zelf beschrijf
Vaak incopleet
Deze soorten data wordt dan onderverdeeld in publieke data bronnen:
EBI en NCBI = Europese en
Amerikaanse tegenhangers
Hoofdstuk 1: databronnen
EBI
Goed begin als je iets wil weten over genen en eiwitten
EBI openen -> kom je terecht op thuispagina -> bevat een prominente zoekfunctie => laat toe
om doorheen alle EBI databanken tegelijk te zoeken = krachtige manier om info te
verzamelen over gen of eiwit zeker als niet precies geweten is waar deze geplaats kan worden
,1.1 ensemble
Onderhouden door EBI
Één van de meest gebruikte sequentiedatabanken in de wereld
Informatie over organismen (genoom – transcriptoom – proteoom) -> heel het dogma van de
biologie vinden we terug
Een eiwit kan ook getraceerd worden naar het gen van origine via ensemble
Alle gekende transcripten kunnen we terugvinden
Experimentele data wordt verenigd
Door op 1 chromosoom te drukken
kunnen we informatie krijgen van elle
genen op dat chromosoom
Horizontale as = chromosoom
Alles wat eronder ligt = genen zijn die mogelijk
getransleerd worden
Best veel overlap tussen genen = wil zeggen dat we alle
mogelijke transcripten die een gen voortbrengen hier in
ogenschouw nemen = alle mogelijke gentranscripten die
we kunnen krijgen van een coding region opgenomen is
als een aparte entiteit in ensemble
Uniciteit wordt bepaald op transcript niveau
-> dus 2 EW met identieke sequentie maar die wel
verschillende transcripten hebben in hun UTRs
, komen voor als twee onderscheiden eiwitten in
Ensemble databank, ondanks het feit dat ze op
eiwitniveau ononderscheidbaar zijn
als je klikt op een van de transcripten dan krijg je dit: twee onderscheiden eiwitten in de Ensembl databank
zullen voorkomen, ondanks het
feit dat ze op eiwitniveau ononderscheidbaar zijn
geworden
,1.2 UniProt
Wordt ook onderhouden door EBI
UniProtKB bestaat uit een aantal onderscheiden onderdelen:
- UniprotKB/Swiss-Prot = manueel geannoteerde eiwitdatabank
- UniProtKB/TrEMBL = automatisch geannoteerde complement van UniProtKB/Swiss-Prot
-UniRef = bestaande uit sequentieclusters die handig gebruikt kunnen worden om
sequentiemilariteiten sneller uit te rekenen
Om sequenties te gaan vergelijken
- UniParc = UniProt archief, waarin alle sequenties die door de grote sequentie databanken
wereldwijd opgenomen wordenn gearchiveerd worden
UniProt beschikt ook over een taxonomisch systeem (NEWT) -> het is gesynchroniseerd met
taxonomisch systeem van NCBI
External sources: bv Ensemble, genBank = informatiebronnen over bv sequentiële informatie,
daar wordt door informatie uitgehaald en in UniParc geparkeerd
UniParc is de eerste stap naar mogelijke inclusie binnen UniProt, er wordt dus beslist welke
informatie doorgaat naar UniProt
Als het niet naar UniProt mag, keert het terug naar UniParc
1.2.1 UniProt ID mapping
Wat doen we hier?
Tussen verschillende databronnen de identifiers van bv genen en eiwitten aan elkaar linken
(bv ensemble identifiers linken met UniProt identifiers)
het kan dat het een 1-veel relatie is: dus 1 gen identifier die je kan linken naar meerdere
transcript identifiers of meerder eiwit identifiers
identifiers bv: P00356
NCBI
eiwit invullen in zoekbank
2.1 GenBank
grootste maar werkt nog steeds samen met anderen
2.2 OMIM
= database die gaat over verschillende genetische ziekten die gelinkt zijn aan bepaalde pathologieën
vaak wordt er literatuur aangehaald
2.3 RefSeq
= tegenhanger van Ensemble
heel de stroom van biologisch dogma ter beschikking (van gen tot transcript tot eiwit)
ziet er niet mooi uit
UniProt haalt heel veel informatie uit RefSeq en verwerkt dit binnen UniProt
Annotatie bronnen: gene ontology en andere ontologies
We kijken nu niet naar sequentiële of numerieke data maar naar de annotatie van die data
Bv: hoe we een functie van een bepaald eiwit gaan noemen en hoe we die daar gaan linken
3.1 controlled Vocabularies (CVs)
, Er zijn heel verschillende manieren of synoniemen om iets te benoemen (bv: TOF of T.O.F.)
-> dit is problematisch want het kan voor verwarring zorgen en kan ook zorgen voor overlap tussen
termen die niet hetzelfde zijn
-> oplossing: een nummer gebruiken of gaan beschrijven wat het woord betekend
Bronnen voor drie-dimensionele structuren
4.1 RCSB PDB
We gaan eiwitstructuren terugvinden
Deze zijn bepaald met 2 verschillende structuren: 1) X-ray
2) RENR
Informatie over deze structuren
Protein Atlas
Gratis beschikbaar
Kunt bv zien in welk orgaan een bepaald eiwit zich bevindt
Informatie over kankers
Laatste 5 min van les 1 = samenvatting
Hoofdstuk 2: Sequentie data