Vier hoofdtypes data: - p3
- Sequenties
- Structuren
→ sequenties en structuren kunnen omgezet worden in numerische data! (bv
DNA sequentie omzetten naar getallen)
- Numerische data
- Metadata
→metadata kan verschillende vormen aannemen
→probleem: verband met confidentialitiei/privacy
4 belangrijke Publieke data bronnen: - p4
- EBI
- NCBI
- Protein Data bank
- Protein atlas
Bronnen die informatie geven over sequenties: (onderdeel van EBI)
- Interpro: helpt bij het analyseren van eiwitten - domeinstructuren
- Intact: geeft info over de interactie tussen eiwitten – moleculaire interacties
- Biomart: laat je verschillende datasets combineren – generiek databank
zoekmechanisme
,HOOFDSTUK 1: DATABRONNEN
EBI (EUROPEAN BIOINFORMATICS INSTITUTE BRONNEN)
- Prominente zoekfunctie om doorheen alle EBI-databanken tegelijk te zoeken
- Als je specifieke databank wilt, staat dat onder de zoekbalk
EBI-databanken:
1. Ensembl: 1 van de meest gebruikte sequentiedatabanken (info over vss
modelorganismen: genoom, transcriptoom, proteoom)
o Data op verschillende niveaus verkennen
o Chromosoomregio
o Gendensiteit: veel genen worden geannoteerd afhv gendensiteit
o %GC herhaling
o Variatiefrequentie
o Kleurcode: zegt over welk gen het gaat
o HAVANA = project om humaan genoomannotatie uit te voeren
o Niveau van individueel gen: structuur van transcripten en eiwitten afgeleid
o Niveau van eiwit: limiet van resolutie = zien enkel coderende exons en
kniklijn voor introns
▪ Annotaties van eiwitten zoals modificaties of hoge
structuurniveaus vormen GEEN deel van Ensembl
▪ Zulke eiwit info kan ensembl wel tonen door DAS anotaties → info
ophalen uit uitgebreik netwerk van andere data bronnen
o European Nucleotide Achive
2. Uniprot knowledgebase – p14
o UniprotKb/Swiss-Prot → Manueel geannoteerde eiwitdatabank
▪ Gouden ster
▪ ‘reviewed’
o UniprotKB/TrEMBL →Automatisch geannoteerde complement van
UniprotKb/Swiss-Prot
o UniRef → sequentieclusters handig om sequentiesimilariteiten uit te
rekenen
o UniParc → Uniprot archief → alle sequenties die door grote sequentie
databanken opgenomen worden, gearchiveerd worden
, o NEWT = taxonomisch systeem = bevat informatie over soorten
(organisme) zodanig dat het gekoppeld kan worden aan het eiwit waarvan
het afkomstig is
▪ Gesynchroniseerd met taxonomisch systeem van NCBI
Voorbeeld van een eiwit:
o Bovenaan eiwitnaam & accessienummer = unieke code waarmee je een
molecule altijd terug kan vinden in brondatabank en dikkels ook in andere
databanken
o DAAROM is een accessienummer nuttiger dan een naam MAAR moeilijk te
onthouden
UniprotKB/swiss-prot heeft meest exhaustive informatie over een eiwit DUS
ideale keuze om research over een eiwit te beginnen!!!
→ heeft manueel geverifieerde links naar andere meer specialistische
databanken
3. PCIR = accessie nummer vertaling – protein identfiercross-referencing service –
p16
o Verschillende databanken gebruiken verschillende accessienummers
→ Ontstaat een babylonische spraakverwarring: vervelend voor
vergelijken van resultaten
o Omzetten van accessienummer van bepaalde brondatabank naar
equivalent nummer in een doeldatabank NIET EVIDENT
o Oplossing: PCIR = heterogene set van accessienummers uit verschillende
brondatabanken om zetten in equivalente nummers in een set van
doeldatabanken
▪ PCIR kan 100’en tot 1000’en nummers tegelijk omzetten en baseert
zich op UniParc om de equivalentie van accessienummers te
bepalen
, ▪ Voordeel: niet alleen vertalingen tussen databanken maar ook
accessienummers doorheen de tijd vertalen
NCBI – national center for biotechnology information bronnen – p18
- Zoekfunctie en opsomming van databases
- Meest populaire: Pubmed
1. NCBI GenBank – p20
o Primair sequentie-achief dat submissies van onderzoekers accepteert
o International nucleotide sequence database collaboration of INSDC
bestaat uit:
▪ NCBI genbank
▪ European Nucleotide Archive van EMBL
▪ DNA data bank of Japan ‘DDBJ’ van Japanse evenknie
→ deze 3 databanken wisselen informatie uit maar Genbank krijg met veel
voorsprong het grootste aantal sequenties gesubmit!
o Op zich is de genbank niet zo interessant maar de nucleotiden
sequentiedatabank vormt de basis van alle andere afgeleide databanken
zoals Ensembl
o Databanken zoals UniprotKB/swiss-Prot krijgen eiwitsequenties via directe
submissie binnen
o Gendatabank wordt weergegeven in tekst-gebaseerd bestandsformaat als
je een gen opzoekt
2. OMIM – online Mendelian Inheritance in Man – p22
o Overzicht van gekende genetische ziektes bij de mens
o Waarbij genetische component gekend is!
o Ziektes geassocieerd met 1 of slechts enkele genen waardoor ze
Mendeliaans overerven
o Gelinkt met UnirpotKB/swiss-prot → bekijkt eiwit waarvoor een OMIM
ziektebeeld bekend is → betreffende informatie ophalen uit OMIM