Bio-informatica
Inleiding
- Bio-informatica = problemen oplossen
└ Alles is op zeer vele manieren oplosbaar
Entrez gene
→ Opzoeken via: NCBI → ‘gene’
Wat je kan vinden:
- Genstructuur annotaties: 3’ en 5’ UTRs, exonen, intronen, alternatieve splice vormen, isovormen, …
- Functionele annotaties volgens de Gene Ontology vocabulaire (zie verder)
- Genexpressie
- Interacties met andere proteïnen
- Mutante fenotypes
- Homologie
Wat hebben we opgezocht in de les:
- ‘summary’ = korte samenvatting over het gen
- Isovormen van mRNA: zelf tellen
- Bibliografie: bevat artikels gelinkt aan het gen
- Pathways waarbij het eiwit (afkomstig van het gen) betrokken is
Transcripten
Elk lijntje is een transcript isovorm: ontstaan door alternatieve splicing of alternatieve promotors
- Lichtgroene blokjes = UTRs = non-coding exons
- Donkergroene blokjes = codons
- Streepjes ertussen = introns
Refseq
= gecureerde secundaire database die als doel heeft een volledige, geïntegreerde, niet-redundante reeks
sequenties te bieden
- 1 entry voor elk chromosoom
- 1 entry per molecule
- Niet-redundant: 1 entry per RNA
- Bestaat uit: 2 letters + 6 nummers → bv. NM_000546.5 (laatste = versie nummer)
,Unieke identifiers:
- Voor mRNAs = NM_...
- Voor proteïnen = NP_...
- Voor mRNAs en proteïnen waarvan ze vermoeden dat ze bestaan, maar nog niet experimenteel is
aangetoond = XP_...
Genbank format: .GB
= genbank formatted file
- Vorm: xxx.GB
- Flatfile bestaat uit 3 delen
1. Header
2. Features
3. Sequence
Fasta format: .FASTA
- Vorm: xxx.fasta
- Flatfile bestaat uit
└ > met erachter de sequence identifier
└ Sequentie
- Zowel voor proteïnen als nucleotiden
Hoe opslaan?
1) “send to”
2) Complete record aanklikken
3) Format: FASTA kiezen
4) Notepad++ openen en de file erin zetten
EMBL/EBI
= Europese databank → opzoeken via EBI
,DBFETCH
= links die je kan gebruiken in de browser waardoor je rechtstreeks een sequentie kan downloaden
- Voorbeeld:
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch? db=refseqn;id=NM_000231;format=fasta&style=raw
└ NM kan je aanpassen van nummer of naar NP
└ Format kan je aanpassen
└ Stijl kan je aanpassen
Als je dit opzoekt kom je meteen op de sequentie
ENA: european nucleotide archive
= tegenhanger van entrez gene
Proteïne databanken
- NCBI → ‘protein’
- Swissprot
- 3D structuren
NCBI
, GFF format
Bestaat uit 9 kolommen gescheiden door een tab
1. Seqname = naam van de sequentie
2. Bron
3. Features
4. Start en einde
5. Score
6. Strand
7. Frame
Eventueel:
- Attributes
- Comments
3D structures
NCBI → “structure”
Oefening 1: Entrez
Zoek volgende paper in Pubmed: The DCC gene has a role in cellular differentiation and colorectal
tumorigenesis (Hedrick et al. 1994)
1) Open entrez → Pubmed
2) Vul in: Hedrick 1994 genes dev
Geef de pubmedID
1) ID is te vinden onder de titel van het artikel
2) Oplossing: 7926722
Wat zijn de residus die de signal sequence bepalen volgens de uniprot entry?
1) Ga bij het artikel naar related information → klik op ‘gene’
2) Zoek de link naar uniprot
3) Zoek naar signal peptide
4) Positie 1-25
5) Via BLAST kan je de sequentie vinden: MENSLRCVWPKLAFVLFGASLFSA
Oefening 2: Entrez
Hoeveel mRNAs zijn er van het SOX9 gen?
1) Ga naar entrez gene
2) Geef SOX9 in
3) Tel de transcripten = 5 mRNAs
Wat is de functie van dit gen?
1) Klik op de uniprot link
2) Hierop kan je de functie lezen
Geef de FASTA sequentie van 1 mRNA → klik op NM_
Geef de FASTA sequentie van 1 proteïne isovorm → klik op NP_
Is de structuur beschikbaar?
1) Ga naar entrez ‘structure’
Zijn er geannoteerde domeinen in Swissprot
1) Doe ctrl F in swissprot
2) GO annotations