Bio-informatica
NCBI (EMBL/EBI zelfde)
Entrez gene = startpunt: vanaf daar verder klikken
o Gene structuur en interacties
o Functional annotation (gene ontology) + homology
o Gene expression
o Features via genbank
Nucleotide
o Nucleotide seq van NM nummer zoeken = RefSeq identifier
NM = mRNAs; NP = proteins; NT = genomic consensus
XM = model mRNAs; XP = model proteins voorspellingen
CDS = coderende seq (niet 5’ en 3’ UTR)
Blast: nucleotide of proteine: gelijkaardige seq zoeken in andere org
Uniprot: protein database (swissprot)
o NM nummer of NP ingeven; output is P nummer
o GFF format downloaden (general feature format) voor domeinen en modificaties
o Bv signal sequence vinden of dergelijke
o Bv 3D structuur: PDB geven (en domain families)
o Catalytische activiteit van proteine
o Family and domain: bij interpro view protein domeinen zien
Gene ontology
ontologies = genen en proteinen van verschillende databanken (dus verschillende nrs) linken
o Voor verschillende species: Flybase, MGI (mouse), SGD (S cerevisae)
o Structuur: moleculaire functie – cellulaire component – biologisch proces
o 2 relaties mogelijk: is-a of part-of
quick GO: term opzoeken en dan gerelateerde vinden en zien hoeveel annotaties
cell ontology (OLS): term opzoeken en zien van waar het ontwikkelt + betekenis
Entrez gene en GTEx voor plaats expressie genen opzoeken
Human cell atlas: zoeken per orgaan – naar ding gaan wa je nodig hebt – explore – doorklikken naar…
CellXGene: UMAPs bekijken van alle cellen in lichaam per orgaan
o Alle cellen per orgaan
o Op type sorteren; gene zoeken
o Dot plot maken van marker genes van bepaald celtype
(vergelijken met GTEx)
OMIM (online mendelian inheritance in man)
= verband tussen genen en ziekte
HPO (human phenotype ontology)
= ziekte en phenotype zoeken: geeft HP nummer identifier
, UCSC
o Meestal humaan GRCh38/hg38 gebruiken (ook andere organismen)
o Transcripts zien: exonen, intronen
o Common dbSNP
o Tools BLAT: gelijkaardige seq zoeken in andere org
InSilicoPCR: welke regio van genoom amplificeren voor set primers (uniek target?)
DNA seq in Primer3 (site) steken en forward en reverse primer krijgen
o Tablebrowser: in bepaalde kolom selecteren op bepaalde voorwaarde (zoals HeidiSQL)
of 1Mb bv upstream van gen hebben
Ensembl (gelijkaardig aan UCSC)
homologs zoeken = high seq overeenkomst (gene/protein) door zelfde voorouder
o Orthologs = apart door ontstaan nieuwe soort
o Paralogs = apart door gen duplicatie
o Biomart: dataset kiezen (over genen meestal en dan in welk organismen),
bij attributes staat wat je te zien gaat krijgen achter > (te veel meestal) dus filter instellen:
lijst genen gekregen: bij gene input externel references (genen kopiëren) en instellen welke
soort naam ze hebben dus hoe interpreteren
Dan attributes: willen seq dus dat aanduiden + welke regios ge wilt + welke header (staat
normaal in opgave)
dit bestand downloaden en uploaden in jupyter
HeidiSQL
verzameling alle tabellen van verschillende sites (GO, transcripts, genes) (zoals tablebrowser)
o Select columns = welke kolommen tonen: opsommen; * = alle kolommen; count (*) =
nummer rijen ipv kolommen; distinct = enkel met verschillende waarde
o From table = van welk tabel
o Where condition = welke rijen tonen
https://www.w3schools.com/sql/sql_where.asp
Jupyter notebook
Bash: commands
- man (ervoor) of –help (erachter) = laat handleiding zien van iets dat je er achter zet
- ls = lijst van files in een directory (-ltrh vaak)
- ln = maakt link tussen files (vb -sf voor link te maken en bestaande file verwijderen)
- cd = change directory (naam van file achterzetten en dan naar die file in een mapje gaan)
- pwd = print pad van folder waar je in bezig bent
- mkdir = maak nieuwe directory/folder
- rmdir = remove folder (ni gebruiken)
- cp = copy file (origineel intact)
- mv = move file of folder of andere naam (originele_naam nieuwe_naam)
- echo “mens” = typ mens (daaronder dan wel nog cat bestand zeggen waar de output van komt)
NCBI (EMBL/EBI zelfde)
Entrez gene = startpunt: vanaf daar verder klikken
o Gene structuur en interacties
o Functional annotation (gene ontology) + homology
o Gene expression
o Features via genbank
Nucleotide
o Nucleotide seq van NM nummer zoeken = RefSeq identifier
NM = mRNAs; NP = proteins; NT = genomic consensus
XM = model mRNAs; XP = model proteins voorspellingen
CDS = coderende seq (niet 5’ en 3’ UTR)
Blast: nucleotide of proteine: gelijkaardige seq zoeken in andere org
Uniprot: protein database (swissprot)
o NM nummer of NP ingeven; output is P nummer
o GFF format downloaden (general feature format) voor domeinen en modificaties
o Bv signal sequence vinden of dergelijke
o Bv 3D structuur: PDB geven (en domain families)
o Catalytische activiteit van proteine
o Family and domain: bij interpro view protein domeinen zien
Gene ontology
ontologies = genen en proteinen van verschillende databanken (dus verschillende nrs) linken
o Voor verschillende species: Flybase, MGI (mouse), SGD (S cerevisae)
o Structuur: moleculaire functie – cellulaire component – biologisch proces
o 2 relaties mogelijk: is-a of part-of
quick GO: term opzoeken en dan gerelateerde vinden en zien hoeveel annotaties
cell ontology (OLS): term opzoeken en zien van waar het ontwikkelt + betekenis
Entrez gene en GTEx voor plaats expressie genen opzoeken
Human cell atlas: zoeken per orgaan – naar ding gaan wa je nodig hebt – explore – doorklikken naar…
CellXGene: UMAPs bekijken van alle cellen in lichaam per orgaan
o Alle cellen per orgaan
o Op type sorteren; gene zoeken
o Dot plot maken van marker genes van bepaald celtype
(vergelijken met GTEx)
OMIM (online mendelian inheritance in man)
= verband tussen genen en ziekte
HPO (human phenotype ontology)
= ziekte en phenotype zoeken: geeft HP nummer identifier
, UCSC
o Meestal humaan GRCh38/hg38 gebruiken (ook andere organismen)
o Transcripts zien: exonen, intronen
o Common dbSNP
o Tools BLAT: gelijkaardige seq zoeken in andere org
InSilicoPCR: welke regio van genoom amplificeren voor set primers (uniek target?)
DNA seq in Primer3 (site) steken en forward en reverse primer krijgen
o Tablebrowser: in bepaalde kolom selecteren op bepaalde voorwaarde (zoals HeidiSQL)
of 1Mb bv upstream van gen hebben
Ensembl (gelijkaardig aan UCSC)
homologs zoeken = high seq overeenkomst (gene/protein) door zelfde voorouder
o Orthologs = apart door ontstaan nieuwe soort
o Paralogs = apart door gen duplicatie
o Biomart: dataset kiezen (over genen meestal en dan in welk organismen),
bij attributes staat wat je te zien gaat krijgen achter > (te veel meestal) dus filter instellen:
lijst genen gekregen: bij gene input externel references (genen kopiëren) en instellen welke
soort naam ze hebben dus hoe interpreteren
Dan attributes: willen seq dus dat aanduiden + welke regios ge wilt + welke header (staat
normaal in opgave)
dit bestand downloaden en uploaden in jupyter
HeidiSQL
verzameling alle tabellen van verschillende sites (GO, transcripts, genes) (zoals tablebrowser)
o Select columns = welke kolommen tonen: opsommen; * = alle kolommen; count (*) =
nummer rijen ipv kolommen; distinct = enkel met verschillende waarde
o From table = van welk tabel
o Where condition = welke rijen tonen
https://www.w3schools.com/sql/sql_where.asp
Jupyter notebook
Bash: commands
- man (ervoor) of –help (erachter) = laat handleiding zien van iets dat je er achter zet
- ls = lijst van files in een directory (-ltrh vaak)
- ln = maakt link tussen files (vb -sf voor link te maken en bestaande file verwijderen)
- cd = change directory (naam van file achterzetten en dan naar die file in een mapje gaan)
- pwd = print pad van folder waar je in bezig bent
- mkdir = maak nieuwe directory/folder
- rmdir = remove folder (ni gebruiken)
- cp = copy file (origineel intact)
- mv = move file of folder of andere naam (originele_naam nieuwe_naam)
- echo “mens” = typ mens (daaronder dan wel nog cat bestand zeggen waar de output van komt)