Samenvatting

Samenvatting HCO biologie als een datawetenschap

Name: HCO biologie als een datawetenschap
SKU: doc_403007
Rating: 4.00 (4 reviews)
Author: brittheijmans

Beoordeling

4,0

(4)

Verkocht

Pagina's

Geüpload op

03-03-2018

Geschreven in

2017/2018

Dit is een uitgebreide samenvatting van het hoorcollege over het 1e hoofdstuk uit de reader. Begrippen die hierin naar voren komen, zijn: wetenschappelijke cyclus, database, data, crAssphage, datasets, data-driven discoveries, nulhypothese, Google, top down, bottom up, ISCB, fourth paradigm, FAIR data, data recycling, sequencing machines, transcriptoom, proteoom, fasta files, Omics revolution, annotatie, metadata, error propagation, experimental validation etc.

Meer zien Lees minder

Instelling

Vak

Voorbeeld van de inhoud

Biologie als een data wetenschap
Wetenschappelijke cyclus, je begint altijd met een vraag waarna een hypothese
volgt. Om deze te testen, voer je experimenten uit. De resultaten ga je dan
analyseren om tot een conclusie te komen. Zoals je in de cyclus ziet, zit de data bij
het experiment en bio-informatici hebben daar dus veel mee te maken.
Biologische databases, het eerste eiwit werd in 1956 gesequenced en dat
gebeurde dus voordat er DNA sequencing plaatsvond. Dit eiwit was insuline uit
een koe. Naarmate de tijd verstreek werden er steeds meer eiwitten
gesequenced en begon Margaret Oakley Dayhoff met het verzamelen van al deze
sequenties en structuren. Zij bracht deze samen in de Atlas op Protein Sequence and Structure (1965).
In de tussentijd zijn er nog meer databases bijgekomen zoals Protein Data Bank (1972) die met name
structuren bevat, Genbank (1982) die met name sequenties bevat en SWISSPROT (1987) die eiwitten
en gen sequenties bevat met een geteste functie.
Data, hoe meer data er is, hoe meer ontdekkingen er gedaan kunnen worden. Door de toename in
data hebben bio-informatici veel methodes ontwikkeld om de data te analyseren. Zo kan je
bijvoorbeeld een fylogenetische boom maken van cytochroom c eiwitten van verschillende
organismen. Zo lijkt de boom die hieruit volgt heel erg op de evolutionaire fylogenetische boom. M.
Fitch en Emannuel Margoliash hebben dit ontdekt en leverde dus het eerste bewijs voor de
evolutionaire boom. De toename in data is in de grafiek te zien, waar de rode lijn whole genome
sequenties bevat en de blauwe lijn gen sequenties.
Sequencing kosten, waarbij het sequencen van het eerste menselijk
genoom jaren duurde en heel veel kostte, kan dat tegenwoordig een stuk
sneller en goedkoper.
Gebruik van data & de wetenschappelijke cyclus, door data te
gebruiken, kan je sneller door de wetenschappelijke cyclus:
1. Stel je vraag als een data hypothese.
 Welke data bevat delen van het antwoord?
 Welk patroon in de data bevestigd/verwerpt je hypothese?
2. Schrijf een script om de data te analyseren.
3. Interpreteer de resultaten.
 Bevestigd/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en
biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
4. Trek een conclusie.
Dit levert een andere wetenschappelijke cyclus op dan die van wet-lab experimenten. Zo zie je dat de
hypothese naar een data hypothese is verandert, het experiment naar een script is verandert en dat
het analyseren van de resultaten naar het interpreteren van de resultaten is verandert.
crAssphage, in 2014 is (mede door Bas Dutilh) een nieuw virus ontdekt wat in mensen zit. Voor dit
onderzoek is bestaande data gebruikt om een nieuwe ontdekking te doen. We hebben meer
bacteriën in onze darmen dan dat we lichaamscellen hebben en deze bacteriën worden geïnfecteerd
door virussen. Het is dus van belang dat we deze virussen achterhalen. In dit onderzoek vroegen de
onderzoekers zich ook af waar het virus allemaal voorkomt. Hiervoor zijn ze op zoek gegaan naar een
database waarin informatie stond van over de hele wereld verzamelde monsters van mensendarmen.
Uit eerder onderzoek bleek al dat het virus bij 50% procent van de bevolking voorkomt dus het was
eigenlijk beter om niet naar individuen te kijken, maar juist naar rioolwater. Er bleek al een onderzoek
gedaan te zijn naar rioolzuiveringssamples van over de hele wereld en in alle samples is het virus
teruggevonden. Door het stellen van een gerichte vraag en het gebruik van bestaande data kunnen
bio-informaticus dus vragen beantwoorden.

, Datasets, er worden steeds meer metagenomen gesequenced door bijvoorbeeld HiSeq machines. In
heel veel gevallen zijn de onderzoekers naar 1 ding op zoek of weten ze helemaal niet waar ze naar
zoeken. De data wordt hierdoor soms zo groot dat je de resultaten niet meer kan analyseren en dat
soms zelfs de hypothese niet eens aan te pas komt, omdat mensen zomaar iets gaan sequencen om
hun vraag te kunnen beantwoorden. Deze data tsunami is voor bio-informatici juist voordelig.
Data-driven discoveries, zonder van te voren een vraag te hebben, kunnen ook al ontdekkingen
gedaan worden door gebruik van data:
1. Gebaseerd op een dataset kan je een data hypothese formuleren door je biologische kennis.
 Gebaseerd op je biologische kennis, wat verwacht in de data te zien?
 Nulhypothese: er is geen patroon
2. Schrijf een script om de data te analyseren
 Bio-informatici noemen dit een ‘sanity check’ en hiermee check je of je begrip van de
data klopt zonder dat je van te voren een vraag paraat had.
3. Interpreteer de resultaten.
 Bevestigt/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
 Als de data niet consistent is met je verwachting heb je misschien wel iets nieuws
ontdekt.
4. Formuleer een nieuwe hypothese waarin je de potentieel nieuwe ontdekking verwerkt.
 Test hem.
Voorbeeld data-driven ontdekking, we gaan even terug naar het onderzoek naar rioolwater. Door je
biologische kennis weet je dat daar bacteriën en virussen in voorkomen en dat kan je dan
bijvoorbeeld testen. De nulhypothese hierbij zou kunnen zijn dat er bacteriën en virussen in de
samples worden aangetroffen en dat deze verdeling over de hele wereld hetzelfde is. Als dit niet zo
blijkt te zijn, kan je een nieuwe hypothese opstellen om te kijken of je ontdekking klopt.
Nulhypothese, hierbij wordt aangenomen dat de methode geen effect heeft of dat het
onderzoek geen verklarende kracht heeft. Als de nulhypothese dus ondersteund wordt,
is er niet bijzonders aan de hand. De nulhypothese wordt meestal gekozen in de
veronderstelling dat het effect niet bestaat en er wordt geprobeerd om de nulhypothese
te verwerpen.
crAssphage2, het begon met de data uit een artikel (2010) waarin ze virussen hadden
geïsoleerd uit de poep van 12 verschillende mensen. Deze mensen waren afkomstig uit
4 families waarbij uit elke familie de poep van de moeder en twee eeneiige
tweelingdochters was onderzocht. De onderzoekers waren namelijk benieuwd naar de
diversiteit van de virussen. Uit dit onderzoek bleek dat de verschillende groepen
functionele virussen erg verschillen tussen de onderzochte mensen, terwijl de bacteriën
juist erg overeenkomen. Bas Dutilh vond dat interessant en zijn begrip van de data was
hiermee vergroot door het feit dat virussen dus heel erg verschillen. In het onderzoek
stond echter dat maar 15% van alle data gebruikt kon worden om de conclusie te
trekken. De rest van het sample bestond uit onbekende sequenties. Voor het poep
onderzoek hebben ze de samples namelijk vergeleken met samples uit een bestaande
database en hierdoor kon 15% gelinkt worden aan een bepaald virus. De rest stond niet
in de database en de onderzoekers gingen ervan uit dat de overige 85% net zo divers zou zijn als de
onderzochte 15%. Wat Bas toen heeft gedaan is kijken of er nieuwe genomen te assembleren waren
en dat bleek zo te zijn. Er bleek één virus te zijn wat een kwart van de overgebleven sequenties
bevatte. Door assembling was dus opeens een groot deel van de data te identificeren. De naam
crAssphage komt dan ook van crossassembly en phage, waarbij crossassembly afkomstig is van het
feit dat Bas alle metagenomen samen heeft geassembleerd en phage is afkomstig van bacterievirus.
Opeens zijn de virussen helemaal niet meer zo divers. Sommige mensen hebben maar liefst een

Meld schending auteursrecht

Geschreven voor

Instelling: Universiteit Utrecht (UU)
Studie: Biologie
Vak: Systeembiologie

Documentinformatie

Geüpload op: 3 maart 2018
Aantal pagina's: 6
Geschreven in: 2017/2018
Type: SAMENVATTING

Onderwerpen

wetenschappelijke cyclus
database
data
crassphage
datasets
data driven discoveries
nulhypothese
google
top down
bottom up
iscb
fourth paradigm
fair data
data recycling
sequencing machines
transcriptoo

€3,49

Krijg toegang tot het volledige document:

Gekocht door 0 studenten

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

brittheijmans

4,4

(533)

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Alle 4 reviews worden weergegeven

tomlous Biologie · 35 beoordelingen

6 jaar geleden

et98 Health Care Management · 59 beoordelingen

7 jaar geleden

thibaudtegroen Psychologie · 69 beoordelingen

8 jaar geleden

sanneejanssen Biologie · 43 beoordelingen

8 jaar geleden

4,0

4 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

brittheijmans Universiteit Utrecht

Bekijk profiel

Volgen

Verkocht

636

Lid sinds

8 jaar

Aantal volgers

290

Documenten

381

Laatst verkocht

1 maand geleden

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4,4

533 beoordelingen

308

149

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Kan ik dit niet gewoon gratis met AI maken?

AI-tools geven je veel algemene informatie, maar ze kennen jouw vak, jouw docent en de vragen op jouw tentamen niet. Dit document is geschreven door een medestudent die precies dit vak heeft gevolgd en gehaald, en dus weet wat er echt gevraagd wordt. Je krijgt gerichte studiehulp die klopt, in plaats van een algemene tekst die je zelf nog moet controleren en bijschaven.

Is dit document nog actueel voor mijn vak?

Bij elk document zie je het studiejaar, het gekoppelde studieboek en de onderwijsinstelling, zodat je vooraf checkt of dit document bij jouw vak past. Bekijk ook de gratis preview om te zien of het aansluit.

Wat als het document tegenvalt?

Geen zorgen! Als je binnen 14 dagen na je aankoop van gedachten verandert en het document nog niet hebt gedownload, krijg je je geld terug. Je aankoop is volledig zonder risico.

Van wie koop ik dit precies?

Stuvia is een marktplaats: je koopt rechtstreeks van de student die het document heeft gemaakt. Stuvia handelt de betaling veilig af en staat garant met de gratis ruilgarantie, zodat je nooit risico loopt op je aankoop.

Zit ik meteen vast aan een abonnement?

Nee, je betaalt eenmalig €3,49 voor dit document en verder niets. Geen abonnement, geen automatische verlenging, geen kleine lettertjes.

Wat krijg ik als ik dit document koop?

Je krijgt een pdf die direct na betaling beschikbaar is. Je kunt het document online lezen of downloaden, en het blijft onbeperkt toegankelijk via je profiel.

Waarom kan ik Stuvia vertrouwen?

4,6 sterren op Google en Trustpilot uit meer dan 2.000 reviews. De afgelopen 30 dagen zijn er 31625 documenten via Stuvia in meerdere landen verkocht. En dat doen we al 16 jaar. Bij elk document zie je bovendien de beoordeling en hoe vaak het is verkocht.

Samenvatting HCO biologie als een datawetenschap

Voorbeeld van de inhoud

Geschreven voor

Documentinformatie

Onderwerpen

Meer vakken binnen Universiteit Utrecht (UU) > Biologie

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Kan ik dit niet gewoon gratis met AI maken?

Is dit document nog actueel voor mijn vak?

Wat als het document tegenvalt?

Van wie koop ik dit precies?

Zit ik meteen vast aan een abonnement?

Wat krijg ik als ik dit document koop?

Waarom kan ik Stuvia vertrouwen?