fMethodevalidatie Statistiek, validatie en meetonzekerheid in het laboratorium
1 Inleiding
Goede steekproef = REPRESENTATIEF ( t.o.v. de populatie)
Als er N elementen in de populatie zijn, moet elk element 1/N kans hebben om in steekproef te zitten
Elementen uit populatie ad random kiezen om in steekproef te zitten
Opgelet: extrapolatie kan nooit voor 100%
Variabelen kunnen invloed hebben op resultaat
Onafhankelijke variabelen: Analist heeft deze zelf in de hand
(instelling op toestel, concentratie stockoplossing)
Afhankelijke variabelen: Afhankelijk van de onafhankelijke variabele, is de variabele die men wil
bepalen/meten door het experiment (fluorescentie bij flowcytometrie)
Nominale schaal➔ Kwalitatieve variabelen, geen rangorde
Ordinale schaal➔ Eigenschappen ook met woorden beschrijven, maar wel rangorde
Intervalschaal➔ Kwantitatieve variabelen, rangorde van intervallen
Ratioschaal➔ Kwantitatieve variabelen, ≠ waarden waarmee kan gerekend worden
2 Spreiding van analyseresultaten
2.1 De “ware waarde” en de benaderingen
Hoe nauwkeuriger het onderzoek/analyse, hoe beter de verwachtingswaarde = “ware waarde”
CENTRUMMATEN = robuuste parameters
(zelfde eenheden als waarnemingsresultaten)
Gemiddelde: Als verwachtingswaarde voor een variabele wordt vaak het rekenkundig gemiddelde berekend.
Mediaan: Alle waarnemingsgetallen rangschikken van klein naar groot(rekening houdend met frequentie)
Indien n = oneven m = middelste getal
indien n = even m = gemiddelde van de twee middelste getallen
Wanneer mediaan gebruiken?
- (relatief) klein aantal analyses Minder kans invloed van mogelijke outlier
- Bij analyses in de vergelijking met het gemiddelde: indien te veel ≠ tussen het gemiddelde en de
mediaan, indicatie op foute resultaten
Modus: Het getal (klasse) met de grootste absolute frequentie (modale klasse)
Het zou dus kunnen dat er twee modi zijn
Vanaf 2 getallen of 2 klassen, die het meeste voorkomen, beschouwen we het begrip niet meer.
SPREIDINGSPARAMETERS
, Variantie: Belangrijke informatie i.v.m. de spreiding van de bekomen data
Rekenkundig gemiddelde vd kwadratische afwijking vd waarnemingsgetallen t.o.v. hun rekenkundig
gemiddelde
Var(x) in een populatie = 2
Var(x) in een steekproef = s2
Standaarddeviatie: Meest gebruikte maat voor de spreiding van de waarnemingsgetallen
Wortel uit de variantie
s = geschatte standaarddeviatie van de “ware spreiding”
Variatiecoëfficiënt: Vergelijking van de spreiding van ≠ onderzoeken
Werken met een relatieve, dimensieloze waarde
Relatieve Standaarddeviatie = RSD
Variatiecoëfficiënt = CV (vaak uitgedrukt in %)
2.2 Normaalverdeling
Waarnemingsresultaten van onderzoek moeten worden geordend om een duidelijk beeld te krijgen:
Tabel ➔ bv. frequentietabel
(frequentie van voorkomen van resultaten wordt weergegeven )
Grafiek
Staafdiagram of histogram (op Y-as wordt frequentie weergegeven, op X-as de klassen of middens van de
klassen)
Lijndiagram of frequentiepolygoon (= lijn die de middens van de klassen van het histogram verbindt)
Frequentietabel opstellen:
1. De spreidingsbreedte R (range) bepalen
R = verschil tussen de hoogste en de laagste waarneming
2. Het aantal klassen k bepalen
k = wortel uit het aantal waarnemingsresultaten
3. De klassebreedte b bepalen
b = quotiënt van de spreidingsbreedte R en het aantal klassen k
Eigenschappen van de normale verdeling:
, Aantal metingen voldoende Frequentiepolygoon benadert de klokvorm
Klokvorm, in het punt x =µ (ware waarde) ligt een as van symmetrie
Op Y-as: de relatieve frequenties zijn uitgezet ➔totale AUC = 1 of 100%
X-as = horizontale asymptoot
De buigpunten liggen op µ - en op + µ
De normaalverdeling wordt weergegeven als N(µ , )
De 68-95-99,7%-regel
2.3 Student t-verdeling
In de praktijk werken met beperkt aantal metingen (cfr. steekproef)
Benadering van de normaalverdeling = t-verdeling Als n voldoende groot is
3 Validatie van analysemethoden
Validatie methode
Prestatiekenmerken bepalen: Kwantificatie van de mate waarin de uitkomsten die een analysemethode levert,
afwijken van de “ware waarden”
3.1 Meetonzekerheid kwantitatieve methode
Geeft de gebruikte methode ons een juist en betrouwbaar resultaat? Nagaan welke fouten er werden gemaakt.
TOEVALLIGE FOUTEN EN PRECISIE
Toevallige fouten = niet te voorspellen en niet te vermijden
Laten het resultaat niet afwijken in één bepaalde richting
Hangen samen met de spreiding van de waarden rond de “ware waarde”
Hoe groter de toevallige fouten, hoe kleiner de precisie van de methode
De grootte van de toevallige fout berekenen:
- Standaarddeviatie s
- Variatiecoëfficiënt CV
- Methode met kleine s en kleine CV = methode met kleine toevallige fouten en grote precisie
Bepalen van de precisie:
Herhaalbaarheid of within-run precision
o Condities van de herhaalde metingen zijn (min of meer) identiek
o (Toch) spreiding van de resultaten rond de “ware waarde”
o Herhaalbaarheid onderzoeken door gemiddelde, s en CV te bepalen
Reproduceerbaarheid of between-run precision
o Opeenvolgende metingen onder reproduceerbare condities (bv. ≠ dagen)
o Soms reproduceerbaarheid tss≠ labo’s bepalen = interlaboratorium reproduceerbaarheid
o Spreiding van de resultaten rond de “ware waarde”
o Reproduceerbaarheid onderzoeken door gemiddelde, s en CV te bepalen
Concreet door replicatie-experiment:
Staal kiezen:
1 Inleiding
Goede steekproef = REPRESENTATIEF ( t.o.v. de populatie)
Als er N elementen in de populatie zijn, moet elk element 1/N kans hebben om in steekproef te zitten
Elementen uit populatie ad random kiezen om in steekproef te zitten
Opgelet: extrapolatie kan nooit voor 100%
Variabelen kunnen invloed hebben op resultaat
Onafhankelijke variabelen: Analist heeft deze zelf in de hand
(instelling op toestel, concentratie stockoplossing)
Afhankelijke variabelen: Afhankelijk van de onafhankelijke variabele, is de variabele die men wil
bepalen/meten door het experiment (fluorescentie bij flowcytometrie)
Nominale schaal➔ Kwalitatieve variabelen, geen rangorde
Ordinale schaal➔ Eigenschappen ook met woorden beschrijven, maar wel rangorde
Intervalschaal➔ Kwantitatieve variabelen, rangorde van intervallen
Ratioschaal➔ Kwantitatieve variabelen, ≠ waarden waarmee kan gerekend worden
2 Spreiding van analyseresultaten
2.1 De “ware waarde” en de benaderingen
Hoe nauwkeuriger het onderzoek/analyse, hoe beter de verwachtingswaarde = “ware waarde”
CENTRUMMATEN = robuuste parameters
(zelfde eenheden als waarnemingsresultaten)
Gemiddelde: Als verwachtingswaarde voor een variabele wordt vaak het rekenkundig gemiddelde berekend.
Mediaan: Alle waarnemingsgetallen rangschikken van klein naar groot(rekening houdend met frequentie)
Indien n = oneven m = middelste getal
indien n = even m = gemiddelde van de twee middelste getallen
Wanneer mediaan gebruiken?
- (relatief) klein aantal analyses Minder kans invloed van mogelijke outlier
- Bij analyses in de vergelijking met het gemiddelde: indien te veel ≠ tussen het gemiddelde en de
mediaan, indicatie op foute resultaten
Modus: Het getal (klasse) met de grootste absolute frequentie (modale klasse)
Het zou dus kunnen dat er twee modi zijn
Vanaf 2 getallen of 2 klassen, die het meeste voorkomen, beschouwen we het begrip niet meer.
SPREIDINGSPARAMETERS
, Variantie: Belangrijke informatie i.v.m. de spreiding van de bekomen data
Rekenkundig gemiddelde vd kwadratische afwijking vd waarnemingsgetallen t.o.v. hun rekenkundig
gemiddelde
Var(x) in een populatie = 2
Var(x) in een steekproef = s2
Standaarddeviatie: Meest gebruikte maat voor de spreiding van de waarnemingsgetallen
Wortel uit de variantie
s = geschatte standaarddeviatie van de “ware spreiding”
Variatiecoëfficiënt: Vergelijking van de spreiding van ≠ onderzoeken
Werken met een relatieve, dimensieloze waarde
Relatieve Standaarddeviatie = RSD
Variatiecoëfficiënt = CV (vaak uitgedrukt in %)
2.2 Normaalverdeling
Waarnemingsresultaten van onderzoek moeten worden geordend om een duidelijk beeld te krijgen:
Tabel ➔ bv. frequentietabel
(frequentie van voorkomen van resultaten wordt weergegeven )
Grafiek
Staafdiagram of histogram (op Y-as wordt frequentie weergegeven, op X-as de klassen of middens van de
klassen)
Lijndiagram of frequentiepolygoon (= lijn die de middens van de klassen van het histogram verbindt)
Frequentietabel opstellen:
1. De spreidingsbreedte R (range) bepalen
R = verschil tussen de hoogste en de laagste waarneming
2. Het aantal klassen k bepalen
k = wortel uit het aantal waarnemingsresultaten
3. De klassebreedte b bepalen
b = quotiënt van de spreidingsbreedte R en het aantal klassen k
Eigenschappen van de normale verdeling:
, Aantal metingen voldoende Frequentiepolygoon benadert de klokvorm
Klokvorm, in het punt x =µ (ware waarde) ligt een as van symmetrie
Op Y-as: de relatieve frequenties zijn uitgezet ➔totale AUC = 1 of 100%
X-as = horizontale asymptoot
De buigpunten liggen op µ - en op + µ
De normaalverdeling wordt weergegeven als N(µ , )
De 68-95-99,7%-regel
2.3 Student t-verdeling
In de praktijk werken met beperkt aantal metingen (cfr. steekproef)
Benadering van de normaalverdeling = t-verdeling Als n voldoende groot is
3 Validatie van analysemethoden
Validatie methode
Prestatiekenmerken bepalen: Kwantificatie van de mate waarin de uitkomsten die een analysemethode levert,
afwijken van de “ware waarden”
3.1 Meetonzekerheid kwantitatieve methode
Geeft de gebruikte methode ons een juist en betrouwbaar resultaat? Nagaan welke fouten er werden gemaakt.
TOEVALLIGE FOUTEN EN PRECISIE
Toevallige fouten = niet te voorspellen en niet te vermijden
Laten het resultaat niet afwijken in één bepaalde richting
Hangen samen met de spreiding van de waarden rond de “ware waarde”
Hoe groter de toevallige fouten, hoe kleiner de precisie van de methode
De grootte van de toevallige fout berekenen:
- Standaarddeviatie s
- Variatiecoëfficiënt CV
- Methode met kleine s en kleine CV = methode met kleine toevallige fouten en grote precisie
Bepalen van de precisie:
Herhaalbaarheid of within-run precision
o Condities van de herhaalde metingen zijn (min of meer) identiek
o (Toch) spreiding van de resultaten rond de “ware waarde”
o Herhaalbaarheid onderzoeken door gemiddelde, s en CV te bepalen
Reproduceerbaarheid of between-run precision
o Opeenvolgende metingen onder reproduceerbare condities (bv. ≠ dagen)
o Soms reproduceerbaarheid tss≠ labo’s bepalen = interlaboratorium reproduceerbaarheid
o Spreiding van de resultaten rond de “ware waarde”
o Reproduceerbaarheid onderzoeken door gemiddelde, s en CV te bepalen
Concreet door replicatie-experiment:
Staal kiezen: