0. Intro
Voor uitleg over projecten: https://sportsdatascience.be/ ; https://www.victoris.be/
Sports data zit niet enkel achter laptop, ook in het veld werken.
Nu bezig met veiligheid in het wielrennen. => UCI samenwerking
I-> Praten met stakeholders hoe ze problemen kunnen oplossen en naar hun
noden horen.
I-> Device op de rug dat via touch hun waarschuwt
I-> Safetywarnings over wegmeubilair
I-> Valpartij
I-> Monitoring: zitten motors te dicht bij renners?
I-> Locatie van renners voor ouders
Hun focus
- incidentdetectie/-classificatie,
- communicatie-optimalisatie,
- sensorontwikkeling,
- kaartanalyse & routescore,
- pelotondynamica-studies en
- datajournalistiek.
Op sociale media is er heel veel data beschikbaar, die waardevol is => Maar is
ongestructureerd (verschillende talen, zinsbouw,…)
I-> Scraper ingebouwd die stukjes tekst zoekt in Tweets van bepaalde accounts
en zo die data gestructureerd maakt en in een database steekt.
I-> Vb: setje van tweets die met crash te maken heeft, andere zonder
Hebben ook een model gecreëerd dat sprintsnelheid, stage hardness voorspelt,
identificatie van kritieke punten (wegversmalling, wegmeubelair,…)
I-> Via image/video analyse => Met Go Pro (pre-race)
Je kan bij helicopter beelden van sprint ook de beelden na elkaar zetten om een
sprint-map te maken.
I-> Zo kan je van elke renner hun traject zien
I-> Zo kan je naar gelijkaardige sprints kijken via die data en zien wat er toen
beslist is geweest
I-> Zou je evt model hebben waar ze automatisch sprints kunnen classificeren.
Virtual Advertising: vb: voetbal, reclameborden detecteren en afhankelijk van waar je
kijkt, gaat men reclame van dat land er op projecteren, mappen (terwijl de reclame in
het echt anders is)
I-> Of mapping om in het zwemmen de namen van de zwemmers in het
zwembad te projecteren is dezelfde technologie
I-> = Image warping.
,Centrum Eddy Merckx: slimme wielerbaan gemaakt.
Hadden nood aan real-time data-analyse => Hoe krijg je in real-time data
van renner bij de trainer
Vb: tegen camera zeggen ‘volg Lotte Kopecky’ en dan doet die dat op de
piste.
Data die daar rondhangt (via Bluetooth kon, maar ANT+ is specifieker),
camera’s,… bij elkaar brengen en zo real-time data.
Hebben ook model gecreëerd om wissels bij het schaatsen (elkaar aflossen) te gaan
analyseren => Coaches dashboard geven om in real-time de kwaliteit van de wissels
te bekijken. => Konden al in volgende bocht feedback geven.
I-> Clips van wissels worden automatisch klaargezet, moet niet meer gezocht
worden (wordt via camera’s en sensors klaargezet).
Visualisaties van renners terwijl ze aan het rijden zijn => Naam ernaast, aantal km/h.
1. Data Collection
1.1. Data & Tech in sports
I-> Dit is wat we vandaag gaan bekijken => Dan kijken hoe je die kan terugkrijgen bij
de gebruiker.
1) Info gathering: Belangrijk dat je data gathering consistent doet (vb: sprint
altijd aan zelfde aantal km/h catologiseren) (kwal en kwant data)
Andere trainers doen dat mss anders, maar is wel belangrijk dat het op
dezelfde manier/metriek gebeurt.
2) Data management / data storage = Waar data opslaan en processen
(standardisatie, centralisatie, integratie)
3) Data analyse = En pas als derde stap ga je analyses doen
4) feedback, data terugkoppelen (decision makers: coaches, players,
lolicymakers, …)
Wij zullen alle vier bekijken
Van ruwe data naar inzichten.
Welke data/info kan verzameld worden?
- Athlete focused data:
o hoofd impact, positie op het veld, hartslag,…
- Athlete-event focused data:
o Penalty: als hij naar die zone trapt, wat is de kans dat hij scoort?
o Speler in combinatie met een event (shot op doel) gaan bekijken
- Team-event focused data
o Vb: heat maps: hoe beweegt het team in balverlies?
o Welke kant wordt het meest aangevallen
Hoe kan data/info verzameld worden
, - Sportvestjes met data, enquêtes, camera’s, transponders, data op het web,
hartslagmeter
MAAR die zijn in verschillende formaten => Je moet al die data kunnen
vertalen naar numerieke waarden om zo één taal te hebben
Is niet altijd zo eenvoudig => Vb: video naar numerieke waarden is niet
simpel
Scores/ja of nee is makkelijker numeriek te maken.
- Directe data meten
o Je meet de parameter direct vaak accurater, maar niet altijd mogelijk
- Indirecte data meten
o eerst iets anders meten en daaruit afleiden via parameters wat hetgene is
dat je wilt meten
Spronghoogte meten: kan direct (hoogte via camera, maar is moeilijk), maar
ook indirect (hoe lang hij van de grond is, kan je makkelijker meten)
1.2. Time Series Basics
Time Series
- Zegt in welke volgorde bepaalde data heeft plaatsgevonden, maar ook wanneer
die data is gebeurd. Datapunten/metingen over de tijd, in een vaste volgorde.
- Time-stamped data: volgorde is belangrijk
o Meeste van data in sport is zo: spelers/teams die overtijd evolueren,
tactiek wordt aangepast
Time series visualization
- Tijd op x-as, waarde (amplitude) op y-as
- Punten kunnen verbonden zijn, maar hoeft niet per se
Time series Digital signals
- Digitaal signaal = sampled analogue signal (digital world) that can be stored
- Analoog signaal = conitinuous signal, real-world signal = je kan maar om de
zoveel tijd de data vastleggen => Hoeveel keer een waarde nemen per
seconde? => Sampling rate is heel belangrijk (als die te laag is, dan zal de
data niet goed geanalyseerd kunnen worden)
o Sampling rate/frequency = aantal meetingen per seconde => In Hertz
(= hoeveel metingen per seconde: 1hz = 1 meting/seconde) Maar kan
die sampling rate die frequency wel volgen?
Moet je weloverwogen keuzes maken, welke data je nodig hebt en hoe vaak
heb je die nodig om te kunnen analyseren. Welk sampling frequency je
gebruikt hangt af van je doel (wat wil je meten) en moet ook gebaseerd zijn
op dat doel. Niet meten om te meten = watch out for data
fatigue/overload
Stel: voetballer zijn bewegingen meten: als je een fast movement speler hebt en je
meet aan een te lage frequency, dan zal je inaccurate data hebben
, Accelerometer = Al die data gaan capteren, ben je aan het versnellen of aan het
vertragen bent, kan ook bij valdetectie. => Doet 1000 metingen per seconde
GPS: doet maar één meting per seconde
Hartslagmeter op horloge: tijdens activiteit (als je die logt): 1Hz (meting per seconde),
tijdens slaap (1meting per 10 seconden = 0.1Hz)
I-> Sampling frequency zal een hele grote impact hebben op hoe kwaliteitsvol je
data is.
Similarity between time series:
- kan point-by-point comparison, beoordeling obv gelijknismaat
- dynamische tijdsvervorming (dynamic time wrapping)
- punten op verschillende tijdsstippen worden gematcht
- vormgelijkenis
o vergelijking sleutelkenmerken
o feature extraction
- Vb: Marathon running:
o Data van alle deelnemers van Boston Marathon tussen 2015-2017
o Namen negen verschillende time slots (every 5km and halfway)
Cluster velocity profiles (3 groepen)
Kijken naar timing toe => Snelle lopers zijn deze die een constante pace
aanhouden (zijn niet de snelste starters), maar hielden consistent dezelfde
pace
+ Diegene die te snel starten, zijn op het einde veel trager
1.3. Collecting time series data
- Wearables: training load & health monitoring (heart rate sensors,
IMU/accelerometers, …
- Sports equipment: sensors die aan tennis racket hangen, roeiboot,
skateboard
- Manual data: gezondheids vragenlijsten
Praktisch:
o Multiple sensors: belangrijk dat ze gesynchroniseerd zijn: vb: camera’s
moeten allemaal op dezelfde klok gestart zijn. => Heel belangrijk dat het
op hetzelfde moment wordt opgenomen!!
o Sensor malfunction: monitoring en maintenance is belangrijk => Bij
afwijkend gedrag acties ondernemen.
o Calibreren: testen van sensors is belangrijk => Dat ze hetzelfde meten.
1.3.1. IMU = inertial measurement unit
- Vb van devices die time series data meten:
o Accelerometer: change in speed
o Meestal in combinatie met gyroscope (rotation speed);
o Magnetometer (orientatie)