Week in, week uit. Jaar op jaar. Bijna alle organisaties en mensen leven in een vast ritme. Je zal dit ongetwijfeld herkennen in de branche waarin je werkt. Ideaal toch? Door een zekere mate van stabiliteit kan je plannen maken, voorspellingen doen en slimme keuzes maken.
Als data-scientist weet je hier alles van. Zonder stabiliteit kan bijvoorbeeld een machine learning model geen voorspelling doen. Je leert van data uit het verleden, stelt de trend vast en voorspelt de toekomst.
Maar wat als alles ineens anders is?
Inhoudsopgave
Het probleem van een grote verandering
Stel dat je waarnemingen vijf jaar achtereenvolgens hetzelfde zijn. Wat voorspel je dan voor het zesde jaar? Logischerwijs voorspel je hetzelfde resultaat als de voorgaande vijf jaren.
Toch kan het volgende jaar een totale nieuwe situatie voortbrengen. Een disruptie. Zoals Covid-19 veroorzaakte in het jaar 2020.
Deze disruptie zorgde ervoor dat een groot aantal datamodellen niet meer goed functioneerde. Ze waren namelijk getraind op basis van data die totaal niet leek op de situatie in 2020.
Voorbeeld: Google Maps
Het meeste bekende voorbeeld is de verkeersservice van Google Maps. Ondanks dat de wegen door Covid-19 nagenoeg leeg waren, meldde Google Maps dat het druk was in de spits.
Het model was namelijk getraind op basis van 13(!) jaar aan verkeersdata. Een situatie als die van 2020 had nog niet eerder plaats gevonden in dat tijdsbestek. De data uit het verleden bleef desondanks meewegen bij het voorspellen van de verkeersdrukte.
De verkeersinschattingen waren dus erg inaccuraat. Iets wat de gebruiksvriendelijkheid niet ten goede komt. Niemand wil een omweg maken om een niet-bestaande file te vermijden.

Voorbeeld: Amazon
Ook Amazon is gebouwd op slimme systemen en machine learning. Hierdoor had Covid-19 een extra grote impact; Het koopgedrag van consumenten veranderde namelijk enorm.
Een voorbeeld hiervan was de fraudedetectie. De ontstane run op tuinartikelen zorgde ervoor dat sommige orders als frauduleus werden bestempeld. Het systeem verwachtte simpelweg niet zoveel orders met een hoge orderwaarde.
Ook een andere Amazon-functie, waarbij producten uit eigen warehouses bevoorrecht worden op de website, leverde problemen op. De Amazon warehouses raakten namelijk overbelast.

De engineers van Amazon waren dus genoodzaakt om de algoritmes aan te passen. Bij deze keuze spelen natuurlijk meerdere belangen mee van de vele stakeholders die Amazon kent.
Hoe houd je machine learning flexibel?
In de voorbeelden van Amazon en Google werden de algoritmes aangepast. De modellen werden opnieuw getraind met recentere, nieuwe data. In het geval van het bevoorrechten van producten koos Amazon voor een andere strategie; Minder winstoptimalisatie en een betere afhandeling van orders.
Volatiliteit
Ook zijn er een aantal mogelijkheden waarmee je een datamodel flexibel houdt. Allereerst kan je de volatiliteit van de data meten en hier de trainingsdata op aanpassen.
Volatiliteit geeft de beweeglijkheid van een waarde aan. Een hoge volatiliteit betekent dat de koers van de data erg schommelt. Je zou er dan voor kunnen kiezen om de meeste recente data een hogere prioriteit te geven bij het trainen van een model.
Grip op data
Daarnaast is het van belang dat een organisatie grip heeft op datamodellen. Hoe snel kun je inspelen op een verandering?
Google en Amazon hebben uiteraard alle expertise en techniek in eigen huis. Heeft je organisatie dat niet, dan is het minder eenvoudig om je datamodellen aan te passen op nieuwe omstandigheden. De coronapandemie is in dat geval een mooie test om de data-slagkracht van een organisatie te evalueren!
Bronnen
Technology Review: https://www.technologyreview.com/2020/05/11/1001563/covid-pandemic-broken-ai-machine-learning-amazon-retail-fraud-humans-in-the-loop/
Mashable: https://mashable.com/article/google-maps-traffic-coronavirus/