Data is van grote waarde voor jouw business of organisatie. Denk bijvoorbeeld aan het beantwoorden van belangrijke vraagstukken of het verbeteren van processen.
Maar hoe start je een succesvol data project? Elke organisatie is anders en je hebt ontelbaar veel tools, data en invloeden. Gelukkig is er een framework beschikbaar; Het CRISP-DM proces.

CRISP-DM is een afkorting van ‘Cross-industry standard process for data mining’. De 6 stappen van dit model helpen je om het maximale uit je data te halen!
Inhoudsopgave
1 – Business Understanding
De eerste én belangrijkste stap! Bepaal het doel en de behoefte van jouw business.
Wat moet het resultaat van dit project zijn? Probeer deze vraag zo abstract mogelijk te beantwoorden. Dit maakt het makkelijker om keuzes te maken en doelgerichte analyses te doen.
2 – Data Understanding
Welke data is er beschikbaar? En wat zegt deze data?
In deze stap ga je de data ontdekken. Denk hierbij aan rijen, kolommen, exporten, ontbrekende velden en verdelingen. Zo krijg je inzicht in de kansen, maar ook de beperkingen, van de data.
Als er te weinig data beschikbaar is om de doelstelling te behalen, moet je het project heroverwegen. Misschien moet er eerst gewerkt worden aan het creëren van nieuwe data.
3 – Data Preparation
Aan de slag! Aan jou (en je collega’s) de taak om de data gestructureerd voor te bereiden op de analyse. Denk aan:
– het maken van selecties
– een target variabele kiezen
– test en training data van elkaar scheiden
– een string omzetten naar ééntjes-en-nulletjes
– outliers uit de data verwijderen
– normalisaties van de data uitvoeren
Het doel hiervan is om de data zo doelgericht mogelijk voor te bereiden op het model dat je gaat trainen.
Deze stap kost vaak het meeste tijd en vraagt ook het meeste engineering skills. Afhankelijk van het vraagstuk of het model dat je gaat gebruiken, kan de data preparation een complex data-model opleveren.
Veel data experts geven aan dat in deze stap het verschil gemaakt wordt. Hoe beter de input-data, hoe beter de uitkomst!
4 – Modelling
Hier neemt de machine het over. Selecteer de data, kies het algoritme of de techniek die je wilt gebruiken en laat de computer het werk doen.
Het is de standaard om meerdere modellen te gebruiken. Door je model (a.k.a. pipeline) slim in te richten kun je makkelijk verschillende technieken voor elkaar inwisselen.
Misschien geeft een logistisch regressie model een hogere score dan een SVM model. Het mooie aan bijvoorbeeld Python is dat je meerdere tests tegelijk kan uitvoeren.
Meer weten over de populairste algoritmes en modellen? Klik hier voor een overzicht.
5 – Evaluation
De modellen die je getest hebt, geven allemaal een resultaat. Je hebt niet voor niets trainingsdata en testdata. De één traint je model en de ander test datzelfde model met nieuwe data.
Uit deze test komen verschillende scores. Over accuraatheid, precisie, sensitiviteit en meer. Hier komt de wiskundige kant van data science erg naar voren. Enige kennis van statistiek is nodig om de scores te kunnen interpreteren.
Op basis van de scores (in combinatie met het vraagstuk dat je wil oplossen) kies je het juiste model.
Een voorbeeld hiervan is een model dat voorspelt hoe groot de kans is dat een nieuwe klant een fraudeur blijkt te zijn.
6 – Deployment
Nu je de intelligentie (het model) ontwikkelt hebt, is het de uitdaging om deze zo goed mogelijk in te zetten.
Kun je het model in een bestaand proces/programma in bouwen?
Hoe vaak moet het uitgevoerd worden?
Wie moeten de resultaten krijgen?
Hoe monitoren we de scores van het model in de echte wereld?
En noem nog maar een aantal vragen op.
Het succes achter een goede deployment van je model is de eerste stap; Business Understanding. Is de behoefte en het vraagstuk duidelijk? Dan is de kans groot dat het model in jouw organisatie goed geïmplementeerd kan worden!
Leave a Reply