U heeft meer data dan u denkt!

De afgelopen jaren hebben we bij veel bedrijven aan de hand van data hun processen verbeterd. Data zijn ideaal om hypotheses te toetsen en mythes door te prikken. Vaak denken bedrijven echter dat ze daarvoor de data niet in huis hebben: het wordt niet goed bijgehouden en niet alles wordt gedetailleerd geregistreerd.

De afgelopen jaren hebben we bij veel bedrijven aan de hand van data hun processen verbeterd. Data zijn ideaal om hypotheses te toetsen en mythes door te prikken. Vaak denken bedrijven echter dat ze daarvoor de data niet in huis hebben: het wordt niet goed bijgehouden en niet alles wordt gedetailleerd geregistreerd. Hoewel dat vaak waar is, kan dat op een grover aggregatieniveau toch nuttig zijn. Je moet niet altijd het onderste uit de kan willen halen: soms is een grove indicatie goed genoeg. Door data te gaan gebruiken, komt er ook meer gevoel en begrip voor datakwaliteit: als je niet begint met het gebruiken van data, wordt de datakwaliteit heus niet zomaar beter.

In dit blog bespreek ik een aantal technieken en voorbeelden van data-analyses die én toegevoegde waarde hebben, maar geen granulaire (gedetailleerde) data vereisen. In deze blog vind je wat voorbeelden hoe je om kunt gaan met tekstdata. Vaak worden bij werkzaamheden zoals reparaties teksten door monteurs ingegeven. Het is niet zomaar mogelijk van deze teksten ‘even’ een draaitabel te maken. Toch zijn er een aantal mogelijkheden:

Beginnen met een wordcloud

Om te beginnen met een idee te krijgen wat er vaak voorkomt in de meldingen is het het snelst om een wordcloud te maken. Dat is simpelweg het knippen en plakken van de meldingsteksten en terugkomen met een handige visualisatie zoals hieronder. Zelf kan ik Worlde.net aanraden.

Daarna het uitvoeren van een steekproef

In tijden van big data breek ik toch graag een lans voor de good-old steekproef. Het geautomatiseerd classificeren en clusteren van teksten van storingsmeldingen (tekst mining) is niet enorm eenvoudig: het vereist kennis van artificial intelligence en clusteralgoritmen. Wat vaak wél kan is het met de hand classificeren van meldingen. Zo analyseerde ik enige tijd geleden de teksten die monteurs invoerden bij het verhelpen van storingen. Ik kon door zo’n 300 meldingen met de hand te classificeren al snel zien dat 50% van de keren symptomen in plaats van oorzaken werden aangepakt en dat dit bij elektrotechnische storingen extra ernstig was.

Tot slot aan de slag met text mining en AI

Wanneer er nuttige info in de meldingsteksten lijkt te zitten, is het een optie de teksten automatisch te laten classificeren. Dat kan op twee manieren: door voorbeelden mee te geven van geclassificeerde/geclusterde meldingen (supervised learning) en door de computer zelf te laten bedenken welke meldingen bij elkaar passen (unsupervised). Er zijn verschillende goede pakketten te krijgen voor het classificeren van tekst. Als je dit even wil verkennen, raad ik aan met R of Python te beginnen: er zijn allerlei classificatiepakketten beschikbaar. Onlangs hielp ik een bedrijf in het kader van predictive maintenance om hun storingsmeldingen die niet waren geclassificeerd alsnog te classificeren aan de hand van de meldingsteksten met behulp van het (eigenlijk verouderde) R-pakket R-Text-Tools. Bevalt het, dan is het de moeite waard de engine van bijvoorbeeld IBM eens te proberen.

En verder?

Deze technieken bieden je mogelijkheden om toch iets te doen met data die op het eerste geschikt onbruikbaar lijkt, omdat het allemaal vrije velden zijn. Process mining is een andere techniek waarbij op het oog onbruikbare data snel kan leiden tot nieuwe inzichten. In een volgend blog besteed ik aandacht aan wat we daarmee als Berenschot doen.