CNT  - Nikki van Ommeren

02 september 2019 ... min. Luister

Fake data

Data scientists zitten te springen om fake data om modellen mee te kunnen trainen

Na drie mooie en leerzame maanden in Singapore ben ik weer terug in Nederland. Ik heb mijn short term assignment in Singapore goed kunnen afronden, met concreet resultaat: de  data-analyse pipeline is klaar voor gebruik en de tijdseries-data zijn geclusterd. Het afscheid van mijn team was zeer geslaagd, met een feestje in een indoor mini-golfbaan/bar. Ik zal Singapore en de collega’s missen, maar ik vind de Nederlandse zomer fijn met alles wat er te doen is, en ik miste het racefietsen. Dat heb ik drie maanden niet kunnen doen.

Omdat een rotatie binnen het traineeship zes maanden duurt en mijn short time assignment maar drie maanden, mocht ik een tweede opdracht van drie maanden regelen. Die opdracht is bij 1 to 1 Analytics, in een chapter van data scientists die aan opdrachten werken voor verschillende afdelingen binnen de retailbank. Ik viel meteen met mijn neus in de boter: al in mijn eerste week vond de maandelijkse Data Science Hackathon plaats. Tijdens zo’n hackathon werken de data scientist samen in teams aan projecten die buiten het reguliere werk vallen. Iedereen krijgt de mogelijkheid om met nieuwe technieken te experimenteren, iets waar je tijdens een normale werkdag geen tijd voor hebt. Aan het einde van de twee dagen presenteer je de resultaten aan de andere teams. Ik heb meegewerkt aan het project van een collega.  We hebben geprobeerd een neuraal netwerk te maken om transacties te categoriseren. Aansluitend aan de hackathon was er nog een pizza- en bordspellenavond. Een prima begin van mijn tijd hier!

De eerste twee weken had ik nog geen concrete opdracht, maar die tijd heb ik nuttig kunnen besteden aan het schrijven van een zgn. fact-bite: een nieuwsbrief met trend updates die elke dag aan zo’n 1500 collega’s wordt gestuurd. Ik vind de fact-bites zelf altijd heel leuk om te lezen, en wilde er wel eens een schrijven. Ik heb onderzoek gedaan naar de betaalverzoeken in de ING betaalapp. Ik wilde weten hoe vaak de voorgeprogrammeerde buttons bij betaalverzoeken in de app aangeklikt worden en wat de trends zijn over de verschillende maanden, dagen van de week en uren van de dag. Een leuk feit uit dat onderzoek: de meeste betaalverzoeken hebben betrekking op ‘diner’, behalve in december, dan wordt de button ‘gifts’ het meest aangeklikt. Met dit onderzoek kon ik meteen de data goed leren kennen.

Inmiddels ben ik met mijn opdracht begonnen, een heel interessant project dat draait om het genereren van fake data: data die data scientists kunnen gebruiken in de testomgeving en om hun model te trainen voordat het naar productie gaat. Daarnaast kun je met fake data van tevoren veel zaken ondervangen, voor je met de echte data aan de slag gaat. Er zitten logischerwijs minder strenge privacy-eisen aan dan aan echte data, en dat is handig bij tal van toepassingen. Tegelijkertijd moet de fake data wel heel erg op de echte data lijken en dezelfde (statistische) eigenschappen bezitten. Het is best een ingewikkelde opgave om die data te genereren. Die complexiteit vind ik interessant, plus het feit dat veel data science collega’s erg geholpen zijn met goede fake data. Voor mij betekent het een kennismaking met een domein binnen machine learning waarmee ik nog niet heb gewerkt: neural networks. Ik heb relatief kort de tijd om aan deze opdracht te werken, maar het moet lukken om een eerste testversie van een model op te leveren in 2,5 maand. Ik krijg hulp van twee data scientists en twee engineers en mijn coach is senior data scientist, dus met hen kan ik altijd sparren. Ook leuk: we gaan waarschijnlijk een workshop over dit onderwerp organiseren voor ING data scientists van over de hele wereld.

De komende tijd ga ik ook gebruiken om mijn eerste vaste positie te vinden. Ik heb verschillende opties uitstaan, en weet in elk geval zeker dat ik verder wil met data science. Of het gaat lukken de plek te krijgen waar ik het liefst wil werken, weet ik de volgende keer.

Over Nikki

Zodra de zon schijnt zit Nikki op haar racefiets en ze is ook net weer begonnen met yoga. Ze brengt úren door achter haar computer om meer te leren over machine learning. Dat doet ze onder meer via Kaggle.com, een data science platform waarop bedrijven uitdagingen posten en waar data scientists van over de hele wereld over meedenken. Momentje rust? Dan leest ze graag. Recent las ze onder meer Factfulness en Pachinko. “Aanraders, allebei!”

Terug naar boven