Ongestructureerde data, ja of nee

De data die wij genereren heeft altijd een reden van ontstaan. We willen een bericht sturen, een boodschap doorgeven, een rapport schrijven of een presentatie of spreadsheet maken. Die reden is zinvol om te weten, want dan kan een ander die data beter interpreteren, gestructureerd toepassen en bewaren of vernietigen. We noemen dit de metadata van de data. Data die iets zegt over de inhoud en reden van een dataset, zodat we niet zitten met ongestructureerde data.

Voor computers moet data gestructureerd zijn, omdat een computer op zichzelf een dom ding is. Alles moet je hem vertellen, dus ook welke data hij moet gebruiken, hoe het te gebruiken en welk proces deze data in een lifecycle moet afleggen. Geen wonder dat het datamodel in de software-ontwikkeling een centrale rol speelt.

Datamodel
Het datamodel geeft aan welke relaties data en de karakteristieke bouwstenen ervan hebben. Deze entiteiten en attributen die het datamodel vormen, moeten dan ook gestandaardiseerd zijn, wil je die data op andere plaatsen ook zinvol willen gebruiken. We noemen dit gestructureerde data, omdat de hele dataset beslist niet willekeurig is gecreëerd.

Naast gestructureerde data is er ook data die maar weinig of geen structuur kent. De inhoud of de content heeft weliswaar structuur, anders zou deze data geen zin hebben ooit gemaakt te worden. Een foto of video, zonder informatie door wie gemaakt, waar opgenomen en met welk doel etc. is bijvoorbeeld ongestructureerde data. Of een twitterbericht, een melding op Facebook of een foto of chatbericht.

Het is begrijpelijk dat er een enorme groei is op het gebied van ongestructureerde data. Was er vroeger nog een evenwicht tussen beide soorten, tegenwoordig is meer dan 90% van alle data die we maken ongestructureerd. Toch willen we met die gegevens meer dingen doen, behalve het eenvoudig lezen of bekijken. Bijvoorbeeld kijken of er trends in die data zitten. Of er onverwachte relaties zijn die in eerste instantie niet opvallen. Ontdekken van patronen en regelmatigheden opdat we een model kunnen bouwen.

We spreken dan over Big Data. Heel veel data die weinig of geen structuur heeft van zichzelf, maar in gezamenlijkheid interessante informatie kan bevatten. Hiervoor moesten twee zaken ontwikkeld worden om dat effectief en effectief te kunnen: een dataformaat dat zich hiervoor makkelijk en goedkoop leent en datawarehouses waarin je makkelijk deze processen kunt uitvoeren.

Hadoop
De grote internetpioniers als Yahoo en Google hebben zo’n tien jaar geleden de basis gelegd voor dit dataformaat en de werkwijzen om die informatie te kunnen extraheren. Die taal kennen we als Hadoop. Eigenlijk is Hadoop een framework om de opslag en processing van grote datasets op standaard hardware te kunnen uitvoeren. Doordat Hadoop publiek is gemaakt als open source framework, kan iedereen hier prachtig mee uit de voeten.

Een onderdeel van dat framework is Mapreduce, een programmeermodel om snel datasets met elkaar te vergelijken c.q te onderscheiden. Door dit in heel veel parallelle processen gelijktijdig te doen, zijn enorme snelheden mogelijk. Omdat het allemaal in de opensource taal Java is geschreven, is Hadoop de facto de standaard geworden in de wereld van Big Data en analytics.

Daarnaast zijn er nieuwe typen datawarehouses op de markt gekomen om deze zogenaamde ‘massive parallel processing’-activiteiten te ondersteunen. Dit zijn zowel heel grote opslagomgevingen voor vele Petabytes aan data of juist kleine maar heel snelle in-memory-oplossingen. De kunst is immers om enerzijds de grote hoeveelheid data goed te doorwrochten en op die manier trends, structuren of relaties te ontdekken. Hoe meer data hoe beter er verbanden duidelijk en inzichtelijk worden.

Anderzijds wil men, zodra iets gebeurt, weten of die gebeurtenis ‘past’ in zo’n wetmatigheid die we uit die grote hoeveelheid data hebben gevonden. Want pas dan kunnen we op basis van die gebeurtenis ‘voorspellen’ wat er vervolgens zou kunnen gaan gebeuren. Predictive modeling heet deze toepassing, waarbij je gebeurtenissen direct vergelijkt met kennis die uit een grote hoeveelheid historische data is opgebouwd.

Datalakes
Het bijeenbrengen van deze grote datahoeveelheden doen we tegenwoordig in zogenaamde ‘datalakes’. Dit zijn grote hoeveelheden ongestructureerde data waar we toch enige intelligentie uit willen halen. Een meer van – voor dat doel bijeengebrachte – data dat we met allerhande analysetechnieken kunnen doorzoeken.

Typisch het werkgebied van data scientists; ervaren informatici die kennis en ervaring hebben met het gestructureerd doorzoeken van ongestructureerde data. En begrijpen welke waarde sommige structuren kunnen hebben voor de relatie of ‘voorspelling’ van allerhande nieuwe informatie. Sommigen noemen het zelfs het vak van de toekomst, omdat elk bedrijf in toenemende mate dit soort analysetechnieken zal gaan toepassen.

Betekent dit het einde van gestructureerde data? Geenszins, in tegendeel zou ik willen zeggen. In een vorige blog over de Yin en Yang van techniek beschreef ik dat de data-organisatie aan de achterkant en de voorkant van de organisatie wezenlijk anders is. De achterkant is de spijsvertering van de organisatie die strak georganiseerd en gestructureerd is wat betreft het toepassen van data. Echter aan de voorkant, met het internet, de sociale media, e-mails, chats en andere vluchtige uitingen is data in principe ongestructureerd.

Deze laatste omgeving is karakteristiek voor wat we tegenwoordig het derde platform noemen. Snelle datastromen, snel wisselende functionaliteit, lichtvoetige processen en heel veel data uitwisseling tussen mensen en dingen. In zo’n omgeving is de snelheid en flexibiliteit belangrijker dan formele en structurele berichtgeving. Gelukkig zijn er in toenemende mate oplossingen om die twee verschillende werelden op een infrastructuur te laten samenkomen en vanuit een managementconsole te kunnen beheren. Of het nu gestructureerde of ongestructureerde data betreft.

Blog

About the Author: Hans Timmerman

Welkom

Welkom bij Dell

About the Author: Hans Timmerman