Goochelen met Open Data

column 13 soorten data

Over Open Data, Linked Open Data en Big Data

Open Data is hot. Op velerlei symposia, congressen en bijeenkomsten wordt gesproken
over Open Data. Maar wat me al tijden opvalt is dat er gegoocheld wordt met termen. De begrippen Open Data, Linked Open Data en Big Data worden door elkaar heen gebruikt. Daarom eerst maar eens een overzicht van wat nou wat is.

Je kunt nu snel wegklikken omdat je niet geïnteresseerd bent in definities. Maar in mijn werk –dat zich heel vaak bevindt op het raakvlak van geo & communicatie-, merk ik dat het zeer belangrijk is zéker te weten dat je het over dezelfde dingen hebt. Anders kun je vergaderingen lang praten over iets, waarbij je pas in een (te) laat stadium ontdekt dat je het over verschillende dingen hebt.

Op dit moment onderzoek ik de Open Data-vriendelijkheid van een overheidsorganisatie. Daar hanteer ik de Open Data-definitie van ‘data.overheid.nl’, te weten:

  • De data zijn openbaar;
  • Er berust geen auteursrecht of andere rechten van derden op;
  • De data zijn bekostigd uit publieke middelen, beschikbaar gesteld voor de uitvoering van die taak;
  • De data voldoen bij voorkeur aan ‘open standaarden’ (geen barrières voor het gebruik door ICT-gebruikers of door ICT-aanbieders);
  • Open Data is bij voorkeur computerleesbaar, zodat zoekmachines informatie in documenten kunnen vinden.

Linked Open Data (LOD) is iets anders en ontstond in 2009 toen pionier Tim Burners-Lee op een TED-conferentie over linked data sprak als de volgende fase op het internet. Dit wordt soms ook wel ‘WEB 3.0’ of het semantisch web genoemd. Het linken van Open Data wordt vaak gezien als het vervolg op het beschikbaar stellen van Open Data. Er is een aantal regels voor LOD’s. Een belangrijke daarvan is het gebruik van URI’s. Uniform Resource Identifiers (URI’s) vormen een gestandaardiseerde manier om op het internet dingen (pagina’s met informatie, objecten, datasets) uniek te identificeren. De ons wel bekende URL is eigenlijk een afgeleide van de URI. Om het makkelijk te onthouden kun je het zo zien dat een URI je vertelt in welk huis je slaapt, terwijl een URL je vertelt welke kamer in het huis jouw slaapkamer is.

De term Big Data wordt gebruikt voor het aanpakken van een grote brei ongeordende data, waaruit men zinnige informatie probeert te halen. Zo wist het campagneteam van Obama bij de laatste verkiezingen per staat al of ze wel of geen grote kans maakten om te gaan winnen. Ook konden zij voorspellen welk type mens beïnvloedbaar was voor welke soort benadering of welke content (zie Media Psychology Blog). Dit dankzij het onderzoeken van Twitterberichten! Ook kun je door middel van kennis van telefoonproviders bijvoorbeeld leren waar toeristen uit bepaalde landen zich binnen een vakantieland ophouden. En dat gaat verder dan de algemene kennis dat Japanners in Nederland vooral Amsterdam en de Keukenhof bezoeken, terwijl Duitsers naar het strand gaan. Euro Beinat, Professor in de Geo-Informatie & Data Wetenschappen van de Universiteit van Salzburg weet hier mooie verhalen over te houden.

Op dit moment wordt Big Data vooral ingezet om op relatief korte termijn voorspellingen te doen op basis van recente informatie. Dat komt omdat de gedachtevorming nog volop in ontwikkeling is èn omdat digitale data op deze schaal pas sinds kort bewaard blijven en dus voorhanden zijn. Ik ben echter zeer benieuwd wat dit gaat betekenen voor de archiefwereld. Waar deze info tot voorkort nog als ruis werd bestempeld zien we nu de meerwaarde. En deze wordt wellicht wel steeds groter, waardoor databezitters waarde in handen hebben. Ik ben benieuwd of de archiefwereld er naast de traditionele rollen (die dankzij digitalisering naar mijn idee deels uitsterven) een nieuwe functie bij krijgt als grondstofleverancier van (massa)informatie. Leuk hierbij te noemen is de oproep van Samuel Arbesman in Wired om ons vooral te richten op ‘Long Data’, waarbij hij doelt op datasets met een giga lange geschiedenis (zie Wired).

Bij Big Data kun je trouwens ook weer gemakkelijk de mist in gaan met definities. Zo sprak ik laatst Milan Uitentuis. Zijn nieuwe bedrijf IntellinQ maakt software voor het beheren, verwerken, combineren, selecteren en visualiseren van zeer grote hoeveelheden geografische gegevens. Alhoewel de hoeveelheid data groot is, is dit juist geen Big Data. Milan noemt het liever ‘Massive Data’. Zij beginnen met aan de basis alles goed vast te leggen en te checken of het klopt. Logisch vind ik, voor iemand die uit de hydrografische wereld komt. Een wereld waar organisaties vervolgd worden als zeekaarten niet goed blijken te zijn.

Ik denk dat ik de volgende keer in ga op Small Data. Of het ga hebben over de vraag: “wie beschermt mijn Open Data”? Heb je een voorkeur? Laat het me weten.

met dank aan Richard Cyganiak en Anja Jentzsch voor hun Linking Open Data cloud diagram.