Om de kwaliteit van data te meten, is het mogelijk:

(1) De formele structuur van de data onderzoeken

of

(2) De data op een hoger niveau analyseren.

Beiden data analyse technieken worden in deze data story weergegeven, waarin waardes worden onderzocht met verschillende formele structuren (1), missende waardes (1), en de activiteit van leden (2).

Er zijn verschillende redenen om de kwaliteit van data te analyseren. Ten eerste is het gemakkelijker data van goede kwaliteit te verwerken. Hier is het van groot belang dat elke waarde dezelfde structuur volgt. Verder kan analyse helpen om verschillende inzage te geven en data bij te werken. Met de kracht van linked data is het bijvoorbeeld ook mogelijk connecties tussen data punten te ontleden en voor analyse te gebruiken.

Als we op het laagste niveau de waardes bekijken, zien we vaak dat ze niet hetzelfde schema volgen. Bijvoorbeeld de woonplaats van een lid, waar de naam van de stad wordt gegeven ("Amsterdam"). In de brondata komt er een inconsistente instantie voor die alleen in hoofdletters geschreven is ("AMSTERDAM). De volgende query toont niet alleen de verschillende waardes, maar ook, wat het correcte ("waar") of incorrecte ("onwaar") formaat is, een beschrijving, wat er fout gegaan is ("alles zit in hoofdletters") en het subject, dat aan de waarde gekoppeld is ("https://data.oba.nl/id/lid/70071"). Deze informatie kan helpen, de data bij te werken en consistent te houden.

Query, die helpt, inconstinte waardes bij te werken.

Het is ook mogelijk om naast het weergeven van alle correcte en incorrecte instanties, te tellen hoe vaak deze formaten in de dataset voorkomen. Dit geeft bijvoorbeeld een snel inzicht in hoeveel werk het zou zijn om de data te corrigeren.

Het kan ook gebeuren, dat een waarde niet wordt aangegeven als foutief, omdat het niet bestaat. De volgende query kan gebruikt worden, om lege waardes te vinden. Deze query toont zoals de eerste query Data Kwaliteit: Inconsistente Waardes , niet alleen de missende waardes, maar ook de subjecten, die de bepaalde waarde missen.

Een mogelijkheid, om de data kwaliteit op een hogere niveau te onderzoeken, is 'slapende' leden te vinden. Dit zijn leden, die al langer dan een jaar inactief zijn. De volgende query kan ook gebruikt worden, om leden te vinden, die in het afgelopen jaar wel actief waren.

Deze data story toont met verschillende voorbeelden, de mogelijkheden om met linked data de kwaliteit van OBA's data op meerdere niveaus te onderzoeken en te combineren.