dinsdag 14 juli 2020

Nieuwe zoekinterface voor WikimediaCommons

Hay Kranen bouwde een alternatief voor het zoekscherm van WikiMediaCommons dat beter functioneert en bovendien gebruiksvriendelijker is, Hay’s ‘Structured Search’.


WikiMediaCommons is de beelddatabank achter Wikipedia met ruim 60 miljoen beelden.

Je mag de beelden zelf meestal ook vrij gebruiken maar dan moet je dus wel geschikt materiaal kunnen vinden. Het probleem is dat de metadata* (de gegevens die over het beeldmateriaal zijn vastgelegd) niet eenduidig of incompleet zijn vastgelegd. Hay Kranen bouwde echter een nieuwe zoekinterface die hier verbetering in brengt en bovendien een stuk gebruikersvriendelijker is dan de originele zoekoptie van WikimediaCommons. Op woensdag 10 juni 2020 was hij te gast bij Herbert Blankensteijn in deze podcast van BNR (v.a. circa 12 minuten). In zijn nieuwsbrief ‘de Circulaire’ had Hay enkele weken eerder al over zijn initiatief geschreven.


In de zoekinterface van WikimediaCommons zelf is het bijvoorbeeld lastig om beelden vinden met metadata in een andere taal. Zoek je een boom dan vindt je dus geen foto’s die getagd zijn met ‘tree’ of ‘baum’


Hay heeft geen nieuwe zoekmachine gemaakt maar maakt gebruik van bestaande componenten en gebruikt die slim en combineert ze. Een belangrijk component is ‘’gestructureerde data” waarmee twee problemen worden aangepakt:


  1. De meertaligheid zoals in het voorbeeld hierboven genoemd (boom, tree, baum)
  2. De meerdere betekenissen die een woord kan hebben. Kiwi bijvoorbeeld kan slaan op een vrucht, een vogel of een inwoner van Nieuw Zeeland. Wanneer je op zoek bent naar foto’s van de vogel dan wil je die ook alleen in je zoekresultaten zien.


Bij gestructureerde data hebben daarom alle begrippen (items) een eigen unieke nummer (het Q-nummer). Deze worden door WiKidata uitgegeven, een ander Wiki project waar de Q-nummers worden beheerd (daar waar in Wikipedia de artikelen worden beheerd en audio- en beeldmateriaal in WikiMediaCommons) De vogel Kiwi heeft dan ook een ander nummer dan de vrucht.


Als een fotograaf nu een foto van een Kiwi (vogel) uploadt naar WikiMedia Commons dan kan hij of zij meteen de juiste link aanbrengen naar het ‘Kiwi’begrip (namelijk die van de vogel). Op dit moment is nog maar een paar procent van de beelden voorzien van deze gestructureerde data maar dat wordt snel beter (iedereen kan ze aanbrengen en bij nieuwe uploads wordt er actief om gevraagd). Daarna zijn de betreffende afbeeldingen een stuk beter vindbaar met behulp van het juiste zoekgereedschap, bijvoorbeeld Hay’s ‘Structured Search’

 

Als ik nu ‘kiwi’ in het zoekvenster typ verschijnen meteen de ‘categorieĆ«n’ waaronder het woord Kiwi beschikbaar is. Omdat ik op zoek ben naar de vogel klik ik de bovenste aan met het Q-nummer Q43642 en vervolgens krijg ik alleen maar vogels in mijn zoekresultaten.


* Beeldmateriaal zoeken gebeurt over het algemeen aan de hand van de gegevens die erover zijn vastgelegd in plaats van echte beeldherkenning. Zoek je een foto van een boom dan zoekt de zoekmachine dus niet echt naar afbeelding die de software herkent als een boom maar kijkt hij in de metadata (zoals bijvoorbeeld het veld ‘trefwoorden’). Als daar het woord ‘boom’ is ingevuld wordt het betreffende beeld in de zoekresultaten getoond. Voor meer achtergrond over metadata zie ook mijn artikelen over Keywording, Keywording deel2 of dit deel over ‘echte’ beeldherkenning.