AI staat voor Artificial Intelligence en dat betekent weer
zoiets als kunstmatige intelligentie. En ja, die kan ook worden gebruikt binnen
de fotografie zoals ik al eens schreef (Mooie
foto’s zoeken).
Zoeken is niet altijd
vinden
Ik ben al vaker ingegaan op het weer terugvinden van foto’s
en tot voor kort was het belangrijkste gereedschap de trefwoorden die je aan de foto mee had gegeven. Geen trefwoorden,
dan moest je de foto’s stuk voor stuk optisch ‘scannen’.
Bij het meegeven van trefwoorden is de discussie vaak of je dan
ook het meervoud en vervoegingen moet meegeven voor een beter zoekresultaat. Zoek
je op foto’s waar boeken op staan dan is het veilig om te zoeken op ‘boek’
omdat dan automatisch ook de foto’s met het trefwoord ‘boeken’ tevoorschijn
zullen komen. Er zijn echter ook talloze woorden die niet simpelweg ‘verlengd’
worden om er meervoud van te krijgen. Neef/Neven, Meer/Meren, Datum/Data, etc.
En wat denk je van synoniemen? Het is erg veel werk om die allemaal te verzinnen voor een bepaald onderwerp en die vervolgens als trefwoord mee te geven. Dit terwijl de kans erg groot is dat wanneer je een bepaalde foto zoekt je op dat moment een ander trefwoord gebruikt om te zoeken (Milieu) dan dat je oorspronkelijk aan de foto hebt meegegeven (Natuur).
Met betrekking tot de dilemma’s die dit oplevert schreef ik 10 jaar geleden het artikel ‘Kewording’ en waarvan de kern is: laat de zoekmachines zich druk maken om vervoegingen, meervoudsvormen en vertalingen van trefwoorden. Dat kon toen nog niet maar tegenwoordig hebben we AI, toch?
Met de beeldherkenningsalgoritmes van AI zou de computer je moeten
kunnen vertellen wat er op een foto staat en hoewel dat nog niet volledig lukt worden
er wel resultaten geboekt. De overheersende kleur bijvoorbeeld kan al vrij lang
worden herkend en het wordt steeds nauwkeuriger. Gezichtsherkenning, welke
voorwerpen er op de foto staan en in wat voor omgeving de foto is gemaakt.
En tenslotte heb je nog conceptuele
begrippen als geluk, toekomst e.d. Zelf heb je natuurlijk direct een
bepaald beeld bij een foto die je gemaakt hebt maar iemand anders heeft dat
niet automatisch. Het is dan ook heel waardevol om dit soort conceptuele
begrippen meteen als trefwoord, titel of omschrijving mee te geven omdat dit
het aller lastigst is voor de computer (lees AI) om te herkennen. Echter maakt
AI ook op dit vlak vorderingen!
Voorbeelden
Onderdeel van Adobe’s CC suite (Creative Cloud) is hun
zoekengine ‘Sensei’. Ikzelf heb het fotografie abonnement (Lightroom en
Photoshop) en wanneer ik foto’s synchroniseer met de cloud kan ik daar foto’s terugvinden
met trefwoorden die ik nooit aan foto’s heb meegegeven. In onderstaand
voorbeeld bijvoorbeeld. Daar heb ik gezocht op ‘toekomst’ met 1 foto in het
zoekresultaat:
Volledigheidshalve: ‘toekomst’ had ik dus niet als trefwoord
meegegeven:
Kortom, de algoritmes van Adobe hebben deze foto dus gekoppeld
aan het begrip ‘toekomst’ en ik moet zeggen dat ik daar wel wat logica in zie.
Daar staan overigens ook weer zoekresultaten tegenover waar ik minder tevreden
over ben maar de algoritmes worden steeds beter en je kunt er zelf meteen
feedback op geven:
Een tweede functie die Adobe sinds kort beschikbaar stelt
als ‘Technology preview’ is het zoeken van de beste foto in een album. Dit
wordt ook gedaan op basis van AI algoritmes:
Deze Adobe technologie is helaas alleen online beschikbaar.
In de ‘Classic’ editie van Lightroom werkt het helaas niet en ik betwijfel ook
of het daar in komt. Lightroom Classic CC maakt weliswaar onderdeel uit van de
CC abonnement maar wellicht is het lastig om de Sensei technologie te
ontsluiten in desktop applicaties.
Online werken de algoritmes best goed en het is leuk om te zien dat Lightroom andere keuzes maakt in wat je beste foto’s zijn dan
jezelf. Zoals je hier ziet staan er weliswaar twee foto’s tussen die ikzelf met
5 sterren had gewaardeerd maar er waren er nog twee in hetzelfde album maar die slaat Lightroom dus over ten gunste van andere foto's die ikzelf met 3 of 4 sterren had gewaardeerd.
Je
kunt overigens invloed uitoefenen in wat Lightroom als zoekresultaat toont:
- Zo kun je de drempel aanpassen waardoor je meer of minder resultaten krijgt
- Je kunt je eigen sterwaardering mee laten wegen
- En je kunt foto’s waar mensen op staan zwaarder mee laten wegen
Ook andere partijen maken gebruik van AI algoritmes om foto’s
te vinden.
- Zo maakt Excire een plugin voor Lightroom Classic CC voor het automatisch toevoegen van trefwoorden en iedereen kent GoogleImage Search natuurlijk wel, daar schreef ik eerder dit artikel over met dit voorbeeldfilmpje.
- Microsoft gebruikt AI om automatisch transcripts te maken uit video- en audiobestanden op SharePoint en OneDrive locaties (link).
- Colourise kleurt zwart foto's in met behulp van AI (link).
- ON1 gebruikt AI om de ontwikkelinstellingen van Lightroom te reconstrueren binnen ON1 Photo Raw 2019 (link)
Onderzoek naar
algoritmes
Vanuit onderzoek aan de universiteit van Pennsylvania is
Acquine ontstaan, Aesthetic Quality Inference Engine. Deze is (op dit moment in
ieder geval) publiekelijk toegankelijk en je kunt je foto’s uploaden om te
laten beoordelen (link) op esthetische
kwaliteiten:
In dit geval geeft Acquine mijn foto drie sterren. Ik zou de
waardering aan kunnen passen en daarmee geeft ik feedback waarmee het algoritme
verder wordt ‘getraind’.
Acquine stelt ook een iets andere uitsnede voor maar het
verschil is (in dit geval) heel klein.
De onderzoekers beschrijven Acquine het als een eerste stap
om te herkennen hoe mensen reageren op beeldmateriaal en de engine moet beschouwd
worden als een demo van de theorie die de onderzoekers publiceren in deze
paper: pdf.
Zeker de moeite van het lezen!
Een tweede interessante bron waar ik tijdens het schrijven
van deze blog op terecht kwam is de pagina van James Z. Wang (link).
Wang verwijst naar zowel Acquine als andere interessante
ontwikkelingen op het gebied van ‘content based image search’ en ‘automatic
learning-based indexing’ als Oscar, Alipr, Story Picture Engine, Imagination
Captcha, Simplicity, Art and Cultral Heritages, Sattelite Imagery, Virtual Microscope,
Clue, Unified Feature Matching, Wipe, a-LIP etc.
Hij geeft aan dat de Riemann
Hypothese in al deze onderzoeken een belangrijke rol speelt:
James Wang schrijft “We zijn geïnspireerd door het feit dat
de Riemann-hypothese nog steeds een van de belangrijkste onopgeloste problemen
in de wiskunde is. Daarmee is Intelligente media notatie een van de
belangrijkste onopgeloste problemen in computer- en informatiewetenschappen.
Wij proberen dit aan te pakken”.
Kortom, we kunnen op dit vlak de komende tijd nog veel
verwachten.