vrijdag 8 februari 2019

AI in Fotografie




AI staat voor Artificial Intelligence en dat betekent weer zoiets als kunstmatige intelligentie. En ja, die kan ook worden gebruikt binnen de fotografie zoals ik al eens schreef (Mooie foto’s zoeken).

Zoeken is niet altijd vinden
Ik ben al vaker ingegaan op het weer terugvinden van foto’s en tot voor kort was het belangrijkste gereedschap de trefwoorden die je aan de foto mee had gegeven. Geen trefwoorden, dan moest je de foto’s stuk voor stuk optisch ‘scannen’.

Bij het meegeven van trefwoorden is de discussie vaak of je dan ook het meervoud en vervoegingen moet meegeven voor een beter zoekresultaat. Zoek je op foto’s waar boeken op staan dan is het veilig om te zoeken op ‘boek’ omdat dan automatisch ook de foto’s met het trefwoord ‘boeken’ tevoorschijn zullen komen. Er zijn echter ook talloze woorden die niet simpelweg ‘verlengd’ worden om er meervoud van te krijgen. Neef/Neven, Meer/Meren, Datum/Data, etc.

En wat denk je van synoniemen? Het is erg veel werk om die allemaal te verzinnen voor een bepaald onderwerp en die vervolgens als trefwoord mee te geven. Dit terwijl de kans erg groot is dat wanneer je een bepaalde foto zoekt je op dat moment een ander trefwoord gebruikt om te zoeken (Milieu) dan dat je oorspronkelijk aan de foto hebt meegegeven (Natuur). 
Met betrekking tot de dilemma’s die dit oplevert schreef ik 10 jaar geleden het artikel ‘Kewording’ en waarvan de kern is: laat de zoekmachines zich druk maken om vervoegingen, meervoudsvormen en vertalingen van trefwoorden. Dat kon toen nog niet maar tegenwoordig hebben we AI, toch?

Met de beeldherkenningsalgoritmes van AI zou de computer je moeten kunnen vertellen wat er op een foto staat en hoewel dat nog niet volledig lukt worden er wel resultaten geboekt. De overheersende kleur bijvoorbeeld kan al vrij lang worden herkend en het wordt steeds nauwkeuriger. Gezichtsherkenning, welke voorwerpen er op de foto staan en in wat voor omgeving de foto is gemaakt.

En tenslotte heb je nog conceptuele begrippen als geluk, toekomst e.d. Zelf heb je natuurlijk direct een bepaald beeld bij een foto die je gemaakt hebt maar iemand anders heeft dat niet automatisch. Het is dan ook heel waardevol om dit soort conceptuele begrippen meteen als trefwoord, titel of omschrijving mee te geven omdat dit het aller lastigst is voor de computer (lees AI) om te herkennen. Echter maakt AI ook op dit vlak vorderingen!

Voorbeelden
Onderdeel van Adobe’s CC suite (Creative Cloud) is hun zoekengine ‘Sensei’. Ikzelf heb het fotografie abonnement (Lightroom en Photoshop) en wanneer ik foto’s synchroniseer met de cloud kan ik daar foto’s terugvinden met trefwoorden die ik nooit aan foto’s heb meegegeven. In onderstaand voorbeeld bijvoorbeeld. Daar heb ik gezocht op ‘toekomst’ met 1 foto in het zoekresultaat:



Volledigheidshalve: ‘toekomst’ had ik dus niet als trefwoord meegegeven:



Kortom, de algoritmes van Adobe hebben deze foto dus gekoppeld aan het begrip ‘toekomst’ en ik moet zeggen dat ik daar wel wat logica in zie. Daar staan overigens ook weer zoekresultaten tegenover waar ik minder tevreden over ben maar de algoritmes worden steeds beter en je kunt er zelf meteen feedback op geven:


Een tweede functie die Adobe sinds kort beschikbaar stelt als ‘Technology preview’ is het zoeken van de beste foto in een album. Dit wordt ook gedaan op basis van AI algoritmes:

Deze Adobe technologie is helaas alleen online beschikbaar. In de ‘Classic’ editie van Lightroom werkt het helaas niet en ik betwijfel ook of het daar in komt. Lightroom Classic CC maakt weliswaar onderdeel uit van de CC abonnement maar wellicht is het lastig om de Sensei technologie te ontsluiten in desktop applicaties.

Online werken de algoritmes best goed en het is leuk om te zien dat Lightroom andere keuzes maakt in wat je beste foto’s zijn dan jezelf. Zoals je hier ziet staan er weliswaar twee foto’s tussen die ikzelf met 5 sterren had gewaardeerd maar er waren er nog twee in hetzelfde album maar die slaat Lightroom dus over ten gunste van andere foto's die ikzelf met 3 of 4 sterren had gewaardeerd. 
Je kunt overigens invloed uitoefenen in wat Lightroom als zoekresultaat toont:
  • Zo kun je de drempel aanpassen waardoor je meer of minder resultaten krijgt
  • Je kunt je eigen sterwaardering mee laten wegen 
  • En je kunt foto’s waar mensen op staan zwaarder mee laten wegen 

Ook andere partijen maken gebruik van AI algoritmes om foto’s te vinden. 

  • Zo maakt Excire een plugin voor Lightroom Classic CC voor het automatisch toevoegen van trefwoorden en iedereen kent GoogleImage Search natuurlijk wel, daar schreef ik eerder dit artikel over met dit voorbeeldfilmpje.
  • Microsoft gebruikt AI om automatisch transcripts te maken uit video- en audiobestanden op SharePoint en OneDrive locaties (link).
  • Colourise kleurt zwart foto's in met behulp van AI (link).
  • ON1 gebruikt AI om de ontwikkelinstellingen van Lightroom te reconstrueren binnen ON1 Photo Raw 2019 (link)

Onderzoek naar algoritmes
Vanuit onderzoek aan de universiteit van Pennsylvania is Acquine ontstaan, Aesthetic Quality Inference Engine. Deze is (op dit moment in ieder geval) publiekelijk toegankelijk en je kunt je foto’s uploaden om te laten beoordelen (link) op esthetische kwaliteiten:

In dit geval geeft Acquine mijn foto drie sterren. Ik zou de waardering aan kunnen passen en daarmee geeft ik feedback waarmee het algoritme verder wordt ‘getraind’.
Acquine stelt ook een iets andere uitsnede voor maar het verschil is (in dit geval) heel klein.

De onderzoekers beschrijven Acquine het als een eerste stap om te herkennen hoe mensen reageren op beeldmateriaal en de engine moet beschouwd worden als een demo van de theorie die de onderzoekers publiceren in deze paper: pdf. Zeker de moeite van het lezen!

Een tweede interessante bron waar ik tijdens het schrijven van deze blog op terecht kwam is de pagina van James Z. Wang (link).


Wang verwijst naar zowel Acquine als andere interessante ontwikkelingen op het gebied van ‘content based image search’ en ‘automatic learning-based indexing’ als Oscar, Alipr, Story Picture Engine, Imagination Captcha, Simplicity, Art and Cultral Heritages, Sattelite Imagery, Virtual Microscope, Clue, Unified Feature Matching, Wipe, a-LIP etc.

Hij geeft aan dat de Riemann Hypothese in al deze onderzoeken een belangrijke rol speelt:


James Wang schrijft “We zijn ge├»nspireerd door het feit dat de Riemann-hypothese nog steeds een van de belangrijkste onopgeloste problemen in de wiskunde is. Daarmee is Intelligente media notatie een van de belangrijkste onopgeloste problemen in computer- en informatiewetenschappen. Wij proberen dit aan te pakken”.

Kortom, we kunnen op dit vlak de komende tijd nog veel verwachten.