Vyzkoušeli jsme autotagging fotobanky Pond5

nahledNa začátku dubna spustila fotobanka Pond5 velice zajímavou službu „Auto-Tagging“, kterou lze v daném odvětví označit přívlastkem „jedinečná“. Fotografie, ilustrace a videa nahraná prodávajícími jsou nyní automaticky doplňována o klíčová slova, k čemuž Pond5 využívá principu umělých neuronových sítí. Možnostmi autotaggingu se již zabývaly některé další společnosti, jako například bulharský start-up Imagga, ještě nikdy ovšem nebyla tato funkce natolik integrována přímo do fotobanky. Přirozeně nás lákalo vyzkoušet, nakolik spolehlivý tento nástroj doopravdy je.

Autotagging může být užitečným nástrojem zejména pro ty uživatele, kteří pracují s objemným množstvím fotografií – vyplnit adekvátní množství vhodných klíčových slov ke každé fotografii se v takovém případě stává náročným a zdlouhavým procesem. K tomu, aby autotagging představoval skutečně účinný nástroj, ovšem musí doplňovat fotografie o skutečně relevantní klíčová slova – v momentě, kdy uživatel musí deset keywordů umazat a dvacet doplnit, práci si příliš neusnadní. Autotagging Pond5 však budí dojem seriózního nástroje s potenciálem dalšího rozvoje.

V první fázi testování jsme si vytvořili uživatelský účet pro prodejce fotek. Jedná se o nekomplikovanou proceduru, která zabere skutečně pouhých pár minut. Do našeho účtu jsme následně nahráli 15 vybraných fotografií – částečně z vlastních zdrojů, částečně se jednalo o fotky z z databáze Pexels.com k volnému použití pod licencí Creative Commons 0. Z typového hlediska se jednalo o fotografie rozmanité – nalézaly se mezi nimi městské i přírodní krajiny, postavy celé i v detailu obličeje, zvířata, předměty i jedna abstraktnější kompozice.Všechny tyto druhy patří do obvyklého repertoáru fotobank.

„Neuronové sítě jsou trošku jako z Terminátora,“  říká Vítězslav Válka

Aby náš pohled na autotagging nebyl úplně jednostranný, rozhodli jsme se zeptat na pár dotazů, které nás zajímaly, přímo někoho z Pond5. Na otázky týkající se implementace, fungování a budoucnosti autotaggingu nám ochotně odpověděl Vítězslav Válka, šéf vývoje produktu.

Samotná editace fotografií probíhá ještě před tím, než uživatel odešle svou fotografii ke schvalovacímu řízení. Automaticky přiřazená klíčová slova jsou k nalezení právě v editačním menu a lze je libovolně doplňovat. mazat, či jejich generování úplně vypnout. Nás však zajímá, jaké tag uživatel uvidí po nahrání fotky bez dalších zásahů:

Mrakodrapy

 

tagy_mrakodrapy

Jak vidno, s velkoměstskou scenérií neměl autotagging žádný problém. Korektně přiřazené keywordy dávají dohromady celkem uchopitelný popis scenérie  nabízí relevantní výsledky, které reálně umožňují obrázek vyhledat.Tagy upřesňující lokalitu (New York City, Chrysler Building), již není obtížné dodat ručně. Co takhle scenérie s lidmi?

Svatba

tagy_svatbaZde autotagging korektně pojmenoval svatební scenérii a identifikoval osoby a emoce, které se s tímto prostředím obvykle pojí. Opět to uživateli významně usnadní práci – většina z použitých tagů fotku kategorizuje zcela správně a bylo by je potřeba ručně doplnit. Podívejme se na lidi trošku zblízka:

Oblicej

tagy_oblicejU této fotografie se poprvé ukazují nedostatky autotaggingu. Z fotografie, na níž je hlavním sdělením určitá atmosféra, emoce či nálada, toho mnoho nevyčte a jak je vidět, některá automaticky vyplněná klíčová slova jsou dokonce ve vzájemném rozporu. Například slovní spojení „beautiful young woman“ tato fotka asi rozhodně evokovat nebude. Tato mezera je pochopitelná, nicméně se vyplatí počítat s tím, že u podobného typu fotografií bude lepší pro dosažení relevantní výsledků vyhledávání doplnit keywordy ručně.

Audi

 

tagy_audi

I v případě automobilu se zdá býti téměř vše v pořádku. Klíčová slova odpovídají motoristické tématice, jen poslední výsledky zdají se býti diskutabilními – uvádí špatný typ vozu a ani o produkt automobilky Ford se v tomto případě nejedná.

Pracoviště

tagy_pracoviste

Čisté a úhledné pracoviště neobsahuje nic zbytečného, přesto se automaticky podařilo přiřadit k fotografii 20 klíčových slov. Zobrazené pracovní zátiší je identifikováno až na úroveň předmětů,  vhodně zvolené jsou také tagy vystihující charakter a působení místa. Spolu s městskou a svatební scenérií určitě nejvíce vydařený výsledek, který stačí doladit drobnými úpravami.

jellyfish-jellyfishes-ocean-4105
tagy_meduzy

Nejnáročnější test na závěr. Abstraktnější a umělečtěji laděné fotografie mohou nezřídka zmást i člověka, jak si ovšem s jejich označením poradí software? Autotagging v abstraktnějších vodách tápe, přesto nelze říci, že by nevěděl, co si s fotografií vznášejících se medúz počít. Odhadl vodní prostředí, poměrně dobře reflektuje tvary i náladu fotografie a byť si ji nejspíše nevyhledá oceánolog, výsledek je v tomto případě spíše příjemným překvapením. Ruční úpravy jsou ovšem na místě.

Obdobně jako v případě fotografií funguje i autotagging videí. Ten jsme otestovali za pomocí několika krátkých klipů dostupných k volnému použití na webu FreeHDfootage.com. Několikasekundové útržky opět zahrnují jak interiéry a exteriéry, tak klipy se zvířaty či záběry v detailu. Poměrně překvapivé bylo, že na rozdíl od fotografií, které byly vždy doplněny přesně o 20 klíčových slov, autotagging v případě videí doplňoval kolísavý počet keywordů mnohdy přesahující 40. (Maximum tagů u jedné fotografie či videa je v případě fotobanky Pond5 50.) To si lze vysvětlit dynamičtějším obsahem v případě videí. Jaký byl ovšem výsledek z hlediska kvality keywordů?

tagy_video_kocka

Vesele skotačící a veverku nahánějící kočka v trávě sice nebyla identifikována tagem svého živočišného druhu, jinak ovšem v tomto případě autotaggingu není příliš co vytknout – snad jen pod klíčovými slovy jako „abstract“, „pattern“ či „texture“ by uživatel toto video nechtěl nalézat.

tagy_video_nyc

Bleskový klip zachycující zářivá světla velkoměsta dokazuje, že velkoměstské scenérie nejsou silnou stránku autotaggingu pouze v případě fotografií, ale také u videoklipů. V podstatě všechna klíčová slova jsou relevantní a s videem si je lze snadno spojit. Zde docílil nástroj takřka žádaného výsledku a další úpravy jsou v podstatě zcela dobrovolným krokem.

tagy_video_sprcha

 

I v případě videí jsme se rozhodli potrápit nástroj hůře identifikovatelným subjektem, kde je potřeba domýšlet si kontext. Madlo ve sprše omývané proudem vody jsme samozřejmě mezi klíčovými slovy nečekali, mírným překvapením je, že se do výběru nedostala „sprcha“  samotná. I v případě nicneříkajícího videa však autotagging korektně identifikoval živel, činnost a přiřadil slova, u kterých očekával, že se s danou kombinací budou pojit.

Pochopit, jak systém funguje a identifikovat jeho přednosti a slabiny je jedním z klíčů k jeho používání. Autotagging působí jako značně spolehlivý a užitečný pomocník. Výborné výsledky vykazoval u fotografií a videí zachycujících městské i přírodní krajiny, kde by v podstatě nebylo potřeba dalších úprav vyjma místních specifikací. Dobře zvládá také média s postavami v situacích, kdy tolik nezáleží na jejich vzájemném vztahu či interakcích, rozličné produktové fotografie či předmětová zátiší.

Software za vás může fotky prohlížet, analyzovat a popisovat, ale alespoň prozatím za vás nebude myslet..Proto není těžké identifikovat, kde leží aktuální slabiny autotaggingu. Je-li k pochopení a správnému použití fotografie potřeba kontext neobsažený přímo ve fotografii, autotagging má menší šanci jej podchytit. Použijeme-li příměr, autotagging při pohledu na fotku komiksového Supermana vidí „letícího muže v obleku nad městem“, ale nevidí Supermana. Stejně tak může dělat nástroji problém korektně rozlišit a pojmenovat složitější škálu emocí, vztahů a souvislostí mezi lidmi, zvířaty a subjekty. Naše subjektivní dojmy z vyzkoušení jsou ovšem velice kladné. Autotagging je dynamický a užitečný nástroj s výrazným potenciálem budoucího rozvoje, který se vyplatí sledovat.

Doporučte nás...Share on Facebook0Share on Google+0Tweet about this on Twitter0Share on LinkedIn0Digg this