Pixel Recursive Super Resolution - ludzka intuicja w widzeniu maszyn (sonda i test)
Google pracuje nad algorytmem PRSR, który wykorzystuje elementy Sztucznej Inteligencji do zwiększania rozdzielczości przez inteligentną interpolację.
Interpolacja to narzędzie, które często jest wykorzystywane do zwiększania rozdzielczości zdjęć. Jednak zwykle oznacza to nic ponad wygładzenie interpolowanych krzywych, które pozwalają z większej odległości postrzegać zdjęcie jako pozbawione efektu pikselizacji, który występuje przy standardowym powiększaniu obrazu.
Google pracuje nad mechanizmem, który nazywa się Pixel Recursive Super Resolution (PRSR). Jego przeznaczeniem jest podniesienie rozdzielczości w inteligentny sposób, czyli tak by „wymyślone” przez oprogramowanie brakujące elementy nie były jedynie matematyczną interpolacją brakujących elementów, ale przybliżeniem faktycznego obrazu.
Porównanie z ludzkim widzeniem
Efekty działania tego algorytmu można zobaczyć na poniższym obrazku. Pierwsza kolumna to zdjęcie twarzy o rozdzielczości 8x8 pikseli, które wprowadzono do narzędzia PRSR. Druga kolumna to wygenerowane przez to narzędzie obrazy o rozdzielczości 32x32 piksele, czyli o 16 razy większej liczbie pikseli niż oryginał. Trzecia kolumna to oryginał, czyli to czego oczekiwalibyśmy od idealnie funkcjonującego algorytmu.
Jaki tu mamy związek z ludzkim widzeniem. Człowiek przez całe życie zbiera i magazynuje w pamięci różne informacje, między innymi obrazy. Gdy natrafi na obraz o niewielkiej rozdzielczości stara się zgadnąć jak wyglądałby gdyby był lepszej jakości. Dlatego tak łatwo nam domyślić się, że na zdjęciu ta mała postać to w istocie konkretna osoba.
Reprezentująca ją grupa pikseli dla zwykłego algorytmu rozpoznawania twarzy czy postaci stanowi niewiele znaczący zlepek informacji. Ale nie dla Google PRSR. Nie będziemy się tu skupiali nad matematyką jaka dokładnie stoi za tym algorytmem, zainteresowanych odsyłam do szczegółowego artykułu, ale spróbujcie wykonać mały eksperyment.
Można w nim użyć pokazanych powyżej zdjęć, ale najlepiej byłoby gdyby ktoś przygotował nam zdjęcie 8x8 pikseli z twarzą, której się nie spodziewamy ujrzeć. Możecie wykorzystać poniższe przykłady.
Te zdjęcia wykorzystaj do odpowiedzi w sondzie
Wyświetlmy sobie każde ze zdjęć na pełnym ekranie. Z bliska będzie to raczej nic nie sugerująca zbieranina pikseli. Teraz oddalcie się od monitora, zmrużcie najlepiej oczy i jeszcze raz zastanówcie się co, a raczej kogo widać.
Nie będzie to wystarczająco dobry obraz by w każdym przypadku wywnioskować jaką osobę pokazuje zdjęcie, ale z pewnością będziecie mieli już dużo więcej podejrzeń. Dodam, że są to znane postacie.
I tak samo jak nasz umysł jedynie tworzy podpowiedź, tak wynik działania algorytmu Google PRSR jest jedynie sugestią. Silną przesłanką, czasem dokładniejszą niż to co podpowiada nam nasz mózg, ale nadal nie taką, która pozwala tak uzyskane powiększenie obrazu uznać za stuprocentowo pewne.
Czy będzie tak jak w filmach SF?
Filmy science-fiction obfitują w sceny, w których bohater powiększa i skaluje zdjęcie ukazując wcześniej nie widziane szczegóły. Padają rozkazy, „powiększ, jeszcze, jeszcze więcej”, które zdają się nie mieć końca. Tak jak końca nie mają zdolności stosowanych algorytmów skalujących. Ale bądźmy szczerzy, pewnych granic nie da się przeskoczyć, tak jak z obrazu 8x8 pikseli nie wywnioskujemy, że fotografowana osoba ma plombę w dolnej szóstce, ani tego jaki faktycznie numer rejestracyjny widnieje na tablicy samochodu.
W przypadku filmów są zresztą stosowane niedomówienia, które pozwalają widzowi puścić wodze jego własnej fantazji. Na przykład można założyć, że skalowane obrazy są skalowane z wykorzystaniem dodatkowych pomocniczych informacji, których zafascynowany tym co widzi na ekranie widz nie bierze pod uwagę. Sama informacja o kolorze i jasności zawarta w pikselach to za mało danych.
Do pewnego stopnia tak też dzieje się w przypadku algorytmu Google. Nie stara się on wywnioskować w grupy 64 pikseli co pokazują, analizując wszystkie możliwe rozwiązania. Wykorzystuje on matematycznie skonstruowaną podpowiedź, która zakłada, że powiększony obraz będzie reprezentował ludzką twarz.
To ograniczenie, ale zakładając, że obraz 8x8 pikseli jest wycinkiem w większego obrazu na którym można przewidzieć co pokazuje dana grupa pikseli, wcale nie tak duże.
Zespół Google Brain
W tekście wspominam o pracach Google, ale by być precyzyjnym, prace nad PRSR to dzieło zespołu Google Brain. To ekipa ludzi, których celem jest zaszczepienie komputerom ludzkiej intuicji w różnych dziedzinach postrzegania. W sposób, który pozwoli praktyczniej wykorzystywać nabytą przez maszyny inteligencję w naszym codziennym życiu.
Członkowie zespołu Google Brain mają sporą swobodę w doborze tematyki i planowaniu badań. Każdy z nas na co dzień korzysta z efektów pracy tego zespołu. Sięgając po wyszukiwarkę Google, narzędzia stosowane w Google Photos, Maps, Translate, Youtube czy Gmailu.
Źródło: Google Brain, inf. własna
Komentarze
7Może pójdźmy jeszcze dalej i zgadujmy kogo przypominają nam te obrazy i może niech za 1-2 dni autor artykułu pochwali się kogo przedstawiały. Może trochę wyjdzie nam taki benchmarkowy test Rorschacha ;-)
W kolejności: góra lewo, góra prawo, dół lewo, dół prawo:
GL - Alicia Vikander
GP - Barack Obama
DL - Donald Trump
DP - Darth Vader