Ta sztuczna inteligencja czyta z ruchu warg lepiej niż profesjonaliści
Należąca do Google firma DeepMind zaprojektowała program, który jest w stanie czytać z ruchu warg dużo skuteczniej niż człowiek.
Sztuczna inteligencja od Google i należącej do niej firmy DeepMind spędziła tysiące godzin na oglądaniu programów telewizyjnych z BBC. Po co? Aby nauczyć się czytać z ruchu warg. Jakie są efekty? Nawet lepsze niż można by przypuszczać.
Czytanie z ruchu warg nie jest proste, ale do pewnego stopnia jak najbardziej możliwe. Zdający sobie z tego sprawę inżynierowie DeepMind i naukowcy z Uniwersytetu Oksfordzkiego postanowili więc nauczyć tego sztuczną inteligencję. Zapodali jej ponad 5 tysięcy godzin materiału z TV, podczas którego do przeanalizowania było 118 tysięcy zdań złożonych z 17,5 tysiąca słów.
Choć był to dopiero jeden z pierwszych etapów prac, osiągnięte wyniki są wręcz doskonałe. Sztuczna inteligencja była w stanie zrozumieć 46,8 proc. słów na podstawie samego obrazu. Choć może się to wydawać mało, szybko dodajmy, że profesjonaliści w tym samym teście osiągnęli skuteczność na poziomie 12,4 proc.
Po co ten eksperyment? Zwolennicy teorii spiskowych pewnie postawiliby na narzędzie do inwigilacji. Sami autorzy natomiast twierdzą, że taki program mógłby na przykład pomóc niesłyszącym i niedosłyszącym w rozumieniu tego, co mówią do nich inni ludzie. Mówi się też o możliwości wydawania poleceń wirtualnym asystentom za pomocą niemych komend (szczególnie przydatne poza domem).
Źródło: The Verge, Google
Komentarze
7A tak na serio, patrząc na ilość i ceny usług tłumaczy języka migowego takie rozwiązanie może pomóc wielu ludziom.