Firma IBM zdołała osiągnąć najniższy w historii stopień błędu w rozpoznawaniu ludzkiej mowy. Pod tym względem wraca więc na pierwsze miejsce.
Pół roku temu Microsoft poinformował o stworzeniu najdokładniejszego systemu rozpoznawania mowy, którego wyrazowa stopa błędu (WER) wynosi zaledwie 6,3 proc. Zdetronizowany wówczas IBM nie próżnował jednak w ostatnich miesiącach i chwali się teraz, że poprawił wynik giganta z Redmond.
Firma IBM opracowała system rozpoznawania mowy, którego WER wynosi jedynie 5,5 proc. Oznacza to, że szansa na to, że oprogramowanie błędnie zrozumie rozmówcę jest prawie taka sama, jak że błędnie zrozumie go człowiek.
IBM zdołał osiągnąć tak dobry wynik dzięki Watsonowi oraz kombinacji dwóch technologii: sieci neuronowej LSTM (długa pamięć krótkotrwała) oraz modeli językowych WaveNet. W uczeniu systemu wykorzystano zaś nagrania rozmów telefonicznych.
Sukces IBM jest ogromny, ale firma twierdzi, że jest jeszcze trochę do zrobienia. Celem jest osiągnięcie WER na poziomie 5,1 proc., co miałoby być porównywalne z rozumieniem przeciętnego człowieka. Naukowcy wiedzą jednak, że nie będzie to łatwe.
„Umiejętność rozumienia mowy z ludzką skutecznością to ogromne wyzwanie, ponieważ ludzka mowa, szczególnie podczas spontanicznych rozmów, jest niezwykle skomplikowana” – mówi Julia Hirschberg. Warto jednak kontynuować prace, ponieważ w przyszłości może to doprowadzić do utworzenia sprawnego interfejsu komunikacji człowiek-komputer za pomocą samej tylko mowy.
Źródło: IBM Blog, Engadget
Komentarze
4https://speech-to-text-demo.mybluemix.net/
Raczej nie rozpoznaje lepiej od mechanizmu Googla na You Tube. Też tak można transkrypcję robić, a potem gotową ściągnąć jak się zrobi sama po jakimś czasie, w sekcji napisy.