Microsoft zaprezentował specyfikację powstającego systemu rozpoznawiania mowy, który aktywnie nasłuchuje dźwięków otoczenia i potrafi wyróżnić w nich komendy głosowe będące poleceniami dla systemu operacyjnego.
Nowy projekt o nazwie "conversational understanding" (rozumienie konwersacji, CU) to część strategii firmy opartej na nowych, naturalnych interfejsach. Technologia wykorzystuje wiele zaawansowanych osiągnięć inżynierii komputerowej, jak choćby rozpoznawanie mowy z wykorzystaniem słownika, analiza struktur gramatycznych oraz systemów uczących się (ang. machine learning). Dzięki temu nowy system jest w stanie reagować, korzystając ze złożonej wiedzy i różnorodnych algorytmów. Jaką korzyść mogą z tego odnieść potencjalni użytkownicy?
Warto przeczytać: | |
|
Zig Serafin, przewodniczący zespołu Microsoftu zajmującego się przetwarzaniem mowy, tak komentuje swój projekt:
"Wszystko, nad czym do tej pory pracowaliśmy, obraca się wokół problemu zrozumienia, co mówią ludzie. Można to porównać do osoby obdarzonej dobrym słuchem. Czy zdoła ona usłyszeć, co mówi drugi człowiek za rogiem budynku, w ulicznym zgiełku? I czy zareaguje w oczekiwany sposób?"
Otóż okazuje się, że proste rozpoznawanie mowy w rzeczywistych sytuacjach jest niewystarczające: "Jesteśmy bliscy nauczenia maszyny rozpoznawania zmieniającej się sytuacji. Musimy tylko połączyć wszystkie te elementy z mózgiem systemu."
Funkcjonalność technologii zapewni rozbudowana infrastruktura oraz szereg rozwiązań, którymi dysponuje Microsoft. Można rozpoznać tu takie znajome nazwy, jak TellMe, usługa Bing 411 wraz z aplikacją mobilną umożliwiającą wyszukiwanie za pomocą głosu, podobna funkcja obecna w Windows Phone 7, oraz Sync przeznaczony między innymi do samochodów. Ostatnio mogliśmy spotkać się z takimi rozwiązaniami również w konsoli Kinect, w której po raz pierwszy zaimplementowano system ciągłego nasłuchu, bez konieczności uruchamiania mikrofonu przyciskiem.
Zasada działania większości systemów opiera się na rozpoznawaniu komend głosowych wydawanych przez użytkownika, a następnie kierowaniu ich do chmury, która określa ich znaczenie. Jednak w przypadku prostych komend, takich jak "włącz utwór x" lub "zadzwoń do mamy", można je przetwarzać lokalnie. Jeśli jednak polecenie jest bardziej złożone, trzeba połączyć się z serwerami Microsoftu.
Nowością wprowadzaną w CU jest dołączenie do pakietu dużej porcji danych okreslających kontekst - stron internetowych lub własnych zasobów użytkownika, by lepiej zrozumieć, o co tak naprawdę on prosi.
XBox360 oferuje rozpoznawanie mowy dzięki wbudowanym mikrofonom Kinect, a także usuwaniu szumów pochodzących od uruchamianych gier i aplikacji.
"Aby zaimplementować rozumienie kontekstu, nie wystarczają same algorytmy wyszukiwania." - tłumaczy Ilya Bukshteyn, dyrektor działu marketingu TellMe, firmy przejętej przez Microsoft w 2007 roku, a następnie włączonej do projektu przetwarzania mowy. "Zrozumienie intencji wyszukiwania to w istocie klucz do rozwiązania problemu, ważniejszy niż proste znalezienie danych. Łatwo dostępnych jest bardzo wiele użytecznych informacji, które można przeanazlizować, a następnie udzielić podpowiedzi zgodnej z preferencjami uzytkownika." Bukshteyn podaje za przykład pomoc w organizacji obiadu dla dwóch osób, korzystając z kalendarza, rankingu restauracji i map internetowych. Bardzo przypomina to koncepcję zaprezentowaną niedawno przez Google.
Serafin dodaje: "Aby jednak wszystko to było możliwe, konieczne jest wpierw rozpoznanie wydanego polecenia. Normalnie do wykonania tego rodzaju zadania wymagane było manualne wpisanie zapytania oraz wykorzystanie różnych funkcji wielu aplikacji. Przyszłe rozwiązania uwolnią użytkowników od tej konieczności i będą dla nich stanowiły pomoc, rodzaj asystenta. Praktyczna implementacja technologii oparta na tych założeniach jest już w drodze, więcej informacji juz wkrótce."
Zatem pozostaje nam tylko czekać na nowe informacje.
Źródło: Cnet
Polecamy artykuły: | ||
Poradnik świąteczny | MEGATEST: wydajne laptopy i poręczne netbooki | Jabłko czy gruszka? Test iPada z iOS 4.2 |
Komentarze
8Gesty rąk powinny zostać wprowadzone wraz z nadejściem Win 8 Technologie już mają - Kinect :)
Wtedy wiedziałbym za co płace przy kupnie nowego okienka :)
Życie trzeba ułatwiać a nie komplikować ;)