Przełomowa funkcja ChatGPT opóźniona. Padł nowy termin

26 czerwca 2024przeczytasz w 2 min.

Nie możesz się doczekać, aż będziesz mógł rozmawiać z ChatGPT jak z człowiekiem? OpenAI nie ma dobrych wieści.

W połowie maja odbyła się prezentacja nowego modelu GPT-4o oraz nowej wersji trybu głosowego. Ten - według pierwotnych obietnic - miał trafić do pierwszych użytkowników w ciągu kilku tygodni, ale niestety tygodnie zamienią się w miesiące.

Nowy tryb głosowy w ChatGPT. Kiedy premiera?

OpenAI informuje za pośrednictwem swojego oficjalnego kanału na Discordzie, że pierwotne plany zakładały start publicznych testów nowego trybu głosowego pod koniec czerwca. Twórcy potrzebują jednak dodatkowego miesiąca, więc można oczekiwać, że testy nowej funkcji rozpoczną się najwcześniej pod koniec lipca.

No właśnie - testy. W ramach programu alpha zaawansowany tryb głosowy ChatGPT początkowo ma zostać udostępniony jedynie "niewielkiej grupie użytkowników" płatnego planu Plus. OpenAI chce umożliwić korzystanie z oczekiwanej funkcji wszystkim abonentom jesienią, ale nie ukrywa, że planowane terminy mogą ulec przesunięciu.

Firma tłumaczy, że opóźnienie wynika z konieczności usprawnienia modelu pod kątem "wykrywania i odrzucania określonych treści", chęci "poprawy komfortu użytkowania" i przygotowania infrastruktury sieciowej.

ChatGPT-4o - zamieszanie wokół nowego trybu głosowego

Podczas majowej prezentacji firma OpenAI niezbyt precyzyjnie zakomunikowała pojawienie się nowej funkcji. Media społecznościowe zostały zalane filmami, na których użytkownicy (w tym dziennikarze technologiczni oraz celebryci) rozmawiają z ChatGPT zachwycając się "nowymi" możliwościami. Sęk jednak w tym, że w aplikacji dostępny jest jedynie stary tryb głosowy, z którego istnienia wiele osób nie zdawało sobie dotychczas sprawy.

Komunikacji nie ułatwia fakt, że nowa funkcja nie otrzymała póki co żadnej wdzięcznej marketingowej nazwy. Pierwsza wersja trybu głosowego nazywana jest przez firmę Voice Mode’em, a nowa "zaawansowanym Voice Mode’em".

Czym różnią się obie funkcje? Aktualny tryb głosowy jest dość prymitywny, bo opiera się na trzech sieciach neuronowych. Aplikacja ChatGPT najpierw zamienia mowę na tekst, później wysyła tekstowe zapytanie do modelu GPT, a uzyskaną tekstową odpowiedź zamienia na mowę.

Tak zbudowany tryb głosowy ma przynajmniej dwie duże wady. Po pierwsze - działanie trzech różnych sieci neuronowych jest wolne, więc oczekiwanie na odpowiedź trwa kilka sekund, co zabija dynamikę rozmowy. Po drugie - do modelu odpowiedzialnego za generowanie odpowiedzi trafia jedynie transkrypcja zapytania, więc aplikacja w ogóle nie odróżnia głosów, tonu wypowiedzi czy dźwięków w tle.

Zaawansowany tryb głosowy - który do aplikacji ChatGPT dopiero trafi - wykorzystuje jedną sieć neuronową zbudowaną od podstaw z myślą o komunikacji werbalnej. Sztuczna inteligencja ma generować odpowiedzi w czasie rzeczywistym, a także reagować na różne głosy i dźwięki czy zmiany tonu wypowiedzi. Innymi słowy - rozmowa z AI ma bardziej przypominać konwersację z człowiekiem.

Jak jednak wspomniałem, nowy tryb głosowy przynajmniej początkowo będzie zarezerwowany dla subskrybentów planu ChatGPT Plus, który wyceniony jest na ok. 100 zł miesięcznie.

Przeczytaj także:

ChatGPT w cieniu skandalu. Poszło o nowy tryb głosowy

Nowy tryb głosowy w ChatGPT. Kiedy premiera?

ChatGPT-4o - zamieszanie wokół nowego trybu głosowego

Komentarze

Witaj!