OpenAI prezentuje nowy model, czyli GPT-4o, który analizuje dźwięk, obraz i tekst w czasie rzeczywistym. Zadziwiające jest to, w jakim czasie model reaguje na dochodzące sygnały dźwiękowe.
Entuzjaści sztucznej inteligencji z niecierpliwością czekali na OpenAI Spring Uptade - prezentację twórców ChatGPT. Atmosferę podgrzewały huczne branżowe doniesienia o potencjalnej prezentacji nowej wyszukiwarki internetowej opartej na AI i... otóż nie tym razem! OpenAI skupia się na nowym modelu. Poznajcie GPT-4o.
OpenAI prezentuje GPT-4o
GPT-4o uczyni interakcję bardziej naturalną. OpenAI deklaruje, że GPT-4o reaguje na sygnały audio w zaledwie 232 milisekund (średnia 320 milisekund), co jest podobne do czasu reakcji człowieka w rozmowie. Jeśli chodzi o wydajność, to w tej kwestii dorównuje GPT-4 Turbo w przypadku tekstu w języku angielskim, zaś w innych językach jest nawet lepszy.
"GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli" - deklaruje OpenAI. Jak wobec tego prezentują się możliwości GPT-4o? Osobiście chyba największe wrażenie zrobiło na mnie nagranie, w którym poproszono model GPT-4o o to, by zaczął liczyć od jednego do dziesięciu.
Widać doskonale, jak szybko GPT-4o reaguje na wydawane polecenia dotyczące zmiany tempa. Wszystko dzieje się w czasie rzeczywistym. Podobnie kolejne - jedno z wielu, dodajmy - nagranie, w którym GPT-4o zamienia się w nauczyciela języka hiszpańskiego, analizując przedmioty widoczne za pośrednictwem kamery.
Kiedy GPT-4o stanie się dostępny?
"Możliwości tekstowe i graficzne GPT-4o zaczynają być udostępniane dzisiaj w ChatGPT. Udostępniamy GPT-4o w warstwie bezpłatnej, a użytkownikom Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus." - informuje OpenAI.
Pamiętajmy, że OpenAI to nie tylko ChatGPT. Nadchodzący model Sora pozwoli użytkownikom na generowanie filmów, co nawet docenili zawodowi artyści.
Źródło: OpenAI
Komentarze
5przede wszystkim ten model językowy NIE ROZUMIE, to nie sieć neuronowa jaką posiada człowiek. On potrafi co najwyżej przeanalizować, a nie zrozumieć.