
Gemini nauczył się nowej sztuczki. AI Google’a generuje wideo i to zaskakująco dobrze
Google zintegrował swojego wirtualnego asystenta Gemini z modelem Veo 2, który odpowiada za generowanie filmów na podstawie słownych opisów. Sprawdziłem nową funkcję w akcji i jestem pod wrażeniem.
Veo 2 Google’a to bezpośrednia konkurencja dla technologii Sora firmy OpenAI. Działa to tak, że użytkownik wpisuje szczegółowy opis sceny, a sztuczna inteligencja tworzy opisany film.
Model Veo 2 został właśnie zintegrowany z wirtualnym asystentem Gemini, dzięki czemu stał się szerzej dostępny i łatwiejszy w obsłudze.
Gemini w Veo 2: jak generować wideo AI?
15 kwietnia Google rozpoczął udostępnianie modelu Veo 2 użytkownikom usługi Gemini Advanced. Wymaga ona wykupienia abonamentu Google One AI Premium, który kosztuje 97,99 zł miesięcznie, ale do wybranych telefonów Google’a i Samsunga dokładany jest w prezencie.
Veo 2 dostępne jest z poziomu rozwijanej listy modeli na górze ekranu. Użytkowników Gemini Advanced powinien także przywitać ekran powitalny, informujący o możliwości skorzystania z nowej funkcji.
Z informacji prasowej wynika, że z generatora filmów Veo 2 można korzystać za pośrednictwem strony gemini.google.com oraz aplikacji mobilnej Gemini. W moim przypadku funkcja dostępna jest jednak póki co jedynie w wersji przeglądarkowej.
Takie filmy AI generuje Gemini. Veo 2 - test
Google zaprosił mnie do udziału w testach nowej funkcji Gemini, dzięki czemu mogłem ją sprawdzić dobę przed oficjalnym uruchomieniem. Wygenerowałem kilka filmów posługując się m.in. promptami, których kilka tygodni temu użyłem w teście konkurencyjnej Sory.
"Kobieta kroi pomidory na blacie wypełnionym warzywami. Zbliżenie na dłonie, widok z góry, delikatny ruch kamery":
"Mężczyzna w pomarańczowej koszulce z białym napisem BENCHMARK siedzi pod drzewem. Na drzewie zamiast liści rosną smartfony. Humanoidalny robot podchodzi do drzewa, zrywa jeden smartfon i podaje mężczyźnie. W tle widać ubogą średniowieczną osadę. Powolny ruch kamery":
"Ujęcie z drona na miniaturę Warszawy zbudowanej z klocków LEGO. Kamera mija Pałac Kultury i zbliża się do ulicy, po której poruszają się zabawkowe pojazdy i ludziki":
"Młoda dziewczyna w pomarańczowej sukience siedzi na ławce w centrum miasta i gra na gitarze zrobionej ze szkła. Wszyscy przechodnie są ubrani na niebiesko. Kinowa stylistyka":
"Styl kreskówki Disneya z lat 30. XX wieku. Humanoidalna żyrafa z zabawnym wyrazem twarzy biegnie za odjeżdżającym pociągiem, ale w ostatniej chwili przewraca się o skórkę od banana. Ludzie na peronie wytykają żyrafę palcami i pękają ze śmiechu":
"Mężczyzna idzie przez osiedlowy sklep. Na wszystkich półkach znajdują się wyłącznie żywe żaby. Widok z kamery przymocowanej do sklepowego wózka. Amatorska stylistyka":
Veo 2 w Gemini zaskoczyło mnie swoim działaniem. Co prawda sztuczna inteligencja Google’a ma problemy z precyzyjnym wykonaniem polecenia (postaci nie robią dokładnie tego, co miały), ale efekty są zaskakująco realistyczne jak na sztuczną inteligencję. A realizm to coś, z czym konkurencyjne modele mają największe problemy, bo często nawet najprostsze sceny w wykonaniu AI wyglądają jak jakiś abstrakcyjny sen. Tymczasem w przypadku Gemini większości filmów dałoby się z powodzeniem użyć w jakimś projekcie wideo.
Istnieją jednak ograniczenia techniczne. Na ten moment każde wygenerowane przez Gemini wideo ma rozdzielczość 720p, orientację poziomą i trwa 8 sekund. W przypadku Sory każdy z tych parametrów można zmienić. Model Google’a nie potrafi ponadto robić filmów ze zdjęć, z czym technologia OpenAI sobie radzi.
Co z ograniczeniami? Google informuje, że istnieje miesięczny limit liczby generowanych filmów, ale nie podaje dokładnej wartości (choć użytkownik ma być z wyprzedzeniem informowany o zbliżaniu się do końca limitu). Dodatkowo algorytm został zabezpieczony przed tworzeniem treści nielegalnych i niemoralnych, a każda klatka filmu ma cyfrowy znak wodny SynthID, który informuje oprogramowanie o tym, że treść została wygenerowana przez sztuczną inteligencję.
Komentarze
0Nie dodano jeszcze komentarzy. Bądź pierwszy!