Internet

Gemini nauczył się nowej sztuczki. AI Google’a generuje wideo i to zaskakująco dobrze

przeczytasz w 2 min.

Google zintegrował swojego wirtualnego asystenta Gemini z modelem Veo 2, który odpowiada za generowanie filmów na podstawie słownych opisów. Sprawdziłem nową funkcję w akcji i jestem pod wrażeniem.

Veo 2 Google’a to bezpośrednia konkurencja dla technologii Sora firmy OpenAI. Działa to tak, że użytkownik wpisuje szczegółowy opis sceny, a sztuczna inteligencja tworzy opisany film. 

Model Veo 2 został właśnie zintegrowany z wirtualnym asystentem Gemini, dzięki czemu stał się szerzej dostępny i łatwiejszy w obsłudze. 

Gemini w Veo 2: jak generować wideo AI?

15 kwietnia Google rozpoczął udostępnianie modelu Veo 2 użytkownikom usługi Gemini Advanced. Wymaga ona wykupienia abonamentu Google One AI Premium, który kosztuje 97,99 zł miesięcznie, ale do wybranych telefonów Google’a i Samsunga dokładany jest w prezencie. 

Veo 2 dostępne jest z poziomu rozwijanej listy modeli na górze ekranu. Użytkowników Gemini Advanced powinien także przywitać ekran powitalny, informujący o możliwości skorzystania z nowej funkcji. 

Z informacji prasowej wynika, że z generatora filmów Veo 2 można korzystać za pośrednictwem strony gemini.google.com oraz aplikacji mobilnej Gemini. W moim przypadku funkcja dostępna jest jednak póki co jedynie w wersji przeglądarkowej. 

Takie filmy AI generuje Gemini. Veo 2 - test

Google zaprosił mnie do udziału w testach nowej funkcji Gemini, dzięki czemu mogłem ją sprawdzić dobę przed oficjalnym uruchomieniem. Wygenerowałem kilka filmów posługując się m.in. promptami, których kilka tygodni temu użyłem w teście konkurencyjnej Sory

"Kobieta kroi pomidory na blacie wypełnionym warzywami. Zbliżenie na dłonie, widok z góry, delikatny ruch kamery": 

"Mężczyzna w pomarańczowej koszulce z białym napisem BENCHMARK siedzi pod drzewem. Na drzewie zamiast liści rosną smartfony. Humanoidalny robot podchodzi do drzewa, zrywa jeden smartfon i podaje mężczyźnie. W tle widać ubogą średniowieczną osadę. Powolny ruch kamery":

"Ujęcie z drona na miniaturę Warszawy zbudowanej z klocków LEGO. Kamera mija Pałac Kultury i zbliża się do ulicy, po której poruszają się zabawkowe pojazdy i ludziki": 

"Młoda dziewczyna w pomarańczowej sukience siedzi na ławce w centrum miasta i gra na gitarze zrobionej ze szkła. Wszyscy przechodnie są ubrani na niebiesko. Kinowa stylistyka": 

"Styl kreskówki Disneya z lat 30. XX wieku. Humanoidalna żyrafa z zabawnym wyrazem twarzy biegnie za odjeżdżającym pociągiem, ale w ostatniej chwili przewraca się o skórkę od banana. Ludzie na peronie wytykają żyrafę palcami i pękają ze śmiechu": 

"Mężczyzna idzie przez osiedlowy sklep. Na wszystkich półkach znajdują się wyłącznie żywe żaby. Widok z kamery przymocowanej do sklepowego wózka. Amatorska stylistyka":

Veo 2 w Gemini zaskoczyło mnie swoim działaniem. Co prawda sztuczna inteligencja Google’a ma problemy z precyzyjnym wykonaniem polecenia (postaci nie robią dokładnie tego, co miały), ale efekty są zaskakująco realistyczne jak na sztuczną inteligencję. A realizm to coś, z czym konkurencyjne modele mają największe problemy, bo często nawet najprostsze sceny w wykonaniu AI wyglądają jak jakiś abstrakcyjny sen. Tymczasem w przypadku Gemini większości filmów dałoby się z powodzeniem użyć w jakimś projekcie wideo. 

Istnieją jednak ograniczenia techniczne. Na ten moment każde wygenerowane przez Gemini wideo ma rozdzielczość 720p, orientację poziomą i trwa 8 sekund. W przypadku Sory każdy z tych parametrów można zmienić. Model Google’a nie potrafi ponadto robić filmów ze zdjęć, z czym technologia OpenAI sobie radzi. 

Co z ograniczeniami? Google informuje, że istnieje miesięczny limit liczby generowanych filmów, ale nie podaje dokładnej wartości (choć użytkownik ma być z wyprzedzeniem informowany o zbliżaniu się do końca limitu). Dodatkowo algorytm został zabezpieczony przed tworzeniem treści nielegalnych i niemoralnych, a każda klatka filmu ma cyfrowy znak wodny SynthID, który informuje oprogramowanie o tym, że treść została wygenerowana przez sztuczną inteligencję. 

Komentarze

0
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.

    Nie dodano jeszcze komentarzy. Bądź pierwszy!

Witaj!

Niedługo wyłaczymy stare logowanie.
Logowanie będzie możliwe tylko przez 1Login.

Połącz konto już teraz.

Zaloguj przez 1Login