Microsoft opracował nowy model sztucznej inteligencji, który pozwala animować zdjęcia pod wpływem wygenerowanego dźwięku. Efekty wyglądają oszałamiająco, ale mogą być też niebezpieczne.
Rozwój sztucznej inteligencji przyspiesza dzięki zaawansowanym modelom uczenia maszynowego, które oferują coraz lepsze możliwości. Przykład? Microsoft opracował nowy model sztucznej inteligencji, który pozwala animować statyczne zdjęcia ludzi.
Zwykłe zdjęcie może zacząć mówić
Model Microsoft VASA-1 pozwala animować zdjęcia portretowe ludzi, synchronizując je z nagraniami dźwiękowymi. Efekty wyglądają zdumiewająco, bo zwykłe zdjęcia mogą być przekształcone w realistyczne nagrania mówiących lub śpiewających osób.
Microsoft wykorzystał do eksperymentów nieistniejące, wygenerowane portrety z StyleGAN2 i DALL-E 3. Nowa funkcja działa na realistycznych zdjęciach ludzi i bajkowych awatarach. Ciekawostką jest także… wykorzystanie wizerunku sławnej Mony Lisy.
Model VASA-1 jest w stanie nie tylko wykonywać zsynchronizowane ruchy warg, ale także uchwycić szerokie spektrum niuansów twarzy i naturalnych ruchów głowy, które przyczyniają się do uzyskania większego realizmu wygenerowanej animacji.
Nowy model pozwala tworzy filmy o rozdzielczości 512 x 512 pikseli z szybkością 45 kl./s w trybie offline, ale może też generować nagrania online z szybkością do 40 kl./s przy opóźnieniu wynoszącym zaledwie 170 ms (w przypadku komputera stacjonarnego z kartą graficzną NVIDIA GeForce RTX 4090).
Nowa technologia może być niebezpieczna
Microsoft podkreśla, że badania naukowców skupiają się na generowaniu animacji dla wirtualnych portretów i nie mają na celu tworzenia treści do oszukiwania. Gigant jest jednak świadomy, że technologia potencjalnie może być wykorzystana do podszywania się pod innych ludzi.
W oświadczeniu na swojej stronie, firma sprzeciwia wykorzystaniu nowego modelu do wszelkich zastosowań, które mogłyby wprowadzać w błąd lub tworzyć szkodliwe treści z wykorzystaniem wizerunku prawdziwych osób. Microsoft nie planuje udostępnić wersji demonstracyjnej, interfejsu API czy kompletnego produktu. Jednocześnie jest zainteresowany wykorzystaniem technologii w celu usprawnienia wykrywania fałszerstw.
Źródło: Microsoft
Komentarze
3"Nowy model pozwala tworzy filmy "
Niech żyje korekta na benchmark.pl. Gratulacje, gratulacje
A odnośnie wideo. Te z pierwszego filmiku moim zdaniem wydają się mało naturalne. Podczas gdy te z drugiego już takie są. Także nieźle.