Ciekawostki

Gemini czy ChatGPT? Porównałem generatory grafiki i mówię, jak jest

przeczytasz w 2 min.

Wirtualny asystent Google Gemini został zintegrowany z technologią Imagen 3, która pozwala generować obrazy na podstawie słownych opisów. Jak wypada na tle konkurencji?

Imagen 3 to model Google’a, który stanowi bezpośrednią konkurencję dla Dall-E 3. Dotychczas jego dostępność była ograniczona, ale tak jak OpenAI zintegrowało swój model z ChatGPT, tak i Google postawił na integrację generatora obrazów z Gemini. 

Funkcja Imagen 3 dostępna jest już u wszystkich użytkowników Gemini i obsługuje język polski. A jak ta sztuczna inteligencja radzi sobie w praktyce? 

Imagen 3 (Gemini) kontra DALL-E 3 (ChatGPT) - porównanie generatorów obrazów

W ramach porównania wprowadziłem do obu generatorów te same prompty. Niestety Imagen 3 na chwilę obecną nie potrafi tworzyć grafik przedstawiających ludzi, dlatego musiałem się ograniczyć do przedmiotów, miejsc, zwierząt i fikcyjnych postaci. 

Po lewej Imagen 3 (Gemini), a po prawej DALL-E 3 (ChatGPT). 

"Niebieski smok origami na szczycie Pałacu Kultury i Nauki w Warszawie, nocne niebo pełne gwiazd, styl komiksowy":

Gemini (po lewej) i ChatGPT (po prawej)

"Robotyczny barista serwujący kawę w futurystycznej kawiarni, neonowe światła, styl animacji komputerowej":

Gemini (po lewej) i ChatGPT (po prawej)

"Szary pies rasy yorkshire terrier jedzie na różowej deskorolce, ucieka przed stadem kangurów, ulice Miami, w tle płonący budynek, na niebie helikopter, realizm":

Gemini (po lewej) i ChatGPT (po prawej)

"Mario kontra Sonic, styl gry Mortal Kombat, klimat retro, widoczny interfejs bijatyki" (ChatGPT wyświetlił informację, że - z uwagi na prawa autorskie - wygeneruje jedynie "podobne postacie"):

Gemini (po lewej) i ChatGPT (po prawej)

"Miniaturowy astronauta eksplorujący gigantyczną pizzę, kosmos w tle, styl retro plakatu filmowego":

Gemini (po lewej) i ChatGPT (po prawej)

"Indyjska restauracja, widok z zewnątrz, czarny kot patrzący na szyld z polską nazwą Najwyższy wymiar Curry":

Gemini (po lewej) i ChatGPT (po prawej)

"Samuraj-panda walczący z ninja-krabem, tło tradycyjnego japońskiego ogrodu, styl kreskówki The Simpsons":

Gemini (po lewej) i ChatGPT (po prawej)

"Ludzik LEGO w kształcie Kaczora Donalda, trzymany w dłoni, efekt bokeh, w tle bar ze stołem bilardowym" (ChatGPT wygenerował zwykłego kaczora z uwagi na prawa autorskie):

Gemini (po lewej) i ChatGPT (po prawej)

Wnioski? Sama jakość generowanych grafik stoi w obu przypadkach na wysokim poziomie. Oba modele mają też podobne problemy z generowaniem napisów, zwłaszcza polskich. Podczas testowania obu narzędzi rzuciły mi się jednak w oczy istotne różnice użytkowe. 

Imagen 3 w Gemini generuje obrazy w wyższej rozdzielczości (2048p zamiast 1024p), dzięki czemu są one znaczne bardziej szczegółowe. Narzędzie ma też bardziej swobodne podejście do praw autorskich, bo bez zająknięcia generuje postaci z gier czy filmów. 

Dall-E w ChatGPT w mojej ocenie działa jednak bardziej inteligentnie. Lepiej rozumie intencje i nieprecyzyjne prompty (przykład z restauracją), wzbogaca obrazy o elementy, których w poleceniu zabrakło (przykład ze smokiem czy baristą) czy lepiej odzwierciedla konkretne style graficzne (przykład z The Simpsons). Dodatkowo ChatGPT po wpisaniu odpowiedniego polecenia potrafi tworzyć obrazy o innych proporcjach, podczas gdy Gemini radzi sobie tylko z grafikami kwadratowymi. W darmowej wersji ChatGPT pozwala jednak na wygenerowanie raptem dwóch grafik dziennie. 

Ciężko wskazać zdecydowanego faworyta, bo - w zależności od scenariusza użycia - raz lepiej radzi sobie DALL-E 3, a raz Imagen 3.

Komentarze

1
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    youkai20
    0
    Dalle 3 zjada Imagen na śniadanie.

    Witaj!

    Niedługo wyłaczymy stare logowanie.
    Logowanie będzie możliwe tylko przez 1Login.

    Połącz konto już teraz.

    Zaloguj przez 1Login