A banánt evő kék majom esete - Avagy kipróbáltuk hogyan teljesít az új DALL-E 3
A hétvégén elérhetővé vált a DALL-E 3, az OpenAI képalkotójának frissített verziója a Microsoft Bing Chatben és Image Creatorban. De lépjünk is vissza egyet és tisztázzuk mi micsoda.
A Bing Chat a Microsoft mesterséges intelligencia alapú chatbot megoldása, amely az OpenAI népszerű ChatGPT 4 nyelvi modelljére épül. De miben különbözik mégis? Bár a ChatGPT központi eleme a platformnak, a Microsoft egy Prometheus névre keresztelt technológiát is kifejlesztett. Ez a technológia lehetővé teszi a chatbot számára, hogy kapcsolódjon a Bing keresőmotorhoz, így gyorsabb és pontosabb válaszokat tud adni. Ezáltal lehetővé válik a Bing Chaten belül a naprakész internetes keresés is, melyet hivatkozás linkek tesznek visszakövethetővé.
A Bing Chat azonban nem korlátozódik a szöveges válaszokra, az OpenAI DALL-E modelljével is integrálódik, így képeket is létre tud hozni a chaten belül. Ezt a funkciót a Microsoft "Image Creator"-nak nevezi, és egy külön linkről is elérhető.
De vajon miért is fonódik össze az OpenAI chat illetve képszerkesztő megoldása a Microsoft Bing Chat-el? Hiszen a Bing Chat riválisa a ChatGPT-nek, így nem túl logikus a felállás. Nem titkos információ azonban, hogy a Microsoft befektetőként áll az OpenAI mögött, így már érthetőbb a partneri viszony.
A múlt hét egyik nagy AI híre volt, amiről mi is írtunk, hogy októberben elérhetővé válik a DALL-E frissített hármas verziója. Sokan izgatottan vártuk, hogy kipróbáljuk mit is tud. A hétvége óta a DALL-E 3 már elérhető és kipróbálható mind a Bing Chat-en, mind pedig az Image Creatoron belül.
Szeretünk minden újdonságot kipróbálni, ezért ma ezt meg is tettük. Mivel a Bing Chat rendkívül leterhelt volt, ezért az Image Creator-on belül teszteltük az frissített DALL-E megoldást. Az Image Creatornál is érzékelhető volt a lassúság, jelzi is a rendszer a várakozási időt (akár 10-30 perc!!) de azért sikerült 1-2 képet legenerálni. Lássuk mik is a tapasztalatok!
Akár több állat egy képen:
A többi képalkotó megoldással szemben itt már lehetőség van arra, hogy egy képen belül több karaktert (pl. állatot) is megjelenítsünk, nagyobb hibák nélkül. Egy projekt kapcsán korábban sokat küzdöttünk ezzel a Midjourney-ben, jó végeredmény nélkül. Ezt a problémát a DALL-E 3 elsőre megugrotta, ami alább látható is. Azt alábbi parancsot adtuk neki: “Illusztráció egy mókusról és egy bagolyról akik mogyorós sütit sütnek”. Erre az alábbi 4 verziót kaptuk:
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1bfdf89e5920711e67ee_AfXi_y_cWMsJQYUF3vrJcPV37XcEBjLKmaIiRlag_3u0KC6lr8tGXtI2OeqgX5PX6rhegFJpqHevT4PaLlfCyumUuIeXmIx_3DKLPZZe0HfB18ClaAUO7BOga5LEyAFaZyWvBZZWCfb50riD-XPfzxU.png)
A képek között elsőre találunk olyat, ami teljesen megfelel a kérésünknek, jól látható mind a mókus mind pedig a bagoly karaktere akik mogyorós sütit sütnek. A kérés egészen komplex és jól lehozta a program. Ezzel szemben a Midjourney sajnos még mindig küzd a több karakter megjelenítésének problematikájával. Ugyanerre a parancsra ezt kaptuk:
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1c584dc8c8b675d7633f_4jbG71FF-cFtOA-FrOf8Jr4-LVbz3NmU6Horme1cY_WhvOqfXPbMocxLr7blahehWxarKhar-FY5eFYpwGdhSUR0yFysXd-WLG9SQOuGEMky-zEa_PcxhtK2qx-hbJjvo5dgl7hwCTB7QZLTHmo04kc.png)
Sajnos látható hogy a Midjourney még mindig nem tud megjeleníteni pontosan 2 előre definiált karaktert.
Komplex kérések értelmezése:
A DALL-E 3 nagyon jó abban, hogy akár komplex kéréseket is értelmezve, jó eredményeket hozzon. Lássuk az alábbi utasítást: “watercolor illustration of a blue monkey sitting on a tree, eating banana”. Ezt a megoldást kaptuk, ami rendkívül pontos:
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1cbbfe0f6fbcf5593c35_RYgQqO13KWNvUM-yrYRNg6ZqDYvJ-b015YIJnsv8-46EA0Qmf8-HTpRMIoz9OhlHndbj3BjWZqnuRxznnsxvrYc2h3QNedq3HNsyDysTulBIEj33GJ2WPvcjB_4LS5TFR5gHGsgXuiyGncEOe6SFBbE.png)
Ezzel szemben a Midjourney sajnos belebukott a komplex kérésbe, annak ellenére hogy a vízfesték tulajdonságot nagyon szépen megjelenítette, a banán, ami egy fontos része volt a kérésnek, valahogy már túl sok volt neki és lemaradt, az alábbi eredményt hozva:
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1d149e8a4048e9b01b7d_zm5xrU0J3CC3hREXQ-Anw8hrL1OmoBnlvduO8y7IOKHBZ9cq1x7ziW0OgPB0gkSZ-8rcYG5RbFyvSccGDQstZb9YcmhNUpGYROHoqt2XcRakT6SjUkdpQ1V_dpPql4A1QYC30tfeyaUCeijEJp3mI94.png)
Szövegek, feliratok
A DALL-E 3 másik újítása, hogy már konkrét szöveget is tudunk kérni a képekre. Lássunk erre is egy példát. Az alábbi promptot fogalmaztuk meg: “Kérlek mutass egy illusztrációt egy robotról, aki egy táblát tart a kezében rajta az alábbi felirattal: xLabs”
Itt már nagyon terhelt volt a rendszer, 1 órás várakozási időt írt ki nekünk…
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1d715880d7d2b64db822_hwcq7AnQ6IyS6kmHzuLbqmKr7i044nB3Jy8w5bl5xOlFS-6rZXxswKCx1BaNenPfWzMrx00WeUOnyJDIsR1zGUDPumhaNtReTXst1DVc5p9mhl9gUbDwUDKU1FfsjsiFfjtMNCQDFT48zexvUtc9WLw.png)
Végül az alábbi eredményeket kaptuk:
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1d94c5f7cee8e5be186e_AFNe90320UE-eBE0292L313ZNSpwEPCQxcFZrY2MAmB1nB2DRUMQBVNMLII9vaScM-ET4nqmzp9iD5Zmoh2TdQYPUgzG_2FMjzLeTi8SRJQ2nCtI_XzcqRYHDoIlNwG2XYRrk18f7kHRPwwSW3vFkNc.png)
![](https://cdn.prod.website-files.com/6066fd8abc55def880523995/651b1e5dfbbe7cefe14545fa_r8Q9QusZ1FNvtBroD3eDHJh7iSenub_TkK9d6RT-jQfOU3d7Pzmzn78yHujX0sEXUKBupY_EYiFUhLk_NC8LrfGqMja0zK4z_jdzANxRr9guBWUcomkQzs5_6mFFZCNKNTMQ12pMVsNG4E3dira54l4.png)
A mai napon ennyi tesztelés fért bele a program túlterheltsége miatt, de még sok kérdés maradt bennünk. Például már nagyon várjuk, hogy megnézzük, hogyan bír el a DALL-E 3 a fotórealisztikus vonallal, illetve hogy hogyan tudjuk majd a chat-en keresztül (akár Bing chat akár ChatGPT) a képeket tovább alakítani, finonmítani, elérve akár azt is, hogy egy adott karaktert több helyzetben tudjuk megjeleníteni úgy, hogy közben a karakter kinézete változatlan marad. Ezen tesztek eredményéről majd egy újabb blog cikkben jelentkezünk!
Addig is ha érdekel a generatív AI világa, jelentkezz bootcamp képzésünkre, ahol 6 héten keresztül, minden héten egy adott témában merülünk el a termékfejlesztéstől kezdve a marketingen át a filmes tartalomgyártásig, oktatásig, érintve a jogi és etikai környezetet is. Jelentkezz ITT!