Genie 2 dari DeepMind Menciptakan Dunia Interaktif Seperti Video Game

Genie 2, penerus model Genie sebelumnya dari DeepMind, dapat membuat adegan interaktif secara real-time dari satu gambar dan deskripsi teks, seperti "Robot humanoid lucu di hutan." Model ini mirip dengan model lain yang sedang dikembangkan oleh World Labs dan startup Israel, Decart. DeepMind mengklaim bahwa Genie 2 dapat menghasilkan dunia 3D yang beragam dan kaya di mana pengguna dapat melakukan tindakan seperti melompat dan berenang menggunakan mouse atau keyboard. Dilatih menggunakan video, model ini dapat mensimulasikan interaksi objek, animasi, pencahayaan, fisika, pantulan, dan perilaku NPC.
Banyak simulasi Genie 2 mirip dengan video game AAA, mungkin karena data latihannya yang kemungkinan mencakup playthrough dari judul populer. Namun, DeepMind tidak mengungkapkan rincian tentang sumber datanya, karena alasan kompetitif. Hal ini menimbulkan pertanyaan hak kekayaan intelektual. Sebagai anak perusahaan Google, DeepMind memiliki akses ke YouTube, dan S&K Google menyatakan bahwa mereka dapat menggunakan video YouTube untuk pelatihan model. Apakah Genie 2 membuat salinan tidak sah dari video game yang "dilihatnya" adalah masalah hukum.
Genie 2 dapat menghasilkan dunia yang konsisten dengan berbagai perspektif, seperti tampilan orang pertama dan isometrik, hingga satu menit, kebanyakan berlangsung 10 hingga 20 detik. Model ini merespons dengan cerdas terhadap tindakan keyboard, menggerakkan karakter dengan benar. Sebagian besar model dunia seperti Genie 2 dapat mensimulasikan permainan dan lingkungan 3D tetapi sering menghadapi masalah seperti artifacting, konsistensi, dan halusinasi. Misalnya, simulator Minecraft dari Decart, Oasis, memiliki resolusi rendah dan cepat melupakan tata letak level. Sebaliknya, Genie 2 dapat mengingat dan merender dengan akurat bagian-bagian adegan yang tidak terlihat saat menjadi terlihat lagi.
Permainan yang dibuat dengan Genie 2 mungkin tidak terlalu menyenangkan karena kemajuan direset setiap menit. Oleh karena itu, DeepMind memposisikan model ini sebagai alat penelitian dan kreatif untuk membuat prototipe pengalaman interaktif dan mengevaluasi agen AI. Kemampuan generalisasi Genie 2 memungkinkan seni konsep dan gambar menjadi lingkungan interaktif sepenuhnya, membantu peneliti dalam membuat tugas evaluasi baru untuk agen AI.
Pengembangan ini mungkin menimbulkan perasaan campur aduk di kalangan kreatif, terutama di industri video game. Investigasi Wired mengungkapkan bahwa perusahaan besar seperti Activision Blizzard menggunakan AI untuk mengurangi biaya dan meningkatkan produktivitas, sering kali dengan mengorbankan pekerjaan.
Meskipun ada kekhawatiran ini, Google berinvestasi besar-besaran dalam penelitian model dunia, melihatnya sebagai kemajuan signifikan dalam AI. Pada bulan Oktober, DeepMind merekrut Tim Brooks dari OpenAI untuk bekerja pada teknologi pembuatan video, dan dua tahun lalu, merekrut Tim Rocktäschel dari Meta, yang dikenal dengan eksperimennya dengan video game seperti NetHack.
Source : DeepMind's Genie 2 can generate interactive worlds that look like video games | TechCrunch