Yapay zeka sistemleri, herhangi bir yazılımla yalnızca bir ekran arayüzü aracılığıyla otonom olarak etkileşim kurmak için gerçekten “genel bilgisayar kontrolüne” ulaşabilir mi? Araştırmacılar kısa süre önce ChatGPT’yi en sürükleyici ve karmaşık oyunlardan biri olan Red Dead Redemption 2’yi oynayarak test etti. ChatGPT Red Dead Redemption oyununu nasıl oynadı? Gelin birlikte bakalım.
RDR2’nin Zorluğu
Rockstar Games’teki tasarımcılar RDR2’nin yaşayan, reaktif açık dünyasını hazırlamak için yıllarını harcadı. Sınırdaki yerleşim yerlerinde, ormanlarda ve dağlarda gezinmek, normalde yazılımdan beklediğimizin çok ötesinde bir görsel keskinlik gerektiriyor. Araştırmacılar bunu bir yapay zekanın bilgisayar kontrol yetenekleri için nihai stres testi olarak seçtiler.
Red Dead Redemption 2, zengin ortamları, çeşitli görevleri ve dışarıdan yardım almak yerine oyun içi talimatlara dayanması nedeniyle stratejik bir seçimdi. Fare/klavye kontrolleri de tipik bir yazılıma göre daha fazla engel teşkil ediyordu. Araştırmacılar, bir yapay zekanın bir insan gibi genel bilgisayar becerilerini öğrenme yeteneğini gerçekten değerlendirmek istediler.
CRADLE: Bilgisayar Kontrolü için Bir Çerçeve
ChatGPT’yi RDR2 ile arayüzlemek için araştırmacılar, oyun durumu ve çıktı klavye / fare komutları hakkında mantık yürütmek için görsel ipuçları çıkaran CRADLE’ı tanıttı. Bilgi toplama, kendini yansıtma, görev çıkarımı ve daha fazlası için modüller içeriyordu. Bu çerçeve ChatGPT’yi oyunda otonom olarak ilerlemesi için donatabilir mi?
CRADLE, hikaye görevlerini tamamlamada karışık bir başarıya yol açarken, araştırmacılar görsel tanımayı büyük bir engel olarak belirlediler. ChatGPT mekânsal farkındalık, simge anlayışı ve engellerle mücadele etti. “Dünya modeli” RDR2’de gerekli olan incelikli çevresel muhakemeden yoksundu.
Araştırmacılar bu başarısızlıkları GPT-4V’nin bilgisayar görüşü yeteneklerindeki sınırlamalara bağlıyor. Haritalar, simgeler ve engelleri algılamada sorun yaşadı.
İlerleme Kaydedildi Ancak Sınırlar Ortaya Çıktı
Proje, yapay zeka için bilgisayar kontrolünü geliştirdi. Ancak RDR2, mevcut sistemlerin yazılım çeşitliliğiyle özerk bir şekilde etkileşim kurmak için gereken esnek ve kapsamlı görsel işleme konusunda ne kadar yetersiz kaldığını ortaya koydu. Bu tür bir çeşitlilik algısı geliştirmek, gerçek anlamda genel yapay zekaya giden yolda önemli bir zorluk olmaya devam ediyor.
This experiment built a GPT-4 powered agent to play Red Dead Redemption 2, learning the gameplay from the initial tutorials.
— Ethan Mollick (@emollick) April 14, 2024
It does pretty well on the first couple of missions, the main limitation seems to be the GPT-4V vision system, which can struggle to understand everything pic.twitter.com/FpeQ9sRVV8
Sıkça Sorulan Sorular
Red Dead Redemption II üzerine araştırma makalesinin odak noktası nedir?
Araştırma makalesi, Red Dead Redemption II’yi (RDR2) bir vaka çalışması olarak kullanarak yapay zeka (AI) ajanları için Genel Bilgisayar Kontrolü (GCC) kavramına odaklanmaktadır. Bir YZ’nin RDR2 oynamasını sağlamanın zorluklarını araştırmakta ve YZ’nin oyun oynama yeteneklerinin performansını değerlendirmektedir.
Genel Bilgisayar Kontrolü (GCC) nedir?
Genel Bilgisayar Kontrolü (GCC), YZ ajanlarının ekran görüntülerini ve muhtemelen sesi girdi olarak alarak ve çıktı olarak klavye ve fare işlemleri üreterek herhangi bir bilgisayar görevinde ustalaşma yeteneğini ifade eder. YZ ajanlarının bilgisayarlarla insan-bilgisayar etkileşimine benzer bir şekilde etkileşime girmesini sağlamayı amaçlamaktadır.
Makalede bahsedilen CRADLE çerçevesi nedir?
CRADLE çerçevesi,
GPT-4V AI modeli ile Red Dead Redemption II arasında arayüz oluşturmak için kullanılan altı modüllü bir ajan çerçevesidir. Bilgi toplama, kendini yansıtma, görev çıkarımı, beceri iyileştirme, eylem planlama ve hafıza modüllerini içerir. Çerçeve, GCC’yi desteklemek üzere tasarlanmıştır ve diğer oyunlara ve yazılım uygulamalarına genişletilebilir.
Çalışma için neden Red Dead Redemption II seçildi?
Red Dead Redemption II, karmaşık bir kontrol sistemine sahip olduğu ve oyuncuların gezinmesi için zengin ortamlar ve çeşitli durumlar sunduğu için çalışma için seçilmiştir. Oyun aynı zamanda diyaloglar, benzersiz simgeler, yönlendirmeler ve talimatlar gibi kullanıcı arayüzü unsurları içerdiğinden yapay zeka öğrenimi için de uygundur. Ayrıca araştırmacılar, oyunu fare ve klavye ile kontrol etmenin GCC için daha iyi bir test sağladığına inanıyorlardı.
CRADLE’ın Red Dead Redemption II’deki performansına ilişkin çalışmanın bulguları nelerdir?
Çalışma, CRADLE’ın Red Dead Redemption II oyununda orta derecede başarılı olduğunu ortaya koymuştur. Ana hikayedeki tüm görevleri tutarlı bir şekilde tamamlayabilmiştir. Bununla birlikte, hızlı tempolu silahlı savaşları içeren görevler ve karmaşık iç mekan ortamlarını keşfetmek gibi bazı istisnalar vardı. Araştırmacılar bazı zorlukları GPT-4V modelinin uzamsal-görsel tanıma kabiliyetine bağladılar.
Kaynak
- Tan, W., Ding, Z., Zhang, W., Li, B., Zhou, B., Yue, J., Xia, H., Jiang, J., Zheng, L., Xu, X., Bi, Y., Gu, P., Wang, X., Karlsson, B.F., An, B., & Lu, Z. (2024). Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study. ArXiv, abs/2403.03186.
- Tom’s Hardware
Bir yanıt yazın