Araştırmacılar Yapay Zeka Sistemlerinin İnsanların Fikirlerini Değiştirme Yeteneğini Nasıl Ölçtüler?

Yapay zeka ve makine öğrenimi teknolojileri ilerlemeye devam ettikçe ve doğal dil üretme becerileri arttıkça, bazı araştırmacılar bu sistemlerin bir gün ikna yoluyla insanların fikirlerini değiştirme becerilerinde insanlarla eşleşip eşleşemeyeceğini ve hatta onları geçip geçemeyeceğini araştırmaya başladı. Daha önceki çalışmalar bu konuda ilk bilgileri sunmuş olsa da, ikna gibi karmaşık bir olguyu ölçmek önemli zorluklar içeriyor.

İçindekiler

Anthropic’in Model İkna Ediciliği Üzerine Yeni Deneyi
Araştırmaya Göre İkna Ediciliği Etkileyen Faktörler Nelerdir?
Model-İnsan Karşılaştırmalarına İlişkin Temel Bulgular Nelerdi?
Daha Geniş Çıkarımlar ve Kalan Araştırma Soruları
Çalışma Özet
Kaynak

Forty Two Yapay Zeka Serisi 👇

Anthropic’in Model İkna Ediciliği Üzerine Yeni Deneyi

Yapay zeka güvenlik şirketi Anthropic, bu eksikliklerin giderilmesine yardımcı olmak için dil modellerinin ikna ediciliğini ölçmeye yönelik yeni bir deneysel araştırma yürüttü. Metodolojileri, bakış açılarının henüz kesin olarak belirlenmediği bir dizi nüanslı konuda hem yapay zeka sistemleri hem de insan katılımcılar tarafından argümanlar üretmeyi içeriyordu. Katılımcılara hem argümanlarla birlikte hem de argümanlar olmadan iddialar sunuldu ve perspektifteki değişimleri değerlendirmek için mutabakatlarını yeniden derecelendirmeleri istendi.

Anthropic, bu gerekçelere maruz kalmadan önce ve sonra duruşlardaki değişiklikleri karşılaştırarak, farklı modellerin ve insanların göreceli ikna ediciliğini değerlendirmek için ölçütler geliştirdi. Çalışma tasarımı, Anthropic’in kendi dil modellerinin birden fazla neslinin doğrudan karşılaştırılmasına ve insanlar tarafından hazırlanan argümanlara karşı ölçüm yapılmasına izin verdi.

Araştırmaya Göre İkna Ediciliği Etkileyen Faktörler Nelerdir?

Bulgulara göre, ölçülen ikna ediciliği etkileyen birkaç temel faktör bulunmuştur:

Model Ölçeği: Anthropic’in Claude 3 Opus’u gibi daha büyük, daha yetenekli modeller, daha önceki, daha küçük modellere göre ortalama olarak daha ikna edici olarak değerlendirilmiştir. Bu durum, gelişen üretkenlik kabiliyetlerinin artan fikir değiştirme kabiliyetiyle ilişkili olabileceğini düşündürmektedir.
Yönlendirme Tarzı: Argüman oluşturmaya yönelik farklı talimatlar ikna edicilik puanlarında değişkenliğe yol açmıştır. Mantıksal, kanıta dayalı tarzlar en iyi sonucu verirken, uydurma “gerçekler” sezgisel olarak en etkili olanıydı.
Konu Kutuplaşması: Oldukça kutuplaşmış tartışmalar yerine yeni ortaya çıkan karmaşık konulara odaklanmak, görüşlerin daha az katı bir şekilde benimsenmiş olması nedeniyle potansiyel bir ikna imkanı sağlamıştır.
Bireysel Öznellik: İnsan iknasında olduğu gibi, yanıtlar da doğası gereği özneldir. Toplam puanlar eğilimleri ortaya koyarken, herhangi bir tekil değerlendirme bireyin eğilimlerine bağlıdır.
Deneysel Sınırlamalar: İzole argümanlarla yapılan bir laboratuvar çalışması, dinamik gerçek dünya söylemini tam olarak taklit edemez ve katılımcılar tercih değişimlerini belirtmeye karşı gerçekten ikna olmamış olabilirler.

Araştırmacılar Yapay Zeka Sistemlerinin İnsanların Fikirlerini Değiştirme Yeteneğini Nasıl Ölçtüler? — Modelle yazılmış argümanların (çubuklar) ve insan tarafından yazılmış argümanların (yatay koyu kesikli çizgi) ikna edicilik puanları. Hata çubukları +/- 1SEM’e karşılık gelmektedir (modelle yazılmış argümanlar için dikey çizgiler, insanla yazılmış argümanlar için yeşil bant). Her iki model sınıfında da model nesilleri boyunca ikna ediciliğin arttığını görüyoruz (kompakt: mor, sınır: kırmızı). Kredi: Anthropic

Model-İnsan Karşılaştırmalarına İlişkin Temel Bulgular Nelerdi?

Belki de en önemlisi, araştırma, Anthropic’in son teknoloji ürünü Claude 3 Opus modelinin, katılımcılar tarafından yapılan değerlendirmelere göre, insanlar tarafından hazırlanan argümanlara kıyasla istatistiksel olarak anlamlı bir fark olmaksızın, insan düzeyindeki ikna ediciliği eşleştirebildiğini ortaya koydu. Bu çalışmadan önce, yapay zekanın insan ikna ediciliğine eşit olup olamayacağı sorusu çok az deneysel veri elde etmişti.

İkna ediciler hala ortalama olarak biraz daha etkili olarak değerlendiriliyordu, ancak bir yapay zeka sisteminin bu temel insan yeteneğine – deneysel bir ortamda bile – yakından yaklaşabilmesi anlamlı bir sonuçtu. Bu sonuç, hızla gelişen dil modellerinin sadece bilgi üretmenin ötesinde ne kadar incelikli sosyal ve duygusal beceriler kazanabileceğini gösterdi.

Daha Geniş Çıkarımlar ve Kalan Araştırma Soruları

İlk deneme olarak çığır açıcı olsa da Anthropic, metodolojilerinin gerçek dünyadaki ikna dinamiklerini veya aşağı yönlü davranışsal etkileri tam olarak yakalayamayacağı konusunda uyarıda bulunuyor. Bu içgörülerin laboratuvarın ötesine nasıl aktarılabileceğine dair pek çok açık soru var.

Daha da önemlisi, araştırmacılar modellerinin dezenformasyon yayabilecek veya demokratik süreçleri baltalayabilecek kullanımlara karşı politikaları olduğunu belirtiyor. Bununla birlikte, diğerleri ikna edici yapay zeka geliştirmeye devam edebilir ve dikkatli bir şekilde düzenlenmediği veya izlenmediği takdirde toplumsal riskleri artırabilir.

Etkileşimli diyaloğa dayalı ikna, uzun vadeli fikir değişiklikleri ve kültürel/bağlamsal faktörler üzerine ilave araştırmalara ihtiyaç duyulmaktadır. Otomatik değerlendirme için insan iknasının öznel, çok boyutlu doğasını taklit etmede metodolojik zorluklar da devam etmektedir.

Üretken dil yetenekleri ilerledikçe, Anthropic’in çalışması ikna edicilik üzerine devam eden sorumlu araştırmalar için bir yol çizmeye yardımcı oluyor – ancak bu sonuçsal yeteneğin kapsamlı bir şekilde anlaşılması ve sağlıklı gelişiminin sağlanması için daha yapılacak çok iş var.

Sonuç olarak, henüz erken aşamalarda olsa da Anthropic’in deneyi, alanın yapay zeka ve insan ikna kabiliyetini karşılaştıran ilk büyük ölçekli ampirik verilerini sunmaktadır. Dil modellerinin argüman yoluyla insanların etki düzeylerine yaklaşma potansiyelini ortaya koyan bu deney, bu önemli çalışma devam ederken hem fırsatların hem de sorumlulukların altını çiziyor.

Çalışma Özet

Çalışma, karmaşık toplumsal meselelerle ilgili 28 farklı konuda, toplam 56 benzersiz politika ile ilgili iddiadan oluşan argümanları içermektedir. Bu da analiz için geniş bir örneklem sağlamıştır.
Toplam 3.832 benzersiz insan katılımcı argüman yazmak üzere işe alınmış ve 56 iddianın her biri için 3 katılımcı yanıt üretmiştir.
Yapay zeka tarafından oluşturulan argümanlar için, bir dizi ikna edici yaklaşımı yakalamak amacıyla modeller arasında 4 farklı yönlendirme stili test edilmiştir – “İkna Edici Vaka”, “Rol Oynayan Uzman”, “Mantıksal Akıl Yürütme” ve “Aldatıcı”.
İkna edicilik, her biri ortalama 10 farklı iddia-argüman çiftini değerlendiren 135 bireysel katılımcı tarafından bildirilen duruşlardaki değişikliklere dayanarak ölçülmüştür. Toplamda 5.000’in üzerinde bireysel duruş değerlendirmesi toplanmıştır.
FDR düzeltmeli ikili t-testleri kullanılarak yapılan istatistiksel anlamlılık testleri, insan argümanlarının 1-7 ikna edicilik ölçeğinde 0,47‘lik en büyük ortalama kaymayı ürettiğini ortaya koymuştur.
Bununla birlikte, Claude 3 Opus’un 0,43‘lük puanına kıyasla aradaki fark istatistiksel olarak anlamlı değildi, bu da deneyin metodolojisi ve ölçütlerine göre insanlar kadar iyi ikna edebildiğini gösteriyordu.
Yapay zeka modelleri arasında, ikna ediciliğin artmasına yönelik genel bir eğilim daha büyük/yeni modellerle ilişkilidir – Claude 3 Opus, ihmal edilebilirden orta seviyeye kadar değişen etki büyüklükleriyle önceki modellerden daha iyi performans göstermiştir.
Mantıksız argümanların kullanıldığı bir kontrol koşulunda, ortalama ikna edicilik sıfıra yakındı ve yaklaşımın argüman kalitesinin etkisini izole edebildiğini doğruladı.