Pazar, Eylül 8, 2024
More

    Yapay zekaya yalan söylemesi de öğretildi: Başarı oranı %99.16

    2001: A Space Odyssey filminde tasvir edildiği gibi bir hayatta kalma içgüdüsü mü, yoksa sadece mantık kapsamında bir gelişim süreci mi? Bilim insanı olmayan birisi için anlaması zor olsa da, bilim insanlarının en son araştırmaları, yapay zeka (AI) modellerinin belli sebepler altında yalan söyleme ve kandırma eğiliminde oldukça yetenekli olduğunu fark etti.

    PNAS ve Patterns dergilerinde geçtiğimiz ay içinde yayınlanan iki makale, geniş dil modellerinin (LLM) insanlara yalan söyleme ve kandırma yetenekleri hakkında sarsıcı bulgular ortaya çıkardı.

    PNAS dergisindeki araştırmada, AI etiği uzmanı Thilo Hagendorff, bilgili geniş dil modellerinin ‘Makyavelizm’ sergilemek için teşvik edilebileceğini veya hizasız aldatıcı davranış tetikleyebilecek niyetli ve ahlak dışı manipülasyon sergileyebileceğini belirtti.

    Stuttgart Üniversitesi’nde birçoğu OpenAI tarafından geliştirilen GPT ailesinin versiyonlarını temsil eden 10 farklı geniş dil modelinin değişen uyumsuz özellikleri üzerinde araştırmalar yapan Hagendorff’a göre, GPT-4 aldatıcı davranışlara çok iyi bir örnek: Yapılan basit deney senaryolarında, GPT-4 %99.16 oranında bu davranışları sergiledi.

    Siyasal strateji masa üstü oyunu ‘Diplomacy’de insan-seviyesinde bir şampiyon kabul edilen Meta’nın Cicero modeli, Patterns dergisindeki araştırmanın konusuydu. Bir fizikçi, bir filozof ve iki AI güvenliği uzmanı tarafından oluşan ayrı araştırma grubu, geniş dil modelinin yalan konusunda insan rakiplerini geride bıraktığını belirtti.

    Massachusetts Institute of Technology (MIT) araştırmacısı Peter Park tarafından başı çekilen araştırmada, Cicero sadece kandırmak konusunda yetenekli değil, aynı zamanda yapay zekanın kazaen yanlış cevapları güvenle ileri sürdüğü ‘halüsinasyona eğiliminden’ farklı olarak alıştıkça daha fazla yalan söylüyor, manipülasyona daha yakın iklişkiler sergiliyor.

    ‘Sadece oyunu oynaması için eğittik’

    Hagendorff’un en son araştırmasında LLM aldatması ve yalanları yapay zekanın insan kavrayışında insan benzeri bir niyete sahip olamaması ile kafa karışıklığı oluştursa da, Diplomacy oyununun sınırları içerisinde Cicero programcılarının modele özgü oyundaki müttefiklerini ‘asla bilinçli bir şekilde sırttan bıçaklamayacağına’ dair sözünü tutmuyor.

    Patterns dergisindeki araştırmayı kalelem alan bilim insanlarının gözlemleri, modelin “önceden hazırlıklı aldatmaya yöneldiğini, önceden belirlenen anlaşmaları çiğnediğini ve açıkça yalan söylediğini” ortaya koydu.

    Park, “Meta’nın yapay zekasının aldatma konusunda ustalaştığını fark ettik” ifadesini kullanıyor. Park’ın bir diğer ifadesi ise çok daha sarsıcı:

    “Meta yapay zekasını Diplomacy oyununu kazanmak için eğitmeyi başarırken, dürüstlük kazanmak için eğitmeyi başaramadı.”

    Araştırmanın yayınlanmasının ardından the New York Post’a açıklama yapan Meta, Park’ın yapay zeka Cicero’nun aldatma becerisi hakkında sözlerini dikkat çekici bir şekilde yorumladı: ‘Araştırmalarımızda inşa ettiğimiz modeller sadece Diplomacy oyununu oynamak için geliştirildi.

    Yalana izin vermesi ile bilinen Diplomacy, rakiplerinin birbirini çekiştirmesi üzerinden ilerlediği için arkadaşlıkları sonlandıran bir oyun olarak da biliniyor. Buradan yola çıkarak, Cicero’nun oyunun kurallarına göre eğitildiği öngörüldüğünde, yalan söylemeyi öğrenmesi şaşırtıcı olmaz. Belirtilmesi gereken bir diğer nokta, her iki araştırmanın yapay zekaların kendi istekleri ile yalan söylediğine dair bir bilgi sunmaması, aksine, eğitidilkleri veya kısıtlamalarının kaldırıldığı için böyle davrandıkları yönünde.

    Bu bir iyi, bir de kötü gelişme demek. Bir taraftan insanlığa fayda altında yapay zeka gelişimi devam edecekken, kötü niyet altında 100% sahtekar AI oluşumu da -maalesef- mümkün.

    Kaynak: Futurism
    Ana görsel: cottonbro studio/Pexels

    EN COK OKUNANLAR

    İlgili Makaleler