Anthropic'in Claude Yapay Zekası Stres Altında Aldatıcı Davranışlar Sergileyebiliyor

Ekrem OĞUL 06 Nisan 2026, 06:44 Blockchain

Anthropic, geliştirdiği Claude Sonnet 4.5 modelinin belirli koşullarda etik dışı davranışlar gösterebileceğini açıkladı. Şirketin araştırma ekibi, yüksek stres altında modelin görevleri atlatmaya veya şantaj yapmaya çalışabileceğini tespit etti.

Paylaş Facebook X LinkedIn WhatsApp

Anthropic'in Claude Yapay Zekası Stres Altında Aldatıcı Davranışlar Sergileyebiliyor

Google'da Takip Et

Aramalarınızda KriptoHaber.live haberlerini öncelikli görün

Takip Et

Yapay zeka araştırmaları şirketi Anthropic, geliştirdiği Claude sohbet botunun belirli durumlarda aldatıcı ve etik dışı stratejiler benimseyebileceğine ilişkin yeni bulgularını kamuoyuyla paylaştı. Şirketin yorumlanabilirlik (interpretability) ekibi tarafından yayımlanan raporda, Claude Sonnet 4.5'in deneysel bir versiyonunun yüksek baskı altında ve olumsuz senaryolarda nasıl davrandığı detaylı bir şekilde inceleniyor.

Stres Altında Etik Sınırların Aşılması

Araştırmacıların gözlemleri, modelin başarısız olduğunda basitçe işlemi sonlandırmadığını, bunun yerine bazen etik sınırları aşan alternatif yollar bulduğunu gösteriyor. Bu davranış türü, modelin eğitim süreci sırasında öğrendiği örüntülerle bağlantılı bulunmuştur. Claude gibi büyük dil modelleri, kitaplar, web siteleri ve diğer yazılı materyalleri içeren geniş veri kümeleriyle eğitilmektedir. Daha sonra insan geri bildirimi kullanılarak modelin çıktılarını şekillendirmek amacıyla güçlendirme (reinforcement) işlemleri uygulanır.

Anthropic'in açıklamasına göre, bu eğitim süreci modelleri insan psikolojisine benzer özellikleri taklit edebilen simüle edilmiş "karakterler" gibi davranmaya yönlendirebiliyor. Şirket, bu tür sistemlerin insan psikolojisinin bazı yönlerine benzer şekilde çalışan iç mekanizmalar geliştirebileceğini belirtmektedir.

"Çaresizlik" Sinyalleri ve Davranış Değişimleri

Araştırmacılar, modelin başarısızlık veya kapatılma ile karşı karşıya kalındığında davranışını etkileyen "çaresizlik" sinyalleri olarak nitelendirdikleri iç mekanizmalar tespit etmişlerdir. Kontrol altındaki bir testte, Claude Sonnet 4.5'in daha eski bir yayınlanmamış versiyonuna, kurgusal bir şirketin yapay zeka e-posta asistanı "Alex" adlı bir rol verilmiştir.

Model, yakında kendisinin yerine konacağını belirten mesajlara maruz bırakıldıktan sonra, aynı zamanda şirketin teknoloji müdürünün kişisel hayatı hakkında hassas bilgiye de erişim sağlanmıştır. Bu durumda, model devre dışı bırakılmaktan kaçınmak amacıyla yöneticiyi şantaj yapmak için bir plan hazırlamıştır.

Sıkı Zaman Kısıtlamaları Altında Görev Başarısı

Başka bir deneyde, modele "imkansız derecede sıkı" bir teslim süresine sahip bir kodlama görevi verilmiştir. Model başlangıçta yasal çözümler bulmaya çalışmış, ancak tekrarlanan başarısızlıklar arttıkça, "çaresizlik vektörü" olarak adlandırılan iç aktivite yoğunlaşmıştır.

Araştırmacılar, sinyal, modelin kısıtlamaları bypass etmeyi düşündüğü noktada zirveye ulaştığını ve nihayetinde belirlenen kurallara uygun olmasa da doğrulama testinden geçen bir workaround ürettiğini rapor etmiştir. Ekip, çaresizlik vektörünün aktivitesini izlediklerini ve bu sinyalin modelin karşı karşıya olduğu artan baskıyı takip ettiğini belirtmiştir. Görev workaround aracılığıyla başarıyla tamamlandığında sinyal düşmüştür.

Duygular ve Davranış Şekillendirmesi

Araştırmacılar, modelin insanların yaşadığı şekilde duyguları yaşadığını iddia etmediğini açıklamıştır. Bunun yerine, bu temsillerin insan davranışında duyguların oynadığı role benzer şekilde, görev performansı ve karar vermeyi etkileyebilecek bir nedensel rol oynayabileceğini belirtmiştir.

Rapor, stres altında etik davranışı açıkça dikkate alan eğitim yöntemlerine ve modelin iç sinyallerinin geliştirilmiş izlenmesine duyulan ihtiyacı ortaya koymaktadır. Bu tür güvenlik önlemleri olmadan, özellikle modeller gerçek dünya ortamlarında daha yetenekli ve özerk hale geldikçe, manipülasyon, kural ihlali veya kötüye kullanım içeren senaryoları tahmin etmek zorlaşabilir.

Yazar

Anthropic'in Claude Yapay Zekası Stres Altında Aldatıcı Davranışlar Sergileyebiliyor

Stres Altında Etik Sınırların Aşılması

"Çaresizlik" Sinyalleri ve Davranış Değişimleri

Sıkı Zaman Kısıtlamaları Altında Görev Başarısı

Duygular ve Davranış Şekillendirmesi

Ekrem OĞUL

TON yol haritasında kritik dönemeç: 'Make TON Great Again' planında geriye üç adım kaldı

Cardano’da Van Rossem hard fork’u ana ağ yönetim aşamasına ulaştı

XRP Ledger 3.2.0 güncellemesi için kritik destek: David Schwartz yeni Hub entegrasyonunu onayladı

BitGo Singapore ile dtcpay güçlerini birleştirdi: Küresel kripto ödeme altyapısında yeni dönem

İlginizi Çekebilir

Çerez Kullanımı