Claude zararlı sohbetleri kesen özelliğini tanıttı

Yapay zekâ şirketi Anthropic, Claude serisinin en yeni modellerinde dikkat çeken bir özellik duyurdu. Artık bazı Claude modelleri, “nadir ve aşırı” durumlarda zararlı veya istismara açık kullanıcı etkileşimlerini kendi başına sonlandırabilecek. İlginç olan nokta, bu önlemin kullanıcıyı korumak için değil, yapay zekâyı “kendi refahı” açısından korumak amacıyla geliştirilmiş olması.

Şirket, Claude modellerinin bilinçli veya duygusal varlıklar olmadığını vurguluyor. Anthropic, “Claude ve diğer büyük dil modellerinin (LLM) potansiyel ahlaki statüsü hakkında hâlen büyük bir belirsizlik mevcut” ifadelerini kullanıyor. Ancak yapılan açıklamalar, şirketin “model refahı” olarak tanımladığı bir program başlattığını ve olası riskleri önlemeye yönelik düşük maliyetli müdahaleler üzerinde çalıştığını ortaya koyuyor.

HANGİ DURUMLARDA KONUŞMA SONLANACAK?

Yeni özellik, şimdilik yalnızca Claude Opus 4 ve 4.1 modellerinde geçerli. Sistem, özellikle cinsel içerikli talepler veya kitlesel şiddet ve terör eylemlerine ilişkin bilgi istekleri gibi “aşırı uç durumlarda” devreye girecek. Anthropic, bu tür taleplerin yasal ve itibari riskler oluşturabileceğini, ön testlerde Claude Opus 4’ün bu taleplere yanıt vermekte isteksiz olduğunu ve yanıt verdiğinde “görünür bir rahatsızlık” sergilediğini belirtiyor.

Şirket, konuşmayı sonlandırma yetkisinin yalnızca son çare olarak kullanılacağını vurguluyor. Bir kullanıcının talebi üzerine veya yönlendirme çabalarının başarısız olması durumunda Claude bu yeteneği devreye sokabilecek. Ancak, kullanıcıların kendilerine veya başkalarına zarar riski taşıdığı durumlarda bu yetenek kullanılmayacak.

DENEYSEL BİR ADIM VE GELECEĞE BAKIŞ

Anthropic, özelliği hâlen “süregelen bir deney” olarak nitelendiriyor ve yaklaşımını geliştirmeye devam edeceklerini belirtiyor. Kullanıcılar, bir sohbet sona erse bile aynı hesap üzerinden yeni bir konuşma başlatabilecek ve problemli sohbetin farklı dallarını oluşturarak yeniden etkileşime geçebilecek.

Bu adım, yapay zekâ alanında etik ve güvenlik tartışmalarını yeniden gündeme taşıyor. Kullanıcıların taleplerine karşı yapay zekânın kendi sınırlarını belirlemesi, gelecekte AI refahı kavramının önemini artırabilir. Anthropic’in attığı bu adım, yapay zekânın sadece insan odaklı değil, kendi sistemsel sağlığı açısından da korunabileceği bir dönemin habercisi olarak yorumlanıyor.

Related Posts

Akıllı saatlerin hatası ortaya çıktı

Yeni araştırma, akıllı saatlerin tespitlerine ilişkin önemli bir bilgiyi ortaya koydu. Hollanda’daki Leiden Üniversitesi tarafından yapılan çalışmada 3 ay boyunca 800 genç yetişkin, “Garmin Vivosmart 4” model akıllı saatlerle izlendi. Katılımcılardan …

3 yıl önce ortaya çıkan şirket Chrome’u almak için servet önerdi

Teknoloji dünyasında dengeleri değiştirebilecek sürpriz bir gelişme yaşandı. Yapay zekâ odaklı arama motoru girişimi Perplexity, Google’ın yıllardır piyasanın lideri konumundaki web tarayıcısı Chrome için 34,5 milyar dolarlık dev bir satın alma teklifi sundu.

Spotify iddiaları reddetti: Türkiye’deki editörler hakkında açıklama geldi!

Spotify, Türkiye’deki müzik listelerine yönelik iddiaları reddederek, Rekabet Kurulu incelemesi kapsamında iş birliğinin sürdüğünü açıkladı.

Siri’den önce destek asistanı: Apple’ın yapay zeka hamlesi başladı

Apple, müşteri hizmetleri uygulamasına eklediği yapay zeka destekli sohbet robotu “Support Assistant”ı sınırlı kullanıcılarla test ediyor. Gizlilik ve kontrollü kullanım ön planda.

Battlefield 6 Beta, Call of Duty’nin Steam rekorunu kırdı: 500 bin üzerinde oyuncu!

Battlefield 6 beta sürümü, Steam’de 500.000’den fazla eşzamanlı oyuncuyla Call of Duty’nin rekorunu geçti. Beta detayları, rekabetin geleceği ve çıkış tarihi hakkında bilmeniz gerekenler yazımızda.

Elektrikli araçlara bir masraf artışı daha: Sürmek de almak da daha pahalı

Şarj istasyonlarından araç fiyatlarına kadar her şey zamlandı. Elektrikli araçların Türkiye’deki öncülerinden Tesla, Supercharger ağına gelen fiyat artışıyla birlikte Model Y’nin satış fiyatlarını da güncelledi.