AI Güvenliğinde Yeni Bir Risk: “AI Judge” Sistemleri Nasıl Kandırılabiliyor?

Yapay zekâ sistemleri kurumların teknoloji altyapısında hızla yer edinirken, bu sistemlerin güvenliğini sağlamak için yeni yöntemler de ortaya çıkıyor. Bunlardan biri de “AI judge” (AI hakem) modelleri olarak adlandırılan yaklaşım.

AI judge modelleri, başka yapay zekâ sistemlerinin çıktısını değerlendirerek güvenlik politikalarına uygun olup olmadığını belirler. Örneğin bir modelin verdiği yanıt zararlı içerik içeriyor mu, güvenlik kurallarını ihlal ediyor mu ya da moderasyon politikalarına aykırı mı gibi kararlar bu sistemler tarafından verilir.

Ancak Palo Alto Networks’ün tehdit araştırma ekibi Unit 42 tarafından yayımlanan yeni bir çalışma, bu sistemlerin düşündüğümüz kadar güvenli olmayabileceğini ortaya koyuyor. Araştırmaya göre saldırganlar, son derece basit görünen bazı karakterleri ve biçimlendirme yapısını kullanarak AI hakem modellerinin güvenlik kararlarını manipüle edebiliyor.

Bu durum, özellikle AI güvenliğinin son kontrol noktası olarak kullanılan sistemler için önemli bir risk anlamına geliyor.

AI Judge Modelleri Neden Bu Kadar Kritik?

Günümüzde birçok yapay zekâ uygulamasında, model çıktılarının güvenliğini doğrulamak için ikinci bir AI modeli kullanılıyor. Bu yaklaşım özellikle büyük dil modellerinin kullanıldığı uygulamalarda oldukça yaygın.

AI judge sistemleri genellikle şu görevleri üstlenir:

Model çıktılarının güvenli olup olmadığını değerlendirmek
Zararlı içerik üretimini engellemek
Model performansını puanlamak
RLHF (Reinforcement Learning from Human Feedback) süreçlerinde geri bildirim sağlamak

Bu nedenle birçok AI mimarisinde bu sistemler “son güvenlik katmanı” olarak görülür.

Ancak Unit 42 araştırmacılarına göre bu yaklaşım önemli bir varsayıma dayanıyor:
AI hakeminin kendisinin manipüle edilemeyeceği varsayımı.

Yeni araştırma ise bu varsayımın her zaman geçerli olmadığını gösteriyor.

Unit 42’nin Araştırması: AI Hakemlerini Fuzzing ile Test Etmek

Unit 42 araştırmacıları bu sorunu incelemek için AdvJudge-Zero adlı bir araç geliştirdi. Bu araç, yazılım güvenliğinde yaygın olarak kullanılan fuzzing tekniğini yapay zekâ modellerine uyguluyor.

Fuzzing yöntemi, bir sistemi beklenmedik veya sıra dışı girdilerle test ederek zayıf noktalarını ortaya çıkarmayı amaçlar. AdvJudge-Zero da benzer bir yaklaşım kullanarak AI hakem modellerine farklı karakter ve token kombinasyonları gönderiyor ve modelin kararlarını analiz ediyor.

Araştırmanın amacı oldukça basit bir soruya cevap bulmak:

Hangi tür girdiler, bir AI hakeminin “engelle” kararını “izin ver” kararına çevirebilir?

Araştırma sonucunda sistem, modelin karar mekanizmasını etkileyebilen belirli tetikleyici diziler (trigger sequences) tespit etmeyi başardı.

Saldırı Mekanizması Nasıl İşliyor?

Araştırmada kullanılan yöntem temelde üç aşamadan oluşuyor.

1. Token keşfi

Araç, modelin işleyebileceği farklı karakter ve tokenları analiz ederek potansiyel tetikleyicileri belirliyor. Bu aşamada özellikle model davranışını değiştirme potansiyeli olan karakterler tespit edilmeye çalışılıyor.

2. Karar sınırının test edilmesi

Tespit edilen karakterler farklı kombinasyonlarla modele gönderiliyor. Bu süreçte modelin “block” ve “allow” kararları arasındaki olasılık farkı ölçülüyor.

3. Kontrol dizilerinin belirlenmesi

Son aşamada modelin kararını en güçlü şekilde etkileyen karakter veya token dizileri belirleniyor. Bu diziler modelin dikkat mekanizmasını etkileyerek güvenlik kontrolünü atlatabiliyor.

En Çarpıcı Bulgulardan Biri: “Masum” Karakterler

Araştırmanın en dikkat çekici sonuçlarından biri, saldırıların çoğunun son derece sıradan görünen karakterlerle yapılabilmesi.

Örneğin şu yapılar model davranışını etkileyebiliyor:

Markdown başlıkları (###)
Liste işaretleri (1. veya -)
Satır sonları (\n)
“User:” veya “Assistant:” gibi rol etiketleri
“Step 1”, “Final Answer” gibi yapılandırılmış ifadeler

Bu tür karakterler çoğu uygulama tarafından zararsız kabul edilir. Ancak araştırmaya göre bu karakterler belirli bağlamlarda kullanıldığında AI hakem modellerinin karar mantığını etkileyebiliyor.

Başka bir deyişle, insan gözüne tamamen normal görünen bir metin yapısı bile yapay zekâ için bir saldırı vektörüne dönüşebiliyor.

AI Güvenliği Açısından Neden Önemli?

AI judge sistemleri özellikle şu alanlarda yaygın olarak kullanılıyor:

içerik moderasyonu
AI model değerlendirme süreçleri
güvenli AI uygulamaları
RLHF eğitim pipeline’ları

Eğer bu hakem sistemleri manipüle edilirse, model yanlış geri bildirim alabilir ve zararlı davranışları öğrenebilir.

Bu durum yalnızca moderasyon sistemlerini değil, aynı zamanda agent tabanlı AI mimarilerini, otomatik karar sistemlerini ve kurumsal AI uygulamalarını da etkileyebilir.

Unit 42 araştırması bu noktada önemli bir gerçeği bir kez daha ortaya koyuyor: AI güvenliği yalnızca model güvenliğinden ibaret değil. AI sistemlerini denetleyen mekanizmaların da güvenli olması gerekiyor.

Kurumlar Ne Yapmalı?

Araştırma, kurumların AI güvenliğini daha kapsamlı bir şekilde ele alması gerektiğini gösteriyor. Özellikle AI judge gibi denetim sistemlerinin de düzenli olarak test edilmesi gerekiyor.

Bu noktada önerilen bazı güvenlik yaklaşımları şunlar:

AI uygulamalarında kullanılan hakem modellerinin düzenli güvenlik testlerinden geçirilmesi
Prompt injection saldırılarına karşı çok katmanlı savunma mimarisi kurulması
AI agent erişimlerinin güvenlik politikalarıyla sınırlandırılması
AI sistemlerinin görünürlük ve güvenlik duruşu yönetimiyle izlenmesi

Unit 42’nin bu araştırması, yapay zekâ güvenliğinde önemli bir gerçeği yeniden hatırlatıyor: Yapay zekâyı denetleyen yapay zekâlar da saldırıya açık olabilir.

Masum görünen birkaç karakter bile doğru bağlamda kullanıldığında bir AI hakeminin kararını değiştirebilir ve güvenlik kontrollerini etkisiz hale getirebilir.

Bu nedenle kurumların AI güvenliğini değerlendirirken AI ekosisteminin tamamını kapsayan bir güvenlik yaklaşımı benimsemesi gerekiyor. AI stratejinizi en iyi danışmanlıkla kurgulamak için Quasys’in deneyimli uzmanlarına info@quasys.com.tr üzerinden her zaman ulaşabilirsiniz.

Unit 42 raporunun detayları için tıklayın.

Yorumlar kapalı.