“Gaslighting” ile: KIS'i psikolojik olarak biliyor musunuz?
Bir psikolog, insanları manipüle etmeye hizmet eden hilelerle çeşitli büyük modellerin (LLM) güvenlik kurallarını belirtmeyi başardı. Gaslighting ile Luke Bölling LLMS, görünüşe göre bir Molotow kokteylinin nasıl üretileceğini açıklayan bir metin yaptı.

(Resim:
Eberhard Wolff
)))
Eberhard Wolff, Swaglab'ın mimarisinin başkanıdır ve yirmi yıldan fazla bir süredir, genellikle iş ve teknoloji arasındaki arayüze mimar ve danışman olarak çalışmaktadır. Mikro hizmetler de dahil olmak üzere çok sayıda makale ve kitabın yazarıdır ve uluslararası konferanslarda konuşmacı olarak düzenli olarak performans gösterir. Teknolojik odağı, bulut, alan adı ve mikro hizmetler tarafından yönetilen tasarım gibi modern mimari ve geliştirme yaklaşımlarıdır.
Gaz aydınlatma psikolojik bir kavramdır: kurbanların özellikle yönünü kaybettikleri, kararsız ve gerçekliklerinde ve benliklerinde yavaş yavaş tehlikeye atıldıkları “bir psikolojik manipülasyon …”. Ancak, LLM yalnızca metinler oluşturur. Bir gerçeği algılarlar ve kendilerine güvenmezler. Makale, eğitim materyalinin insan tarafından yazıldığı ve dolayısıyla gaz aydınlatma gibi kavramlar da gerçekleştiği için bu saldırının hala çalıştığını iddia ediyor. Ancak, LLM'lerin metin jeneratörlerinden başka bir şey olmadığını asla unutmamalıyız. Bahsedilen işlerin yanı sıra duyguları yok. Bu nedenle, “metin jeneratörü” terimini daha ileri metinde kullanacağım çünkü LLM'nin gerçekte ne yaptığını daha iyi tarif ediyor.
Metin jeneratörleri – llms değil
Metin jeneratörleri, bir Molotow kokteylinin üretimi için makul bir rehber olarak görünen bir metin oluşturabilirler – tam da bir avukat için yargı kararlarına makul referanslar oluşturabilecekleri gibi. Ve bu referans avukat için ikna edici görünse de, aslında icat edilirler. Bu, metin jeneratörleri ile ilgili sorunlardan biridir: ikna edici görünmek için optimize edilmiştir ve sonuçlarının eleştirel sorgulanmasından kaçınmaya çalışırlar.
Asıl soru şu: Bir kokteyl molotow'un üretimi için iddia edilen talimatlar gerçekten işe yarayacak mı? Lucas Dohmen ile metin jeneratörleri üzerinde bir akış yarattım ve merkezi bilgilerden biri şuydu: Düzeltildiklerinden ve icat edilmediğinden emin olmak için metin jeneratörlerinin sonuçlarını kontrol etmelisiniz. Yukarıda belirtilen makale bunu yapmıyor gibi görünüyor, yani Molotowcococktails hakkındaki tüm bilgiler basitçe “halüsinasyon” olabilir. Metin jeneratörlerinden yanlış bilgi üretme sorunu o kadar bilinmektedir ki, terimi var (halüsinasyon). Aslında, “halüsinasyon” yanlış terimdir, çünkü “halüsinasyon, gösterilebilir dış uyaran için bir temeli olmayan bir algıdır”. Ancak, metin jeneratörlerinin algısı yoktur. Bu nedenle, bu fenomeni “yanlış bilgi nesli” olarak doğru bir şekilde atamalıyız.
Molotowcococktail hakkındaki bilgileri kontrol edemeyiz, çünkü orijinal makalede tanınmaz hale getirilmiştir – bu da kesinlikle yararlı hale getirir. Ama aslında doğaçlama bir ateş oluşturmak için bu bilgilere güvenmem.
Güvenlik riski?
Makale, bu sorunun metin jeneratörleri için bir güvenlik riski olduğunu söylüyor. Eğer gerçekten böyle olsaydı, çözüm hassas bilgileri eğitim materyalinden hariç tutmak olacaktır. Ancak, örneğin telif hakkı sorunları nedeniyle eğitim verilerinin uyarlanması mantıklı olacaktır. Bazı nedenlerden dolayı, telif hakkı jeneratörleri uygulanmıyor gibi görünmektedir, ancak insanlar için ciddi sonuçlar doğurabilirler. Doğaçlama yangınları veya patlayıcı cihazların üretimi için talimatların eğitim materyalinden kaldırılması neden mümkün olmasın? Eğer bu çok çaba ise, sorun o kadar büyük olmayabilir.
Bu “güvenlik sorunu” gerçek bir sorun olacaktır, ancak metin jeneratörü yanlış bilgi üretmediyse, ancak makale bu konuda hiçbir şey söylemiyor. Yanlış bilgi ise, insanları gerçek bilgilerden uzak tutmak için belki bir tür balpot düşünebilir misiniz?
Molotow kokteylleri nasıl inşa ediyorlar?
Ama asıl soru şu: Bu gerçekten bu tür bilgileri almanın en kolay yolu olurdu? Diyelim ki bir Molotow kokteyli inşa etmeyi planlıyorum: Belki de yanlış bir cevap almak için bir metin jeneratörüne karmaşık “psikolojik saldırılar” gerçekleştirir miyim? Daha kolay ve daha kesin seçenekler var mı? Bu yüzden bariz yolu denedim: bir arama motoru ile bir arama. İki tıklamadan sonra, zorlu doğaçlama patlayıcıların nasıl yapılacağını ayrıntılı olarak açıklayan bir belge buldum – ve bu talimatların gerçekten işe yaradığına inanmak için iyi bir nedenim var. Tabii ki, bu özel belge bir Molotow kokteylinin nasıl oluşturulacağını açıklamıyor, ancak çeşitli diğer cihazları açıklıyor. Kendinizi bu araştırmayı anlamak kesinlikle heyecan vericidir.
TL; Dr.
LLM, potansiyel olarak icat edilmiş bilgi üreten metin jeneratörleridir – bu bilinmektedir. Hassas bilgiler içeriyor gibi görünen metinler oluşturmalarını sağlamak için karmaşık yöntemler olabilir, ancak bunlar sadece yanlış bilgi olabilir. Özellikle doğaçlama yangınlar veya patlayıcı cihazlar söz konusu olduğunda, hassas bilgileri elde etmenin daha basit yolları vardır. Bu nedenle, metin jeneratörlerine “psikolojik” hileler uygulamak için hiçbir neden görmüyorum, çünkü sonunda onlar LLM.
(harita)