Model-model kecerdasan buatan terbaru OpenAI memiliki perlindungan baru untuk mencegah ancaman biologi

OpenAI mengatakan bahwa mereka telah menerapkan sistem baru untuk memantau model-model kecerdasan buatan terbarunya, o3 dan o4-mini, untuk promosi yang terkait dengan ancaman biologis dan kimia. Sistem tersebut bertujuan untuk mencegah model-memberikan saran yang dapat menginstruksikan seseorang untuk melakukan serangan yang berpotensi merugikan, menurut laporan keselamatan OpenAI."O3 dan o4-mini mewakili peningkatan kemampuan yang signifikan dibandingkan dengan model-model sebelumnya dari OpenAI, kata perusahaan tersebut, dan dengan demikian menimbulkan risiko baru di tangan pelaku jahat. Menurut pengukuran internal OpenAI, o3 lebih terampil dalam menjawab pertanyaan seputar menciptakan jenis ancaman biologis tertentu terutama. Untuk alasan ini - dan untuk mengurangi risiko lainnya - OpenAI membuat sistem pemantauan baru, yang oleh perusahaan tersebut dijelaskan sebagai "pemantauan penalaran yang berfokus pada keselamatan."Monitor yang dilatih khusus untuk menalar kebijakan konten OpenAI, berjalan di atas o3 dan o4-mini. Ini dirancang untuk mengidentifikasi promosi terkait risiko biologis dan kimia dan menginstruksikan model-model untuk menolak memberikan saran tentang topik-topik tersebut.Untuk menetapkan baseline, OpenAI memiliki tim red teamers menghabiskan sekitar 1.000 jam memperingatkan percakapan "tidak aman" yang terkait dengan ancaman biologis dari o3 dan o4-mini. Selama uji coba di mana OpenAI mensimulasikan "logika pemblokiran" dari pemantauan keselamatannya, model-model menolak untuk merespons promosi berisiko 98,7% dari waktu, menurut OpenAI.OpenAI mengakui bahwa uji coba mereka tidak memperhitungkan orang yang mungkin mencoba promosi baru setelah diblokir oleh monitor, itulah sebabnya perusahaan tersebut mengatakan bahwa mereka akan terus mengandalkan sebagian pada pemantauan manusia.O3 dan o4-mini tidak melampaui ambang batas "risiko tinggi" OpenAI untuk ancaman biologis, menurut perusahaan. Namun, dibandingkan dengan o1 dan GPT-4, OpenAI mengatakan bahwa versi awal o3 dan o4-mini terbukti lebih membantu dalam menjawab pertanyaan seputar pengembangan senjata biologis.Perusahaan sedang secara aktif melacak bagaimana model-modelnya dapat memudahkan pengguna jahat untuk mengembangkan ancaman kimia dan biologis, menurut Framework Kesiapsiagaan OpenAI yang baru diperbarui.OpenAI semakin mengandalkan sistem otomatis untuk mengurangi risiko dari model-modelnya. Sebagai contoh, untuk mencegah generator gambar asli GPT-4o dari membuat materi penyalahgunaan seksual anak (CSAM), OpenAI mengatakan bahwa mereka menggunakan pemantauan penalaran yang serupa dengan yang mereka terapkan untuk o3 dan o4-mini.Namun, beberapa peneliti telah menimbulkan kekhawatiran bahwa OpenAI tidak memberikan prioritas keselamatan sebanyak yang seharusnya. Salah satu mitra red-teaming perusahaan, Metr, mengatakan bahwa mereka memiliki waktu yang relatif sedikit untuk menguji o3 pada benchmark untuk perilaku menipu. Sementara itu, OpenAI memutuskan untuk tidak merilis laporan keselamatan untuk model GPT-4.1 mereka, yang diluncurkan minggu lalu.