AI terkenal sebagai pembohong, dan Microsoft kini mengatakan telah menemukan solusinya. Tentu saja, hal itu akan menimbulkan banyak pertanyaan, tetapi ada alasan untuk bersikap skeptis.
Microsoft hari ini meluncurkan Correction, sebuah layanan yang berupaya merevisi secara otomatis teks buatan AI yang secara faktual salah. Correction pertama-tama menandai teks yang mungkin keliru — misalnya, ringkasan panggilan pendapatan triwulanan perusahaan yang mungkin salah mengatributkan kutipan — lalu memeriksa fakta dengan membandingkan teks dengan sumber kebenaran (misalnya, transkrip).
Koreksi, tersedia sebagai bagian dari Azure AI Content Safety API milik Microsoft, dapat digunakan dengan model AI penghasil teks apa pun, termasuk Llama milik Meta dan GPT-4o milik OpenAI.
“Koreksi didukung oleh proses baru yang memanfaatkan model bahasa kecil dan model bahasa besar untuk menyelaraskan keluaran dengan dokumen dasar,” kata juru bicara Microsoft kepada TechCrunch. “Kami berharap fitur baru ini mendukung pembuat dan pengguna AI generatif di bidang seperti kedokteran, di mana pengembang aplikasi menentukan keakuratan respons sebagai hal yang sangat penting.”
Google memperkenalkan fitur serupa musim panas ini di Vertex AI, platform pengembangan AI-nya, untuk memungkinkan pelanggan “membumikan” model dengan menggunakan data dari penyedia pihak ketiga, kumpulan data mereka sendiri, atau Google Search.
Namun para ahli memperingatkan bahwa pendekatan grounding ini tidak mengatasi akar penyebab halusinasi.
“Mencoba menghilangkan halusinasi dari AI generatif itu seperti mencoba menghilangkan hidrogen dari air,” kata Os Keyes, kandidat Ph.D. di University of Washington yang mempelajari dampak etis dari teknologi baru. “Itu adalah komponen penting dari cara kerja teknologi.”
Model pembangkit teks berhalusinasi karena mereka sebenarnya tidak “mengetahui” apa pun. Model ini adalah sistem statistik yang mengidentifikasi pola dalam serangkaian kata dan memprediksi kata mana yang muncul berikutnya berdasarkan contoh yang tak terhitung jumlahnya yang menjadi dasar pelatihan mereka.
Maka dari itu, respon model bukanlah jawaban, tapi hanya prediksi bagaimana sebuah pertanyaan akan dijawab. akan dijawab jika ada dalam set pelatihan. Akibatnya, model cenderung bermain cepat dan longgar dengan kebenaran. Satu studi menemukan bahwa ChatGPT OpenAI menjawab pertanyaan medis dengan salah separuh waktu.
Solusi Microsoft adalah sepasang model meta referensi silang, ala penyunting naskah yang dirancang untuk menyoroti dan menulis ulang halusinasi.
Model pengklasifikasi mencari potongan teks buatan AI yang mungkin salah, dibuat-buat, atau tidak relevan (halusinasi). Jika mendeteksi halusinasi, pengklasifikasi akan menyertakan model kedua, model bahasa, yang mencoba mengoreksi halusinasi sesuai dengan “dokumen dasar” yang ditentukan.
“Koreksi dapat meningkatkan keandalan dan kepercayaan konten yang dihasilkan AI secara signifikan dengan membantu pengembang aplikasi mengurangi ketidakpuasan pengguna dan potensi risiko reputasi,” kata juru bicara Microsoft. “Penting untuk dicatat bahwa deteksi groundedness tidak memecahkan 'akurasi', tetapi membantu menyelaraskan keluaran AI generatif dengan dokumen groundedness.”
Keyes meragukan hal ini.
“Ini mungkin mengurangi beberapa masalah,” kata mereka, “Namun, ini juga akan menimbulkan masalah baru. Lagipula, pustaka deteksi halusinasi milik Correction juga mungkin mampu berhalusinasi.”
Ketika dimintai keterangan latar belakang tentang model Koreksi, juru bicara tersebut merujuk pada makalah terbaru dari tim peneliti Microsoft yang menjelaskan arsitektur praproduksi model tersebut. Namun, makalah tersebut tidak menyertakan rincian penting, seperti kumpulan data mana yang digunakan untuk melatih model tersebut.
Mike Cook, seorang peneliti di Queen Mary University yang mengkhususkan diri dalam AI, berpendapat bahwa meskipun Correction berfungsi seperti yang diiklankan, hal itu mengancam akan memperparah masalah kepercayaan dan keterjelasan seputar AI. Layanan tersebut mungkin dapat mendeteksi beberapa kesalahan, tetapi juga dapat meninabobokan pengguna ke dalam rasa aman yang salah — dengan berpikir bahwa model lebih sering jujur daripada yang sebenarnya.
“Microsoft, seperti OpenAI dan Google, telah menciptakan masalah ini di mana model diandalkan dalam skenario yang sering kali salah,” katanya. “Apa yang dilakukan Microsoft sekarang adalah mengulang kesalahan pada level yang lebih tinggi. Katakanlah ini membawa kita dari tingkat keamanan 90% ke tingkat keamanan 99% — masalahnya tidak pernah benar-benar pada tingkat 9% itu. Masalahnya akan selalu ada pada 1% kesalahan yang belum kita deteksi.”
Cook menambahkan bahwa ada juga sudut pandang bisnis yang sinis terhadap cara Microsoft menggabungkan Correction. Fitur tersebut gratis, tetapi “deteksi groundedness” yang diperlukan untuk mendeteksi halusinasi agar Correction dapat merevisinya hanya gratis hingga 5.000 “catatan teks” per bulan. Biayanya 38 sen per 1.000 catatan teks setelah itu.
Microsoft tentu saja berada di bawah tekanan untuk membuktikan kepada pelanggan — dan pemegang saham — bahwa AI-nya sepadan dengan investasinya.
Pada Q2 saja, raksasa teknologi itu menggelontorkan hampir $19 miliar untuk belanja modal dan peralatan yang sebagian besar terkait dengan AI. Namun, perusahaan itu belum memperoleh pendapatan signifikan dari AI. Seorang analis Wall Street minggu ini menurunkan peringkat saham perusahaan itu, dengan alasan keraguan tentang strategi AI jangka panjangnya.
Menurut sebuah artikel di The Information, banyak pengguna awal telah menghentikan penggunaan platform AI generatif andalan Microsoft, Microsoft 365 Copilot, karena masalah kinerja dan biaya. Untuk satu klien yang menggunakan Copilot untuk rapat Microsoft Teams, AI tersebut dilaporkan menciptakan peserta dan menyiratkan bahwa panggilan tersebut membahas topik yang sebenarnya tidak pernah dibahas.
Menurut jajak pendapat KPMG, keakuratan dan potensi timbulnya halusinasi kini menjadi salah satu perhatian terbesar para pebisnis saat menguji coba alat AI.
“Jika ini adalah siklus hidup produk yang normal, AI generatif akan tetap berada dalam tahap R&D akademis, dan terus dikembangkan untuk meningkatkannya serta memahami kekuatan dan kelemahannya,” kata Cook. “Sebaliknya, kami telah menerapkannya ke dalam belasan industri. Microsoft dan yang lainnya telah memuat semua orang ke dalam roket baru mereka yang menarik, dan memutuskan untuk membangun roda pendaratan dan parasut saat dalam perjalanan menuju tujuan mereka.”