Mendeteksi Suara AI: Tantangan dalam Membedakan Ucapan Sintetis dari Ucapan Manusia

Saat ini, berbicara dengan AI sangatlah mudah. Beberapa chatbot bahkan dapat merespons secara verbal dengan cara yang menarik. Mereka dapat berbicara dalam berbagai bahasa dan memberikan balasan dalam dialek atau aksen tertentu sesuai permintaan.
Alat-alat kloning suara bertenaga AI kini dapat meniru suara manusia. Misalnya, suara almarhum Sir Michael Parkinson telah dikloning untuk sebuah podcast, sementara Sir David Attenborough merasa tidak nyaman mendengar suaranya dikloning oleh AI tanpa izin.
Teknologi ini bisa disalahgunakan dalam penipuan untuk menipu orang agar memberikan uang kepada penjahat.
Namun, tidak semua suara yang dihasilkan AI digunakan untuk tujuan jahat. Mereka meningkatkan chatbot yang didukung oleh model bahasa besar, membuat interaksi lebih alami dan meyakinkan. Fungsi suara ChatGPT, misalnya, dapat menggunakan variasi nada dan penekanan untuk menyampaikan empati dan emosi, mengenali isyarat non-verbal seperti desahan, berbicara dalam 50 bahasa, dan menampilkan aksen. Itu bahkan dapat melakukan panggilan telepon, seperti memesan stroberi dari penjual.
Kemampuan ini mendorong kita untuk bertanya: apa yang membuat suara manusia unik dibandingkan dengan ucapan yang dihasilkan AI?
Jonathan Harrington, seorang profesor fonetik di Universitas Munich, telah mempelajari ucapan manusia selama beberapa dekade dan terkesan dengan kemampuan synthesizer suara AI. Meskipun telah mengalami kemajuan, ia mencatat bahwa ada isyarat tertentu yang masih membedakan suara manusia dari AI.
Untuk mengeksplorasi hal ini, Conor Grennan, seorang arsitek AI di NYU Stern School of Business, membuat klip audio untuk membandingkan suara yang dihasilkan AI dan manusia.
OpenAI, pengembang ChatGPT, menyatakan bahwa tidak ada tindakan pengamanan untuk memastikan AI mengungkapkan identitasnya selama percakapan. Mereka juga tidak berencana untuk menandai AI karena potensi bias terhadap penggunanya, seperti pembicara yang terganggu atau pelajar.
Namun demikian, OpenAI sedang berupaya mencegah kloning suara dengan fitur-fitur canggih ChatGPT. Sistem ini hanya menggunakan suara preset untuk fungsi "Advanced Voice", termasuk suara beraksen Inggris dan Amerika yang dibagi berdasarkan gender.
Untuk menentukan apakah suara itu AI, Anda bisa memintanya untuk berteriak, karena banyak sistem AI kesulitan dengan jangkauan vokal di luar ucapan normal. Kelemahan dalam ucapan manusia, seperti mengoreksi diri sendiri, dapat menunjukkan pembicara manusia.
Upaya sedang dilakukan untuk mengembangkan perangkat lunak deteksi deepfake. Perusahaan seperti McAfee bekerja sama dengan merek-merek besar untuk memasang solusi ini pada PC dan perangkat seluler yang mendukung AI. ElevenLabs, yang menciptakan kloning suara AI untuk tantangan "Alice in Wonderland", menawarkan alat deteksi AI gratis.
Dalam persaingan antara generasi AI dan deteksi, interaksi fisik mungkin menjadi lebih berharga. Menghabiskan lebih banyak waktu bertatap muka bisa menjadi solusi sederhana untuk memastikan Anda berbicara dengan manusia.
Bagi yang penasaran dengan klip audio, klip pertama adalah AI, dan klip kedua adalah manusia. Apakah Anda bisa menebak dengan benar?