OpenAI menggunakan transkripsi lebih dari satu juta jam video YouTube untuk melatih model bahasa AI tercanggihnya GPT-4. Dilansir dari laporan Neowin pada Minggu (7/4), New York Times mengungkapkan bahwa OpenAI mengembangkan model transkripsi audio bernama Whisper untuk mengumpulkan data dari video YouTube.
OpenAI menyadari bahwa tindakan mereka berada di bawah pengawasan, namun tetap melanjutkan praktik tersebut. Laporan juga menyebutkan bahwa OpenAI diduga mengumpulkan data dari video dan podcast di YouTube untuk melatih dua sistem AI mereka. Presiden OpenAI, Greg Brockman, terlibat dalam tim pelatihan AI tersebut.
Google, sebagai pemilik YouTube, mengetahui praktik yang dilakukan OpenAI namun memilih untuk tidak menindak karena Google juga menggunakan video YouTube untuk melatih model AI mereka. CEO YouTube Neal Mohan mengatakan bahwa video yang digunakan untuk melatih AI mereka telah mendapatkan izin dari kreatornya.
Meskipun kebijakan perusahaan melarang pengunduhan transkrip video atau sejenisnya karena melanggar kebijakan layanan YouTube, Google belum memiliki informasi untuk mengonfirmasi penggunaan data YouTube oleh OpenAI. OpenAI juga baru-baru ini meluncurkan GPT Store, sebuah pasar aplikasi AI yang dipersonalisasi.