Американский стартап OpenAI, отчаянно нуждающийся в данных для обучения, разработал свою модель транскрипции аудио Whisper, при помощи которой расшифровал более миллиона часов видео с YouTube для обучения GPT-4, пишет издание The Verge.
При этом, как сообщает газета The New York Times, компания знала, что это сомнительно с юридической точки зрения, но считала такое использование добросовестным. Президент OpenAI Грег Брокман лично участвовал в сборе использованных видео, пишет NY Times.
Между тем представитель OpenAI Линдси Хелд сообщила The Verge по электронной почте, что компания курирует «уникальные» наборы данных для каждой из своих моделей, чтобы «помогать им понимать мир» и поддерживать конкурентоспособность своих глобальных исследований. Хелд добавил, что компания использует «многочисленные источники, включая общедоступные данные и партнерские отношения для получения закрытых данных».
В отчете NY Times также утверждается, что некоторые представители Google знали о практике OpenAI по расшифровке данных YouTube, однако не могли этому противодействовать. Генеральный директор YouTube Нил Мохан, в частности, заявил, что OpenAI, скорее всего, использовала YouTube для обучения своей модели генерации видео Sora. При этом представитель Google Мэтт Брайант сообщил The Verge, что Google принимает «технические и юридические меры» для предотвращения такого несанкционированного использования, «когда у нас есть для этого четкая юридическая или техническая основа».
В издании The New York Times между тем отмечают, что сама Google также прибегала к той же практике для обучения своей собственной модели искусственного интеллекта.
Больше на Онлайн журнал sololaki
Subscribe to get the latest posts sent to your email.