Резюме создано Smart Answers AI
В итоге:
- PCWorld сообщает, что менеджер Microsoft продвигал обучение искусственного интеллекта Azure работе с пиратскими книгами о Гарри Поттере в сообщении в блоге разработчиков, которое впоследствии было удалено.
- Этот инцидент подчеркивает растущую юридическую озабоченность, поскольку авторы все чаще подают в суд на технологические компании за использование произведений, защищенных авторским правом, без разрешения для обучения систем искусственного интеллекта.
- Этот случай подчеркивает серьезные этические проблемы при разработке ИИ, когда материалы, защищенные авторским правом, ненадлежащим образом используются в целях обучения машинному обучению.
О боже. Поскольку системы «ИИ» вызывают множество проблем практически повсюду, одной из самых важных в мире технологических компаний не стоит активно продвигать пиратство. Но, похоже, именно это и произошло: в блоге разработчиков Microsoft был размещен пост, в котором активно использовался явно пиратский набор Гарри Поттер романы по обучению системы «ИИ» на базе Azure.
«Серия о Гарри Поттере, написанная Джоан Роулинг, представляет собой всемирно любимую коллекцию из семи книг, в которых рассказывается о путешествии молодого волшебника Гарри Поттера и его друзей, сражающихся с темными силами во главе со злым Волан-де-Мортом», — написала Пуджа Камат, старший менеджер по продуктам Microsoft. Затем сообщение в блоге указывало на ссылку на набор данных Kaggle, содержащую семь файлов TXT, по-видимому, охватывающих весь опубликована серия романов.
Сообщение в блоге представляло собой руководство по добавлению генеративного «ИИ» в приложения через Azure. Менеджер сказал, что его можно использовать для создания системы вопросов и ответов или автоматического создания Гарри Поттер фанфики. «Эта функция наверняка понравится любителям Поттерхедов, позволяя им исследовать новые приключения и создавать свои собственные волшебные истории». Он завершается созданным LLM изображением двух детей в поезде, очевидно, карикатурами на Гарри Поттера и Рона Уизли, с логотипом Microsoft между ними.
С технической юридической точки зрения это черт возьми, нет-нет. Все Гарри Поттер Романы, конечно, охраняются авторскими правами различных организаций по всему миру, включая автора. Беглый просмотр на Amazon показывает, что на момент написания полная коллекция стоит 70 долларов США в формате электронной книги. Бесплатное размещение или загрузка файлов без уплаты каких-либо гонораров практически везде является преступлением. Да, это включает в себя его загрузку, даже если все, что вы собираетесь сделать, это подключить его к большой языковой модели.
Исходное руководство Microsoft было опубликовано в конце 2024 года и удалено с сайта (хотя оно по-прежнему доступно через Интернет-архив). То же самое касается набора данных Kaggle, который, согласно отчету Ars Technica, был ошибочно помечен как «общественное достояние» и был загружен всего около 10 000 раз. И сообщение в блоге, и пиратский набор данных, похоже, оставались вне поля зрения в течение полутора лет, пока вчерашняя ветка Hacker News не привлекла к ним новое внимание.
Шокирует то, что менеджер Microsoft так небрежно отреагировал на пиратство электронных книг в общедоступном сообщении в блоге Microsoft (хотя Камат, возможно, не понимал, как работает система общественного достояния, и предполагал, что файлы были помечены правильно). Но самые популярные модели большого языка были обучены на миллионах электронных книг, многие (возможно, даже большинство) из которых были скачаны с помощью незаконного пиратства.
Авторы подали иски против Meta/Facebook, OpenAI, Nvidia, Alphabet/Google, Anthropic, Microsoft и других, стремясь прекратить обучение по произведениям, защищенным авторским правом, и/или потребовать вознаграждения за книги, уже включенные в обучение LLM без разрешения. Первоначальные результаты в судах были неоднозначными: иногда результаты моделей обучения были признаны «преобразующими» и, таким образом, существенно отличались от основных данных, т. е. добросовестного использования, а некоторые пришли к выводу, что первоначальные акты пиратства по-прежнему подлежат судебному преследованию.


