Кто писал — нИИ знаю… Как определить, что текст сгенерировала нейросеть

Contents

Спойлер: пока лучше рассчитывать на себя и не верить всему, что написано.Нейротексты: «за» и «против»Как работает искусственный интеллект Повторы слов и фраз Стиль написания Проверка фактов и вычитка Используйте детектор текстов ИИ (но доверять им безоговорочно тоже не стоит)

Спойлер: пока лучше рассчитывать на себя и не верить всему, что написано.

Полтора года назад компания OpenAI познакомила нас с чат-ботом — генеративным искусственным интеллектом ChatGPT, способным отвечать на запросы. Например, можно попросить его сгенерировать текст, в частности, на русском языке, ~~на любую~~ (почти) заданную тему. Это направление науки активно развивается, бот-собеседник с нашей же, человеческой помощью стремительно прогрессирует, и его становится в нашей жизни все больше.

Например, искусственный интеллект уже активно предлагает свои услуги человеку: может помочь написать, сократить и дополнить ваше письмо или сообщение, а также уточнить его или сделать на основе заданного текста конспект. С недавнего времени в Gmail появилась функция «доработать черновик» на базе нейросети Gemini: она автоматически предлагает помочь, как только письмо достигло объема 12 слов.

На слуху также широко распиаренная нейросеть Яндекса (YandexGPT), которая умеет искать и исправлять ошибки в любых текстах, сокращать и дополнять их, предлагать различные идеи, отвечать на вопросы и даже умеет учитывать контекст, ведя общение с пользователем в виде диалога.

Мы в 1Gai.Ru уже рассказывали, что может ИИ в самых разных сферах, а сегодня рассмотрим важный вопрос: как узнать, написано ли то, что вы читаете, искусственным интеллектом. Не то что бы создатели специально учили ИИ врать, но вот фантазировать машина может ого-го как.

Нейротексты: «за» и «против»

Недолгое сотрудничество человечества с ИИ показало: большинство людей относится к этому явлению с явным подозрением. В России особенно, ведь мы десятилетиями привыкли доверять печатному слову, а теперь ждем подвоха: не выдано ли то, что мы читаем, непонятной и бездушной машиной.

Тем не менее некоторые верят в способность нейросетей генерировать реалистичные и полезные тексты. В прошлом году веб-сайт компьютерных технологий CNET втайне начал публиковать контент, созданный нейроботом, наряду со статьями, написанными человеком. Однако руководство издания столкнулось с возмущением и критикой со стороны своих сотрудников.

Зарубежные СМИ также публиковали на своих сайтах материалы «из-под пера» ИИ, причем действовали открыто, прямо заявляли об авторстве бот-машины, и столкнулись с такой же реакцией: из-за того, что технология была внедрена без участия сотрудников, а также потому, что сам контент был просто ужасен.

Но не все тексты, созданные искусственным интеллектом, заявляют о себе так однозначно. При правильном использовании программы нейросети могут генерировать довольно убедительный и качественный медиапродукт. Причем подобный нейроконтент нравится читателям, даже если они находят «подсказки» и признаки, указывающие на их «нечеловеческий источник».

Как работает искусственный интеллект

Генеративный ИИ — это не какое-то всезнающее цифровое сознание, которое может ответить на ваши вопросы, как это сделал бы человек. Он вообще не является «умным». Современные нейроинструменты работают на основе больших языковых моделей (БЯМ), которые представляют собой алгоритмы глубокого обучения на огромных массивах данных, в данном случае на массе текстов.

Эта подготовка лежит в основе всех их ответов на запросы пользователей (промты). Когда вы просите наш русский YandexGPT или западный ChatGPT написать вам что-нибудь, искусственный интеллект разбирает ваш вопрос (запрос) и определяет, что, по его мнению, является наиболее важными элементами в вашем обращении за помощью. Затем он «предсказывает», какой будет правильная последовательность слов для ответа на него, основываясь на своем понимании взаимосвязи между словами.

Самые мощные нейромодели способны одновременно воспринимать больше информации, а также выдавать более подробные и естественные результаты. Кроме того, обычно чат-боты программируются с помощью пользовательских инструкций, которые применяются ко всем запросам, что при стратегическом подходе может скрыть обычные признаки текста, созданного ИИ.

Тем не менее на какую бы тему вы ни уговаривали ИИ ответить вам на промт, он все равно не всемогущ и, чтобы выдавать качественные нейроматериалы, ему нужно постоянно самообучаться. А до нормального уровня машине по некоторым темам еще учиться и учиться. Поэтому по тексту, скорее всего, будет заметно, что он был создан БЯМ (Большой языковой моделью). Вот на какие моменты стоит обратить внимание, чтобы научиться легко определять сгенерированные тексты.

Повторы слов и фраз

Примеры генерации нейротекста от ИИ с повторами фраз и яркими словами

Поскольку чат-боты обучены искать взаимосвязи между словами, они склонны использовать определенные слова и фразы чаще, чем человек. Не существует конкретного списка слов и фраз, которые служат явными сигналами, указывающими на их искусственное происхождение. Но если вы достаточно часто пользуетесь генерацией нейротекстов, например в ChatGPT, вы рано или поздно начнете их замечать.

Так, нейробот ChatGPT часто использует следующие слова и выражения: «захватывающе», «удивительно», «замечательно», «революция в пути», «преобразующая сила», «новаторское продвижение», «делает нас на шаг ближе», «раздвигаем границы», «прокладываем путь» и так далее. Все они неконкретны и достаточно банальны (шаблонны). Также должны вызвать подозрения неоднократно встречающиеся выражения и повторяющиеся обороты вроде таких: «следует отметить, что…», «считается, что…» или слишком учтивые фразы (перебор в почтительности, вежливости).

Безусловно, такие слова и выражения вполне можно использовать при написании и собственных текстов. Примеры выше — лишь один из моментов особенности работы ИИ, на который следует обратить внимание, анализируя текст на предмет его генерации бот-машиной. Но по одному подобному признаку нельзя на 100% сделать вывод об искусственном происхождении слов и словосочетаний.

Смотрите также

От БЯМ до галлюцинаций: краткий словарь для понимания, что такое искусственный интеллект

Ссылка на статью

Стиль написания

Текст сгенерирован нейросетью. Его выдает обилие типичных ярких фраз

Впечатляет, как быстро ИИ может сгенерировать ответ на запрос, особенно если вы работаете с мощным БЯМ. И хотя некоторые из таких нейротекстов могут выглядеть весьма натурально и естественно, если внимательно читать, то можно начать замечать различные «причуды», которые большинство людей в речи и на письме не используют.

Независимо от того, берете ли вы на вооружение модель YandexGPT, Gemini от Google или GPT от OpenAI, ИИ «имеет дурную привычку» использовать в своих сочинениях цветистые слова и выражения (фразы, изобилующие прилагательными, называются цветистыми), как если бы бота обучали на не самых лучших рекламных текстах.

Искусственный интеллект будто настойчиво пытается «продать» вам то, что он выдает: например, город, о котором он пишет, часто в тексте будет «неотъемлемой частью», «динамично развивающимся» и «краеугольным камнем» страны, в которой он находится; аналогия, которую бот использует, будет, как правило, сопровождаться словами «блестяще», «блестящая» и т. п. Как бы таким образом машина будет подчеркивать общий аргумент в своем ответе. Если речь будет идти о каком-то негативном последствии, оно часто будет не просто плохим, а «разрушительным». Ни на одном из этих примеров нельзя ставить штамп «тест на человечность не пройден», но если вы прочитаете достаточно много нейротекстов, вы сразу почувствуете примесь искусственности, и вам, возможно, начнет казаться, что ваш бот-собеседник — «взбесившийся сумасшедший словарь».

Это становится еще более очевидным, когда чат-бот пытается использовать с вами непринужденный тон. Например, если он выдает себя за реального человека, то часто будет выглядеть слишком активным, восторженным и слишком увлеченным. Справедливости ради стоит отметить, что модель GPT-4o от ChatGPT усовершенствована и теперь дает более лаконичные ответы на личные запросы, но обновленный чат-бот Meta AI (бот принадлежит компании Meta, которая признана в РФ экстремистской и запрещена) по-прежнему старается выступать в беседе с человеком в роли лучшего его друга и психотерапевта всякий раз. Особенно когда пользователь (или тестировщик, обучающий машину) рассказывает нейроботу о выдуманной проблеме.

Если вы читаете статью реального автора, в которой излагаются аргументы и факты, обратите внимание на то, как выстроены его тезисы. Тот, кто попросит ИИ написать эссе на какую-либо тему, дав не слишком много информации, наверняка получит текст, в котором мало доводов. Больше будет бла-бла-бла и в основном одна вода в тексте.

Пример генерации текста от нейросети Яндекса. Типичный пример текста в стиле бла-бла-бла и некакой конкретики

Машина, скорее всего, выдаст короткие абзацы текста с поверхностными, размытыми по смыслу высказываниями, которые мало что добавляют к доказательствам мысли или способствуют развитию повествования, маскируя эти недостатки вышеупомянутыми прилагательными в превосходной степени и цветистыми фразами.

Каждый абзац может показаться скорее кратким изложением объяснений, доказательств, подтверждений, чем попыткой внести подробный расклад в тему. Помните, что БЯМ даже не знает, о чем бот так пафосно трактует; он просто соединяет слова, которые, по его мнению, подходят друг к другу. И всё. Как видите, нет тут никакого искусственного разума. До него машинам еще как до Марса.

Если вам кажется, что вы, прочитав статью, не узнали ничего нового, возможно, это дело рук искусственного интеллекта. Не факт, конечно, но стоит присмотреть к тексту дальше.

Проверка фактов и вычитка

БЯМ — это «черный ящик». Их обучение настолько сложное, что мы не можем заглянуть внутрь и узнать, как именно они поняли взаимосвязь между словами. Мы знаем только то, что все ИИ способны (и склонны) к галлюцинациям: другими словами, они просто «фантазируют», если им не хватает информации для ответа.

Опять же, БЯМ на самом деле ничего не знают: они просто предсказывают шаблоны сочетаний слов на основе базы данных, которую они собрали во время своего обучения. И хотя многое из того, что они выдают, скорее всего, основано на правде, иногда они просто попадают «пальцем в небо», и мы получаем странные результаты, порой ну очень странные. Если вы читаете текст и видите, что то или иное утверждение, которое, как вы знаете, не соответствует действительности, подается как неоспоримый факт, особенно без указания источника информации, отнеситесь к этому скептически.

С другой стороны, подумайте о том, сколько корректуры потребовалось этому материалу. Если в нем нет ни одной опечатки или грамматической ошибки, это тоже признак нейросети: да, нейромодели могут ошибаться в текстах, выдавая неправильные ответы или просто какую-то абракадабру, но они не допускают опечаток! Конечно, автор-человек мог идеально вычитать текст, который затем, возможно, проверил крутой редактор и корректор, расставив все точки над «i», но, тем не менее, к подобным текстам нужно быть внимательным, потому что не исключено, что он сгенерирован с помощью искусственного интеллекта. Имейте в виду, что перфекционизм должен настораживать.

Используйте детектор текстов ИИ (но доверять им безоговорочно тоже не стоит)

ИИ-детекторы, как и БЯМ, основаны на моделях искусственного интеллекта. Однако вместо того, чтобы обучаться на больших объемах разных документов, эти нейропомошники «натаскивают» специально только на продукцию, сгенерированную ботами. Теоретически это означает, что они должны уметь распознавать нейротексты, когда им предоставляется образец на анализ. Но это не всегда работает. Увы.

Различные авторы, оценивая подобные проверяторы, приходят к выводу об их несовершенстве. Например, один из нейродетекторов (Zerogpt) на 87,6% «уверен», что первые три статьи первого раздела Конституции РФ сгенерирована искусственным интеллектом, как, впрочем, и некоторые публикации The New York Times от 2015 года, задолго до появления современных БЯМ.

На рынке представлено множество анализаторов ботов, и, возможно, некоторые из них лучше других. Если вы найдете такой нейроопределятор, надежно распознающий не только тексты, которые, как вы ТОЧНО знаете, были созданы человеком, но и нейротексты, которые наверняка являются продукцией ИИ, продолжайте тестировать контент с его помощью. Но помните, что, даже если подобные проверки всегда точно устанавливают сгенерированный текст, это не означает, что на каком-нибудь очередном примере подобная проверка не может привести к ошибке.

Эксперты же считают, что лучший метод отделить зерна от плевел — по-прежнему самостоятельный подробный и вдумчивый анализ. С каждым днем ИИ-тексты становятся все более реалистичными (и это неудивительно — машины учатся), но все еще имеют множество признаков, которые выдают участие бот-машины, и вы точно узнаете об этом, если будете внимательно анализировать то, что читаете. И конечно, не забывайте про фактчекинг — проверку фактической точности сомнительных сообщений, заявлений, статей, видео на основе перепроверки фактов, аргументов, объяснений и доводов в различных источниках.

^{Обложка: 1GAI.ru / Стейси Чжу}

^{Источник статьи: How to Tell If What You’re Reading Was Written By AI}