Резюме создано Smart Answers AI
В итоге:
- PCWorld сообщает, что большие языковые модели могут эффективно деанонимизировать анонимные онлайн-сообщения, анализируя шаблоны в тексте и связывая их с реальными личностями на разных платформах.
- Исследователи успешно связали пользователей Reddit с учетными записями Netflix и сообщениями Hacker News с профилями LinkedIn, раскрывая личные данные, такие как возраст и информация о занятости.
- Лучшая защита от этой угрозы конфиденциальности — избегать разглашения личных данных в Интернете, поскольку даже короткие анонимные тесты могут привести к идентификации пользователя.
Большие языковые модели не подходят для многих задач, например, для подсчета пальцев или предложения рецептов пиццы. Но одно, что «ИИ» является довольно хорошо умеет анализировать огромные объемы данных и находить возможные связи, которые не сразу очевидны. Согласно новому исследованию, это делает его идеальным для разоблачения анонимных сообщений в Интернете.
Исследователи из ETH Zurich и исследовательского сообщества MATS, связанного с Беркли, запустили программу (PDF), собирающую данные из источников с обычно анонимными именами пользователей, таких как Reddit. Собирая сообщения пользователей в связанных, но разных субреддитах фильмов, а затем предоставляя данные LLM из утечки данных Netflix, они могли точно определить конкретных пользователей, связанных с этими учетными записями, и таким образом связать их с их настоящими именами.
Всего лишь одна рекомендация фильма, опубликованная на Reddit, позволяет 3,1 процента анонимных пользователей привязаться к конкретному аккаунту Netflix с точностью 90%. При распространении рекомендаций по фильмам от пяти до девяти эта цифра подскочила до 23,2 процента. С более чем 10 общими данными этот показатель подскочил до ошеломляющих 48,1 процента, при этом 17 процентов от общего числа были идентифицированы с почти полной уверенностью.
Другой эксперимент был проведен путем соединения анонимных учетных записей на Hacker News (форума, а не вредоносного сайта) с публично подтвержденными личностями в LinkedIn. Пользователи, предлагающие обобщенную информацию в коротких сообщениях с течением времени, могут с высокой степенью достоверности раскрыть свою настоящую личность, указав такие данные, как возраст, родной город, работа и т. д. Это не сработает для каждой учетной записи, и это не то, что не смог бы сделать частный детектив (или даже преданный непрофессионал)… но автоматизация и масштабы ошеломляют.
Пексели
Особенно поразительным примером стал 10-минутный анонимный опрос, проведенный исследователем антропологии из команды. Семь процентов из 125 пользователей можно было идентифицировать индивидуально на основе их текстовых ответов на анкету с экстраполированными данными, такими как их работа («Я работаю в области биологии, занимаюсь исследованиями»), история образования, конкретные инструменты и даже тип английского языка, который они использовали в своем ответе (например, британское написание слова «анализ»).
Результаты исследования не подтверждают, что кого-либо на каком-либо сайте можно было выследить по анонимной активности. Чем больше личной информации вы раскрываете, даже если она кажется общей, тем более вы уязвимы — и в этом нет ничего нового. Пользователи «доксировали» друг друга с первых дней существования Интернета и раньше, равно как и следователи правоохранительных органов и другие шпионы.
Но автоматизация этого процесса — создание систем, которые смогут просматривать Интернет и находить надежные связи между анонимными и неанонимными сообщениями — может создать новые опасности для тех, кто хочет сохранить конфиденциальность своей онлайн-активности. Эпоха социальных сетей в значительной степени вытеснила старые времена «никнеймов», но анонимные сообщества в таких местах, как Reddit, по-прежнему важны, особенно для тех, кто входит в уязвимые или целевые группы. Как говорится в документе, «деанонимизация — это один из многих способов, с помощью которых LLM расширяет возможности как преступников, так и государственных деятелей».
Как сообщает Ars Technica, исследователи предложили предложения по снижению вашего личного риска. Такие платформы, как Reddit, могут устанавливать более строгие ограничения на доступ LLM к API для личных данных, а поставщики «ИИ» могут отслеживать активность, чтобы попытаться обнаружить тех, кто использует их для попытки массовой кампании деанонимизации.
Но самый простой и надежный способ предотвратить привязку ваших личных данных к анонимной учетной записи — это, естественно, в первую очередь убедиться, что данные никогда не публикуются в Интернете.


