Вы закончили писать рабочий отчет, перевели его, проверили онлайн на плагиат и отправили в зарубежный филиал. И… теперь отчет может быть доступен не только иностранным коллегам, но и любому пользователю, умеющему гуглить. Звучит как паранойя? Вовсе нет. Утечка данных через онлайн-сервисы — реальная угроза. В чужих руках оказывается и безобидная переписка, и конфиденциальная информация. Рассказываем, как личные данные попадают в открытый доступ через редакторы текста, переводчики, антиплагиат-сервисы и умные колонки.
Иллюстрация: Настя Малафеева
Translate.com — это платформа для перевода текстов на более чем 90 языков с помощью технологий искусственного интеллекта и людей-переводчиков. По данным на октябрь 2024 года, общее количество визитов на сайт Translate.com составило 1,8 млн.
В 2017 году Translate.com оказался замешан в скандале с утечкой данных. Специалисты Tekna, Норвежского общества в области технических и научных исследований, обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов были корпоративными, не предназначенными для широкой публики. Среди них — уведомления об увольнении, планы сокращения штата и передачи на аутсорсинг, пароли, кодовая информацию и контракты. Эксперт Tekna обьяснила, что текст, переведенный с помощью Translate.com, сохранился в облаке и поэтому был доступен онлайн всем желающим.
Одна из компаний, чьи документы оказались в открытом доступе, — норвежский нефтяной гигант Statoil. После обнаружения утечки представители Statoil сразу же заявили в медиа, что слив касался «неконфиденциальной» информации. Тем не менее они связались с Translate.com и попросили, чтобы те удалили данные. В официальном письме Translate.com обьяснили, что тексты, которые были переведены через их сайт, могут быть использованы для повышения качества переводов, а содержащаяся в этих текстах информация является открытой. Некоторые из таких документов и были проиндексированы Google.
Из официального письма Translate.com: «Имейте в виду, что любая информация, включая личную, которую вы решите раскрыть на публичных сервисах Translate.com, может быть доступна другим потребителям и компаниям. Она может появиться на других веб-сайтах или в результатах веб-поиска и может быть прочитана, собрана и использована другими»
Скандал с утечкой не обошел и Google Translate. В 2017 году немецкая журналистка Свеа Эккерт (Svea Eckert) и дата-сайентист Андреас Дьюс (Andreas Dewes) ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. В базе, полученной от брокера данных, была история просмотров 3 млн немецких пользователей, 9 млрд URL-адресов и связанных с ними временных меток. Никаких других идентификаторов не было.
Имея на руках эту базу, журналистке и исследователю удалось восстановить, какие страницы сайтов посещали политики, судьи и даже их собственные коллеги по работе. А благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.
О рисках использования машинных переводчиков предупреждают многие специалисты. Угрозы безопасности данных и конфиденциальности — важнейший из киберрисков такого типа. Если информация была обработана бесплатными онлайн-переводчиками, она с большой вероятностью подвержена взлому или утечке. Остается открытым вопрос о том, кто должен нести ответственность за ущерб, вызванный использованием таких сервисов.
Зарубежные и русскоязычные сервисы антиплагиата работают по одинаковой схеме. Для проверки нужно загрузить на сайт текст или целый файл, и система покажет процент уникального контента. Все неуникальные слова и выражения будут подкрашены, а ниже указан список источников с похожим содержанием. В России самые популярные сервисы для выявления плагиата — Content Watch, Text.ru, eTXT, «Адвего», «Антиплагиат» и «Руконтекст». Достоверно выяснить, сохраняются ли где-то документы, однажды загруженные на такие сервисы, очень сложно. Руководители русскоязычных платформ утверждают, что проверяемые тексты нигде не сохраняются и не могут быть просмотрены никем, кроме тех, кто этот текст загрузил. На сайтах сохраняются только отчеты по проверкам, в которых содержится итоговая уникальность. Пользователь может удалить проверенный текст и информацию о нем в любой момент.
Инструкция пользователя системой «Антиплагиат» утверждает, что копии загруженных текстов не сохраняются
Об этом заявляют и зарубежные сервисы антиплагиата. Например, на сайте Plagiarism Checker X указано, что сервис не требует от пользователей хранения загруженного ими контента. Кроме того, никакая информация не хранится на сайте и не передается третьим лицам.
Но не все сервисы работают так же. По итогам проверки 32 зарубежных сервисов антиплагиата на сайте Essayscam.org выяснилось, что:
Авторы проверки делают вывод, что использование онлайн-«антиплагиаторов» может быть очень рискованным. Большинство бесплатных инструментов для проверки на плагиат не сообщают пользователям, как они управляют, хранят и используют проверенные тексты. Более того, есть сервисы, которые публикуют представленный контент как свой собственный и сами себе предоставляют «лицензию» на его использование без ограничений.
Grammarly (внесен в реестр запрещенных в РФ) — один из самых популярных англоязычных сервисов для редактирования уже написанного текста. С помощью ИИ он проверяет готовый текст пользователя и дает рекомендации по улучшению. Помимо веб-редактора с бесплатной базовой проверкой, у Grammarly есть интеграции с браузером, MS Word и Google Docs, приложения для клавиатуры и другие продукты. В 2023 году у сервиса было 30 млн пользователей по всему миру.
Пользователи, особенно те, кто работает с конфиденциальными текстами, регулярно задают вопросы о безопасности Grammarly.
Заголовок треда на Reddit: «Онлайн-сервисы, которые вы на 100% должны заблокировать, — например, Grammarly.com». Пользователь, который работает в государственной организации, уверен, что сервис представляет потенциальную угрозу безопасности, сохраняет данные пользователей и, возможно, передает их третьим лицам
Действительно, у Grammarly были проблемы с безопасностью. Например, в 2018 году в расширении Grammarly для браузеров была обнаружена уязвимость. Расширение содержало ошибку, которая делала токены аутентификации доступными для веб-сайтов. С помощью нескольких команд в консоли браузера любой мог получить доступ к данным, введенным пользователем в редакторе Grammarly. Сервис быстро исправил уязвимость — всего через несколько часов после обнаружения проблемы. Компания заявила, что данных о том, что кто-то действительно воспользовался этой ошибкой, нет.
Дэвид Мёрфи (David Murphy), старший редактор портала Lifehacker.com, пишущий о технологиях, уверен, что расширение Grammarly собирает все данные, которые вводятся в него, обрабатывает их и, предположительно, удаляет по завершении работы. По его словам, звучит это вполне безобидно, и руководство Grammarly заверяет, что их меры по обеспечению конфиденциальности работают. Но использование сервиса — это все-таки «вопрос доверия».
По-видимому, это верно и для других программ редактирования текста. Например, в политике защиты данных «Орфограммки», сервиса для онлайн-проверки пунктуации, грамматики и стилистики русскоязычных текстов, прямо указано, что компания использует данные пользователей для улучшения качества сервиса. Тексты, которые пользователь загрузил в редактор «Орфограммка», хранятся обезличенно (невозможно связать документ с его владельцем) и ограниченное время (30 дней), а затем удаляются.
В таких случаях пользователь может только поверить компании на слово.
В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. По данным издания, среди прослушиваемых записей оказались личные беседы между врачами и пациентами, разговоры о покупке наркотиков и записи занятий сексом. Информатор газеты утверждал, что к этим записям прилагались пользовательские данные с указанием местоположения, контактных данных и информации о приложении.
Apple признала, что нанимаемые компанией подрядчики прослушивают некоторые записи, сделанные Siri, чтобы оценить работу ассистента и улучшить его функционал. При этом компания заявила, что речь идет о небольшом количестве — менее 1% от всех случайно отобранных записей — и они никак не связаны с конкретными пользователями. Тем не менее, Apple приняла решение о временной приостановке такой практики и пообещала в будущем дать пользователям возможность отказаться от варианта, при котором их записи могут быть прослушаны. Кроме того, это будут делать только сотрудники Apple, а не сторонние подрядчики.
Apple — не единственная компания, в которой сотрудники-люди контролируют и проверяют работу голосовых помощников. В том же 2019 году выяснилось, что Amazon нанимает сотрудников для прослушивания некоторых записей через Alexa, а сотрудники Google делают то же самое через Google Assistant.
Похожая история произошла еще раньше, в 2017 году, с русскоязычным голосовым помощником «Алиса». На сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса». Интерфейс позволял не просто прослушивать записи, но и загружать их на компьютеры исполнителей. Некоторые медиа-издания назвали это полноценным сливом. Пресс-служба «Яндекса» объяснила, что распределение заданий в «Толоке» гарантирует полную анонимность запросов. У толокера нет возможности идентифицировать пользователя, который задал запрос. Из десятков миллионов запросов, случайным образом распределяемым по толокерам, нет никакого способа извлечь информацию о конкретном пользователе. Тем не менее компания обещала провести дополнительный аудит всех процессов на предмет общей безопасности персональных данных.
На сегодня сервис «Толока» недоступен для жителей РФ и Республики Беларусь, он больше не принадлежит российскому «Яндексу». Сейчас платформа фокусируется на привлечении англоязычных сотрудников из Индии и других стран
В 2023 году, после информации об утечке исходных кодов «Яндекса», слухи о том, что голосовой помощник «Алиса» может подслушивать людей («Сибирь.Реалии» внесены в список иностранных агентов Минюста РФ), возобновились. После расследования в компании признали, что сотрудники могли удаленно включать микрофоны на колонке на несколько секунд, даже если вызов «Алиса» не упоминался пользователем. Такая настройка применялась только в бета-версии колонки. Компания заявила, что в этой версии участвовали лишь сотрудники «Яндекса». При этом, если микрофон на станции был выключен кнопкой mute, запись была невозможна даже в «бете».
Проанализировав эти и другие случаи утечек, можно сформулировать основные причины «слива» пользовательских данных:
Сторонние лица нередко имеют доступ к личным данным пользователей. Они могут читать переписку, прослушивать записи, просматривать конфиденциальные документы. Нельзя предугадать заранее, как они воспользуются получаемой информацией. Риски растут при использовании в работе сервисов краудсорсинговых платформ с большим числом исполнителей.
Программное обеспечение уязвимо для кибератак, а системы защиты не всегда срабатывают моментально. Злоумышленники могут получать ключи доступа и перехватывать персональную информацию. Время между обнаружением уязвимости и ее закрытием — критический период риска. Как в случае с Grammarly, когда уязвимость обнаружена, но еще не устранена, у злоумышленников открывается «окно возможностей» для атаки.
Некоторые сервисы оставляют за собой право сохранять и использовать загруженный контент. Пользователи фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса. Есть компании, которые рассматривают личную информацию как товар для продажи или таргетинга. Их политики конфиденциальности могут содержать лазейки для передачи данных третьим лицам.
Опытные пользователи, регулярно использующие онлайн-сервисы, давно размышляют, как минимизировать риски «слива» личных данных. Никаких универсальных инструкций, гарантирующих защиту от неприятностей, нет.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…