Читать нас в Telegram
Иллюстрация: Настя Малафеева

Утечки через онлайн-переводчики 

Translate.com — это платформа для перевода текстов на более чем 90 языков с помощью технологий искусственного интеллекта и людей-переводчиков. По данным на октябрь 2024 года, общее количество визитов на сайт Translate.com составило 1,8 млн. 

В 2017 году Translate.com оказался замешан в скандале с утечкой данных. Специалисты Tekna, Норвежского общества в области технических и научных исследований, обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов были корпоративными, не предназначенными для широкой публики. Среди них — уведомления об увольнении, планы сокращения штата и передачи на аутсорсинг, пароли, кодовая информацию и контракты. Эксперт Tekna обьяснила, что текст, переведенный с помощью Translate.com, сохранился в облаке и поэтому был доступен онлайн всем желающим.

Одна из компаний, чьи документы оказались в открытом доступе, — норвежский нефтяной гигант Statoil. После обнаружения утечки представители Statoil сразу же заявили в медиа, что слив касался «неконфиденциальной» информации. Тем не менее они связались с Translate.com и попросили, чтобы те удалили данные. В официальном письме Translate.com обьяснили, что тексты, которые были переведены через их сайт, могут быть использованы для повышения качества переводов, а содержащаяся в этих текстах информация является открытой. Некоторые из таких документов и были проиндексированы Google.

Из официального письма Translate.com: «Имейте в виду, что любая информация, включая личную, которую вы решите раскрыть на публичных сервисах Translate.com, может быть доступна другим потребителям и компаниям. Она может появиться на других веб-сайтах или в результатах веб-поиска и может быть прочитана, собрана и использована другими»

Скандал с утечкой не обошел и Google Translate. В 2017 году немецкая журналистка Свеа Эккерт (Svea Eckert) и дата-сайентист Андреас Дьюс (Andreas Dewes) ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. В базе, полученной от брокера данных, была история просмотров 3 млн немецких пользователей, 9 млрд URL-адресов и связанных с ними временных меток. Никаких других идентификаторов не было. 

Имея на руках эту базу, журналистке и исследователю удалось восстановить, какие страницы сайтов посещали политики, судьи и даже их собственные коллеги по работе. А благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.

О рисках использования машинных переводчиков предупреждают многие специалисты. Угрозы безопасности данных и конфиденциальности — важнейший из киберрисков такого типа. Если информация была обработана бесплатными онлайн-переводчиками, она с большой вероятностью подвержена взлому или утечке. Остается открытым вопрос о том, кто должен нести ответственность за ущерб, вызванный использованием таких сервисов. 

Утечки через антиплагиат-сервисы

Зарубежные и русскоязычные сервисы антиплагиата работают по одинаковой схеме. Для проверки нужно загрузить на сайт текст или целый файл, и система покажет процент уникального контента. Все неуникальные слова и выражения будут подкрашены, а ниже указан список источников с похожим содержанием. В России самые популярные сервисы для выявления плагиатаContent Watch, Text.ru, eTXT, «Адвего», «Антиплагиат» и «Руконтекст». Достоверно выяснить, сохраняются ли где-то документы, однажды загруженные на такие сервисы, очень сложно. Руководители русскоязычных платформ утверждают, что проверяемые тексты нигде не сохраняются и не могут быть просмотрены никем, кроме тех, кто этот текст загрузил. На сайтах сохраняются только отчеты по проверкам, в которых содержится итоговая уникальность. Пользователь может удалить проверенный текст и информацию о нем в любой момент.

Инструкция пользователя системой «Антиплагиат» утверждает, что копии загруженных текстов не сохраняются

Об этом заявляют и зарубежные сервисы антиплагиата. Например, на сайте Plagiarism Checker X указано, что сервис не требует от пользователей хранения загруженного ими контента. Кроме того, никакая информация не хранится на сайте и не передается третьим лицам. 

Но не все сервисы работают так же. По итогам проверки 32 зарубежных сервисов антиплагиата на сайте Essayscam.org выяснилось, что: 

  • лишь 28% сервисов утверждают, что не сохраняют уже проверенный контент пользователей; 
  • 44% не дают никакой информации, что происходит с уже загруженным на их сервисы контентом;
  • 25% онлайн-сервисов антиплагиата все-таки сохраняют контент в собственных базах данных, и из них только 13% открыто признают, что используют его в коммерческих или некоммерческих целях.

Авторы проверки делают вывод, что использование онлайн-«антиплагиаторов» может быть очень рискованным. Большинство бесплатных инструментов для проверки на плагиат не сообщают пользователям, как они управляют, хранят и используют проверенные тексты. Более того, есть сервисы, которые публикуют представленный контент как свой собственный и сами себе предоставляют «лицензию» на его использование без ограничений. 

Утечки через сервисы редактирования текста 

Grammarly (внесен в реестр запрещенных в РФ) — один из самых популярных англоязычных сервисов для редактирования уже написанного текста. С помощью ИИ он проверяет готовый текст пользователя и дает рекомендации по улучшению. Помимо веб-редактора с бесплатной базовой проверкой, у Grammarly есть интеграции с браузером, MS Word и Google Docs, приложения для клавиатуры и другие продукты. В 2023 году у сервиса было 30 млн пользователей по всему миру.

Пользователи, особенно те, кто работает с конфиденциальными текстами, регулярно задают вопросы о безопасности Grammarly.

Заголовок треда на Reddit: «Онлайн-сервисы, которые вы на 100% должны заблокировать, — например, Grammarly.com». Пользователь, который работает в государственной организации, уверен, что сервис представляет потенциальную угрозу безопасности, сохраняет данные пользователей и, возможно, передает их третьим лицам

Действительно, у Grammarly были проблемы с безопасностью. Например, в 2018 году в расширении Grammarly для браузеров была обнаружена уязвимость. Расширение содержало ошибку, которая делала токены аутентификации доступными для веб-сайтов. С помощью нескольких команд в консоли браузера любой мог получить доступ к данным, введенным пользователем в редакторе Grammarly. Сервис быстро исправил уязвимость — всего через несколько часов после обнаружения проблемы. Компания заявила, что данных о том, что кто-то действительно воспользовался этой ошибкой, нет. 

Дэвид Мёрфи (David Murphy), старший редактор портала Lifehacker.com, пишущий о технологиях, уверен, что расширение Grammarly собирает все данные, которые вводятся в него, обрабатывает их и, предположительно, удаляет по завершении работы. По его словам, звучит это вполне безобидно, и руководство Grammarly заверяет, что их меры по обеспечению конфиденциальности работают. Но использование сервиса — это все-таки «вопрос доверия». 

По-видимому, это верно и для других программ редактирования текста. Например, в политике защиты данных «Орфограммки», сервиса для онлайн-проверки пунктуации, грамматики и стилистики русскоязычных текстов, прямо указано, что компания использует данные пользователей для улучшения качества сервиса. Тексты, которые пользователь загрузил в редактор «Орфограммка», хранятся обезличенно (невозможно связать документ с его владельцем) и ограниченное время (30 дней), а затем удаляются. 

В таких случаях пользователь может только поверить компании на слово.

Утечки через умные колонки 

В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. По данным издания, среди прослушиваемых записей оказались личные беседы между врачами и пациентами, разговоры о покупке наркотиков и записи занятий сексом. Информатор газеты утверждал, что к этим записям прилагались пользовательские данные с указанием местоположения, контактных данных и информации о приложении.

Apple признала, что нанимаемые компанией подрядчики прослушивают некоторые записи, сделанные Siri, чтобы оценить работу ассистента и улучшить его функционал. При этом компания заявила, что речь идет о небольшом количестве — менее 1% от всех случайно отобранных записей — и они никак не связаны с конкретными пользователями. Тем не менее, Apple приняла решение о временной приостановке такой практики и пообещала в будущем дать пользователям возможность отказаться от варианта, при котором их записи могут быть прослушаны. Кроме того, это будут делать только сотрудники Apple, а не сторонние подрядчики.

Apple — не единственная компания, в которой сотрудники-люди контролируют и проверяют работу голосовых помощников. В том же 2019 году выяснилось, что Amazon нанимает сотрудников для прослушивания некоторых записей через Alexa, а сотрудники Google делают то же самое через Google Assistant.

Похожая история произошла еще раньше, в 2017 году, с русскоязычным голосовым помощником «Алиса». На сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса». Интерфейс позволял не просто прослушивать записи, но и загружать их на компьютеры исполнителей. Некоторые медиа-издания назвали это полноценным сливом. Пресс-служба «Яндекса» объяснила, что распределение заданий в «Толоке» гарантирует полную анонимность запросов. У толокера нет возможности идентифицировать пользователя, который задал запрос. Из десятков миллионов запросов, случайным образом распределяемым по толокерам, нет никакого способа извлечь информацию о конкретном пользователе. Тем не менее компания обещала провести дополнительный аудит всех процессов на предмет общей безопасности персональных данных.

На сегодня сервис «Толока» недоступен для жителей РФ и Республики Беларусь, он больше не принадлежит российскому «Яндексу». Сейчас платформа фокусируется на привлечении англоязычных сотрудников из Индии и других стран

В 2023 году, после информации об утечке исходных кодов «Яндекса», слухи о том, что голосовой помощник «Алиса» может подслушивать людей («Сибирь.Реалии» внесены в список иностранных агентов Минюста РФ), возобновились. После расследования в компании признали, что сотрудники могли удаленно включать микрофоны на колонке на несколько секунд, даже если вызов «Алиса» не упоминался пользователем. Такая настройка применялась только в бета-версии колонки. Компания заявила, что в этой версии  участвовали лишь сотрудники «Яндекса». При этом, если микрофон на станции был выключен кнопкой mute, запись была невозможна даже в «бете».

Как происходят утечки через онлайн-сервисы?

Проанализировав эти и другие случаи утечек, можно сформулировать основные причины «слива» пользовательских данных:

  • Недобросовестные сотрудники или подрядчики.

Сторонние лица нередко имеют доступ к личным данным пользователей. Они могут читать переписку, прослушивать записи, просматривать конфиденциальные документы. Нельзя предугадать заранее, как они воспользуются получаемой информацией. Риски растут при использовании в работе сервисов краудсорсинговых платформ с большим числом исполнителей. 

  • Технические уязвимости.

Программное обеспечение уязвимо для кибератак, а системы защиты не всегда срабатывают моментально. Злоумышленники могут получать ключи доступа и перехватывать персональную информацию. Время между обнаружением уязвимости и ее закрытием — критический период риска. Как в случае с Grammarly, когда уязвимость обнаружена, но еще не устранена, у злоумышленников открывается «окно возможностей» для атаки. 

  • Несовершенная политика использования данных.

Некоторые сервисы оставляют за собой право сохранять и использовать загруженный контент. Пользователи фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса. Есть компании, которые  рассматривают личную информацию как товар для продажи или таргетинга. Их политики конфиденциальности могут содержать лазейки для передачи данных третьим лицам. 

Можно ли защититься от утечек? 

Опытные пользователи, регулярно использующие онлайн-сервисы, давно размышляют, как минимизировать риски «слива» личных данных. Никаких универсальных инструкций, гарантирующих защиту от неприятностей, нет. 

  1. Общий принцип таков: если вы пользуетесь бесплатным онлайн-сервисом, вы можете быть почти уверены, что ваш текст будет использоваться для «улучшения предоставляемых услуг». Например, весь ваш текст целиком или его часть могут быть показаны другим пользователям, если они загрузят в сервис похожие исходные сегменты.
  2. При этом условия использования платных сервисов могут отличаются от условий использования бесплатных и даже гарантировать вам защиту данных — как минимум на словах. 
  3. Проблема многих сервисов заключается еще и в том, что рядовому пользователю сложно проверить, насколько хорошо обеспечивается безопасность. Поэтому принцип «доверяй, но проверяй» практически нереализуем — и это относится даже к сервисам больших компаний вроде Microsoft и Google. 
  4. Если вы не отправляете свои документы неизвестному сервису, если используете хорошо себя зарекомендовавший онлайн-сервис с прозрачной политикой и анонимизируете любые конфиденциальные данные, вы в относительной безопасности. При этом ваш клиент или работодатель может запретить пользоваться такими сервисами — и он, скорее всего, будет прав. 

Источники

  1. Translate.com [Электронный ресурс] // 2011–2025. URL: https://www.translate.com/faq (дата обращения: 15.12.24).
  2. Similarweb [Электронный ресурс] // 2025. URL: https://www.similarweb.com/ru/website/translate.com/#technologies (дата обращения: 15.12.24).
  3. Line T., Martin H. W. Z., Øyvind B. S. Warning about translation web site: Passwords and contracts accessible on the Internet [Электронный ресурс] // 2017. URL: https://www.nrk.no/urix/warning-about-translation-web-site_-passwords-and-contracts-accessible-on-the-internet-1.13670874 (дата обращения: 15.12.24).
  4. Susan R. Data Privacy Attacks: The Alarming Risk of Reconstruction Attacks on Seemingly Anonymous Data [Электронный ресурс] // 2024. URL: https://www.antigranular.com/blog/data_privacy_attacks_the_alarming_risk_of_reconstruction_attacks_on_seemingly_anonymous_data (дата обращения: 15.12.24).
  5. Carmen C., Angelika O. Risks in neural machine translation [Электронный ресурс] // 2020. DOI: https://doi.org/10.1075/ts.00021.can. URL: https://www.jbe-platform.com/content/journals/10.1075/ts.00021.can (дата обращения: 15.12.24).
  6. Clair B. GDPR: Beware Data Leaks via Online Search and Translation Tools [Электронный ресурс] // 2017. URL: https://www.todaytranslations.com/news/gdpr-beware-data-leaks-via-online-search-and-translation-tools/ (дата обращения: 15.12.24).
  7. Лукьянов А. 6 сервисов проверки на плагиат — тест возможностей [Электронный ресурс] // 2021–2024. URL: https://texterra.ru/blog/testiruem-servisi-proverki-na-plagiat-dlya-statey-i-studencheskikh-rabot.html?ysclid=m4o40ay76a498704143 (дата обращения: 15.12.24).
  8. Content Watch [Электронный ресурс] // URL: https://content-watch.ru/text/ (дата обращения: 15.12.24).
  9. Text.ru [Электронный ресурс] // 2011–2025. URL: https://text.ru/ (дата обращения: 15.12.24).
  10. Etext.ru [Электронный ресурс] // 2025. URL: https://www.etxt.ru/antiplagiat/?ysclid=m4o5585svz413352204 (дата обращения: 15.12.24).
  11.  Адвего [Электронный ресурс] // 2024. URL: https://advego.com/antiplagiat/?ysclid=m4o56180b1616177945 (дата обращения: 15.12.24).
  12. Антиплагиат [Электронный ресурс] // 2005–2025. URL: https://antiplagiat.ru/ (дата обращения: 15.12.24).
  13. Руконтекст [Электронный ресурс] // 2016–2019. URL: https://text.rucont.ru/?ysclid=m4o56xhdfm359286550 (дата обращения: 15.12.24).
  14. Иова Е. Сервисы проверки уникальности воруют контент?! [Электронный ресурс] // 2016. URL: https://1ps.ru/blog/texts/2016/servisyi-proverki-na-unikalnost/ (дата обращения: 15.12.24).
  15. Plagiarism Checker X [Электронный ресурс] // 2025. URL: https://plagiarismcheckerx.com/what-is-privacy#:~:text=Plagiarism%20Checker%20X%20does%20not,to%20any%20individuals%20or%20organizations (дата обращения: 15.12.24).
  16. The Truth about Online Plagiarism Detection Tools and Software [Электронный ресурс] // URL: https://essayscam.org/truth-plagiarism-detection-tools/#:~:text=Students%2C%20teachers%2C%20authors%20%2F%20bloggers,intellectual%20property%20violations%20are%20concerned (дата обращения: 15.12.24).
  17. Craig S. Grammarly Statistics and User Count for 2024 [Электронный ресурс] // 2024. URL: https://expandedramblings.com/index.php/grammarly-statistics-facts/ (дата обращения: 15.12.24).
  18. Reddit [Электронный ресурс] // 2023. URL: https://www.reddit.com/r/sysadmin/comments/109iffz/online_services_you_block_100_without_question/ (дата обращения: 15.12.24).
  19. Patrick H. O. Bug in Grammarly browser extension exposes what a user ever writes [Электронный ресурс] // 2018. URL: https://cyberscoop.com/bug-in-grammarly-browser-extension-exposes-virtually-everything-a-user-ever-writes/ (дата обращения: 15.12.24).
  20. Орфограммка [Электронный ресурс] // 2012–2025. URL: https://orfogrammka.ru/privacy/?ysclid=m4o8zcjsot163711648 (дата обращения: 15.12.24).
  21. Alex H. Apple contractors ‘regularly hear confidential details’ on Siri recordings [Электронный ресурс] // 2019. URL: https://www.theguardian.com/technology/2019/jul/26/apple-contractors-regularly-hear-confidential-details-on-siri-recordings (дата обращения: 15.12.24).
  22. Apple [Электронный ресурс] // 2025. URL: https://www.apple.com/newsroom/2019/08/improving-siris-privacy-protections/ (дата обращения: 15.12.24).
  23. Alex H. Amazon staff listen to customers’ Alexa recordings, report says [Электронный ресурс] // 2019. URL: https://www.theguardian.com/technology/2019/apr/11/amazon-staff-listen-to-customers-alexa-recordings-report-says (дата обращения: 15.12.24).
  24. Мамчуева О. Обновлено: На Яндекс.Толоке можно скачать голосовые запросы к Яндексу [Электронный ресурс] // 2017. URL: https://searchengines.guru/ru/news/45603 (дата обращения: 15.12.24).
  25. Яндекс [Электронный ресурс] // 1997–2025. URL: https://yandex.ru/company/news/30-01-2023 (дата обращения: 15.12.24).
  26. Слабиев А. В. «Яндексе» опровергли слухи о том, что «Алиса» подслушивает людей [Электронный ресурс] // 2023. URL: https://secretmag.ru/news/v-yandekse-oprovergli-slukhi-o-tom-chto-alisa-podslushivaet-lyudei-01-02-2023.htm (дата обращения: 15.12.24).
  27. Mats D. N. How (un)safe is machine translation? [Электронный ресурс] // 2018. URL: https://tradosstudiomanual.com/?p=1448 (дата обращения: 15.12.24).
  28. Toloka [Электронный ресурс] // URL: https://toloka.ai/tolokers?ysclid=m4ppext71s314693579 (дата обращения: 15.12.24).
  29. David M. Should You Use Grammarly Anymore? [Электронный ресурс] // 2019. URL: https://lifehacker.com/should-you-use-grammarly-anymore-1833585995 (дата обращения: 15.12.24).
  30. Grammarly [Электронный ресурс] // 2025. URL: https://www.grammarly.com/ (дата обращения: 15.12.24).