Историческая криптография ― дисциплина, которая занимается расшифровкой кодов в документах прошлого. Если прежде она основывалась на практически «ручном» труде учёных, то сейчас они используют методы машинного обучения и нейросети. Участники международного проекта DECRYPT соединяют инструменты компьютерного зрения и корпусной лингвистики, чтобы на материале исторических документов разрабатывать алгоритмы для их дешифровки. В нашем материале мы расскажем, как им удалось прочитать тайную переписку королевы Шотландии Марии Стюарт с дипломатом Мишелем де Кастельно.
Кто такая Мария Стюарт
Мария Стюарт была королевой Шотландии в 1542–1567 годах, однако отреклась от престола в пользу своего сына Якова VI и бежала в Англию. Там по приказу Елизаветы I Тюдор её заключили под стражу, и Мария провела в Шеффилдском замке 19 лет.
На протяжении этих лет она вела переписку с французским послом в Англии Мишелем де Кастельно и его семьёй, причём часть этих писем напрямую касалась политической обстановки и была написана специальными шифрами. Секретный канал коммуникации связывал Марию и её сторонников, прежде всего, разделявших католические идеи. Это позволяло бывшей шотландской королеве, даже находясь в заключении, получать информацию о важнейших политических перипетиях в Европе XVI века.
Судьба опальной королевы сложилась печально. В 1587 году Марию Стюарт судили по обвинению в заговоре против Елизаветы I и казнили.
Николас Хиллиард. Ок. 1578 г. Мария Стюарт в Англии. Национальная портретная галерея (Лондон). Источник: Wikimedia Commons
Чем занимается историческая криптография
Изучением таких зашифрованных источников, их транскрибированием и декодированием занимается историческая криптография. Её традиционные методы применяются не одно столетие, однако требуют от исследователя длительной и кропотливой работы. К тому же расшифровку рукописных документов усложняют индивидуальные особенности почерка авторов.
Учёным известно, что для каждой эпохи существовала наиболее популярная система шифров. Например, в древнем мире наиболее часто применялись одноалфавитные шрифты (шифр простой замены или шифр Цезаря — такой код, в котором каждый символ в открытом тексте заменяется символом, находящимся на некотором постоянном расстоянии левее или правее него в алфавите). Начиная с X в., в арабском мире появились однозвучные шифры подстановки (например, книжный шифр), для чтения которых требовался ключ (номенклатура), состоящий из списка символов часто используемых слов. Это метод шифрования закрепился надолго: им пользовались на протяжении всей эпохи раннего Нового времени.
Как работает проект DECRYPT
Проект DECRYPT ― это междисциплинарная команда исследователей из разных университетов мира (от Стокгольма до Барселоны, от Амстердама до Токио). Она разрабатывает инструменты для чтения исторических шифров в архивных документах раннего Нового времени с применением нейросетевых методов. Основная задача такого подхода ― упростить подготовительную стадию для исторических изысканий. За четыре года существования проекта его участники опубликовали более 70 работ и защитили 12 диссертаций.
Сейчас на сайте DECRYPT представлены четыре разработки исследовательской команды:
- DECODE DATABASE — несколько тысяч текстов зашифрованных исторических источников и ключей к ним;
- HISTCORP — коллекция текстов раннего Нового времени и языковых моделей к ним на 16 европейских языках, включая русский;
- TRANSCRIPT TOOL — онлайн-инструмент, позволяющий преобразовать изображения в текст (недоступен на момент написания материала);
- CRYPTOOL 2 — десктопное (требующее установки) приложение для расшифровки сложных исторических и современных шифров.
Продукты, выпущенные проектом DECRYPT
Где нашли письма Марии Стюарт
В 2023 году участники проекта DECRYPT Джордж Ласри, Норберт Бирман и Сатоши Томокио опубликовали статью, посвящённую расшифровке переписки Марии Стюарт с французским послом в Англии Мишелем де Кастельно [1]. 56 писем хранились в фонде де Кастельно в Национальной библиотеке Франции. Авторство многих из них, как и язык, на котором они были написаны, долгое время оставались неизвестными. Изначально предполагалось, что, как и в большинстве документов фонда, в письмах был зашифрован текст на итальянском.
Для анализа авторы использовали исключительно документы, текст которых был закодирован полностью (каждый символ был заменён на графическое изображение). В отдельных случаях в бумагах фонда де Кастельно встречались ключи-номенклатуры, составленные в более позднее время (по всей видимости архивистами), но они не могли помочь расшифровке интересующих исследователей документов в полной мере.
Увидеть, как выглядел текст такой рукописи, можно на рисунке ниже.
Зашифрованное письмо из фонда Мишеля де Кастельно [1]
Как расшифровывали письма шотландской королевы
Ввиду довольно большого объёма материала, с которым работали исследователи (более 150 000 символов), им потребовалось специальное программное обеспечение, которое бы, в отличие от стандартных OCR-программ, могло легко распознать элементы шифра. По этой причине для транскрипции они использовали один из продуктов проекта DECRYPT — TRANSCRYPT TOOL, который позволяет выделять отдельные символы из изображения. Сопоставив тексты с языковыми моделями из другого датасета, созданного DECRYPT, авторы статьи обнаружили, что языком оригинального текста был французский.
Работа GUI (графического пользовательского интерфейса), разработанного DECRYPT для анализа шифров и встроенного в TRANSCRYPT TOOL, можно увидеть на рисунке.
Процесс распознавания символов в зашифрованных рукописных документах в специальном инструменте DECRYPT [1]
Следующим этапом работы была итеративная классификация отдельных символов. В первую очередь были выделены символы-омофоны, обозначающие конкретные буквы алфавита, и специальные символы, показывающие отдельные грамматические явления, а также распространённые предлоги, частицы и т. д. Для создания такого ключа как раз и применялись нейросетевые методы.
Так, чтобы определить ключ омофонов, исследователи использовали несколько разновидностей итеративного алгоритма Hill climbing для поиска оптимального решения. Одна из них ― алгоритм Simulated annealing ― применялся для нахождения глобального максимума совместимости. Это позволило не останавливать поиск каждый раз при нахождении локального максимума.
Использование различных алгоритмов для поиска наиболее точного буквенного ключа [1]
После частичной расшифровки учёные смогли атрибутировать эти тексты и выяснить, что они являются посланиями Марии Стюарт различным адресатам. После этого авторы смогли прочитать другие известные частично закодированные письма шотландской королевы (в том числе адресованные не только де Кастельно). Однако большая доля символов всё ещё оставалась непонятной для расшифровщиков. Машинные методы дополнили традиционными: и при помощи ручной дешифровки исследователи опознали в коде географические названия, имена и месяцы года.
Что учёные смогли прочитать
Затем они выделили характерные стилистические и орфографические ошибки, высокая частота встречаемости которых говорит о том, что они неслучайны и, возможно, возникли из-за использования не совсем точной номенклатуры или ключа при расшифровке кода. Как предполагают исследователи, вероятнее всего, это было связано с тем, что секретарь Марии Клод Но работал сразу с несколькими сходными шифрами, составляя письма для разных адресатов, и мог добавлять отдельные элементы одного шифра в другой.
Пример практически полностью расшифрованного текста письма Марии Стюарт французскому послу в Англии Мишелю де Кастельно от 16 апреля 1583 г. можно увидеть на рисунке (рукопись BnF Fr. 2988 f. 130). Поскольку письма были составлены на французском языке, учёные приложили к ним перевод на английский. Для писем, расшифровка которых требует дополнительных усилий со стороны криптографов и историков, были составлены аннотации с описанием их примерного содержания.
Письмо Марии Стюарт французскому послу в Англии Мишелю де Кастельно от 16 апреля 1583 г. [1]
Отдельные символы исследователям расшифровать всё же не удалось. Тем не менее в приложении к статье они составили обновлённый список писем Марии Стюарт, включив в него полностью зашифрованные послания, с которыми они работали в рамках проекта. Таким образом, они добавили новые документы к её эпистолярному наследию.
Зачем историкам дружить с дата-сайентистами
На первый взгляд может показаться, что в такой работе роль историка вторична: складывается ощущение, что он только помогает команде дата-сайентистов и разработчиков. Однако это далеко не так. В процессе исследования его авторы постоянно обращались за консультациями к другим членам команды-специалистам в области гуманитарных наук. Для чего им это было нужно?
Во-первых, классические методы источниковедческого анализа могут дать информацию для расшифровки отдельных групп слов (места, названия, датировки), поскольку многие термины входят в исторический контекст и упоминаются в других источниках. Во-вторых, именно историки и филологи, работающие с текстами исторических источников, наиболее погружены в исторический контекст событий и могут воспроизвести ситуацию создания того или иного источника. В-третьих, предварительный анализ содержания зашифрованных писем Марии Стюарт Мишелю де Кастельно ориентирован именно на историческое сообщество, для которого эти источники способны пролить свет на политическую ситуацию в Англии и Шотландии на момент создания писем и рассказать многое о политической культуре того времени.
Источники
- Lasry G., Biermann N., Tomokiyo S. Deciphering Mary Stuart’s lost letters from 1578–1584 [Электронный ресурс] // Cryptologia. 2023. Vol. 47, is. 2 Pp. 101–202. DOI: 10.1080/01611194.2022.2160677. URL: https://www.tandfonline.com/doi/full/10.1080/01611194.2022.2160677 (дата обращения 16.12.2023).
- Our resources and tools are open source and free [Электронный ресурс] // DECRYPT — Decryption of historical manuscripts. URL: https://de-crypt.org/#resources (дата обращения 16.12.2023).
Что ещё почитать по теме: Kahn D. The codebreakers [Электронный ресурс]. New York: The Macmillan Company, 1968. 1170 p. URL: https://ia600606.us.archive.org/30/items/B-001-001-264/B-001-001-264.pdf (дата обращения: 16.12.2023).