Поклонники Assassin’s Creed всегда требовательно относились к целостности игрового мира. Проработанная историческая обстановка — одна из причин любви критиков и фанатов к франшизе. Изучать древнюю историю по играм серии, конечно, не получится, но реалистичные детали радуют внимательных игроков. Действие Assassin’s Creed: Origins происходит в эллинистическом Египте; чтобы точно воссоздать эпоху, разработчики игры из Ubisoft обратились к египтологам.
В ходе совместной работы авторы задумались, насколько долгим и трудоемким до сих пор остается процесс перевода древнеегипетского языка — и это спустя 200 лет после дешифровки иероглифов! Так появилась идея проекта The Hieroglyphics Initiative. Переводчик иероглифов на основе машинного обучения Ubisoft разрабатывают совместно с Google TensorFlow*. Задачу перевода древнеегипетского текста разбили на три этапа: извлечение нужных знаков из изображения, классификация иероглифов и перевод.
Создание такой программы связано со многими трудностями. Во-первых, древнеегипетский текст записывался как справа налево, так и слева направо. Ориентиром служат головы людей и животных, которые всегда обращены к началу строки. Однако, в редких случаях иероглифы наоборот нужно читать «со спины», например, в «Книге Мертвых»: обратное направление говорит о предназначении текста для потустороннего мира, в котором действуют иные законы. Кроме того, иероглифы могли по-разному компоноваться. Египтяне старались расположить знаки так, чтобы образовался квадрат. Программа должна уметь правильно распознавать знаки вне зависимости от их ориентации и читать текст в нужном направлении.
Во-вторых, иероглифы написаны на разных материалах, что влияет на начертание. При этом некоторые памятники древнеегипетской культуры дошли до наших дней со значительными повреждениями, что тоже осложняет задачу распознавания иероглифов на изображении.
Ну и наконец — огромное количество иероглифов. Список Гардинера**, созданный в 1927 году, насчитывает более 800 знаков, а с тех пор открыты сотни новых иероглифов! Для решения двух последних проблем авторы проекта The Hieroglyphics Initiative обратились к поклонникам Assassin’s Creed. Нужно было быстро обвести иероглиф в специальном редакторе. Для обучения нейросети разработчикам требовалось минимум 50 вариантов каждого знака.
Сообщество фанатов игры достаточно активное (просто загуглите «фанаты Assassin’s Creed» и посмотрите, чем они только не занимаются) — неудивительно, что на призыв Ubisoft откликнулись многие. Однако масштаб и скорость удивили всех. В первую же ночь удалось собрать 80 000 начертаний. Испытываете трудности со сбором данных для своих проектов? Возможно, где-то есть фандом, который поможет и вам)
Редактор, в котором поклонники игры обводили иероглифы, создан английским агентством Psycle. В настоящее время инструмент дорабатывают и собираются превратить в платформу для изучения древнеегипетского языка.
Для дальнейшей работы над переводчиком Ubisoft привлекли египтологов со всего мира. Анимация ниже иллюстрирует что-то вроде личного кабинета ученого: есть возможность разбить текст на последовательности иероглифов и соотнести значения вручную. Поучаствовать в проекте может любой желающий, связаться с организаторами можно на официальном сайте инициативы. Авторы планировали релиз готового переводчика к концу 2018 года, но он пока не состоялся — может быть, еще не поздно внести свой вклад в проект.
Вне зависимости от того, удастся полностью автоматизировать перевод иероглифов или нет, наработки The Hieroglyphics Initiative уже способны облегчить работу египтологов. Стоит ли говорить, что будет означать достижение всех целей проекта? Если Жан-Франсуа Шампольон открыл Древний Египет для научного мира, то автоматический переводчик откроет тайны древнеегипетских текстов для огромной аудитории. С нетерпением ждем релиза!
The Hieroglyphics Initiative — не первый случай применения технологий в изучении культуры Древнего Египта. О ранних разработках и современных тенденциях цифровой египтологии, а также о методах распознавания древних и современных рукописных текстов расскажем в следующих статьях.
*TensorFlow — библиотека Google для тренировки нейронной сети. Читайте наш материал о том, как устроены нейросети.
** Список Гардинера — общепринятая классификация египетских иероглифов.