Большие данные Большого террора

Жертвами советского государственного террора стали миллионы людей. От тех, кто погребен в расстрельных рвах Бутовского полигона и «Коммунарки», надорвался на Беломорканале или замерз на рудниках Колымы, не осталось почти ничего. Но репрессивная машина не работает без бюрократии. Память об уничтоженных ею людях хранят расстрельные списки, архивы с уголовными делами, посмертные справки о реабилитации. Теперь эта память становится цифровой — и открывается для исследований.

Всех поименно назвать

Сбором и оцифровкой данных о репрессиях занимается «Международный Мемориал». Сотрудники «Мемориала» собирают информацию из региональных Книг памяти, архивов ФСБ и МВД, создавая единую базу жертв. Сегодня база «Мемориала» содержит более 3 миллионов записей с информацией о дате и месте рождения, месте проживания и работы, дате ареста и приговоре:

Число записей в базе не равно числу людей. Некоторые записи в источниках содержали информацию о репрессии целой семьи, а не одного человека. А иногда репрессированные дублировались в разных источниках. Базу уже чистили от дублей, удалив около 70 тыс. записей, однако и сегодня повторы остаются актуальной проблемой.

Железнодорожные музыканты и бойщики скота

Есть и другие проблемы — например, стандартизация названий профессий. Если заглянуть в исходные данные базы в официальном github-репозитории «Мемориала», можно увидеть, что в таблице есть такие профессии, как «музыкант в железнодорожном оркестре», «преподаватель истории партии в вузах Москвы», «бойщик скота пригородного хозяйства», «полисмен» (sic!) и т.д. Многие профессии написаны с ошибками («бугалтер», «штуратур»). В результате никакие обобщения и осмысленный поиск невозможны: почти все записи в графе «профессия» оказываются уникальными.

С нормализацией, стандартизацией и очисткой связана большая часть проблем базы жертв репрессий. Практически все данные «Мемориала» создавались и заносились вручную. Основные источники имен — Книги памяти жертв репрессий — публикуются в регионах по инициативе снизу и сильно отличаются друг от друга. А в некоторых регионах — не публикуются. Нет их и в части бывших союзных республик.

Memo.data

В последние годы «Мемориал» проводит специальные хакатоны по работе с данными о жертвах репрессий, в которых участвуют команды неравнодушных программистов, лингвистов и других специалистов. Вместе они пытаются найти решения для очистки и нормализации списков — или использовать имеющиеся данные для исследования репрессий.

Участники хакатона прошлого года попытались решить часть проблем. Например, для профессий сделали нормализацию при помощи лингвистических правил и перевода из женского рода в мужской (псаломщица -> псаломщик) — вместе это позволило сократить число «уникальных» профессий в 17 раз. Самыми частотными профессиями после нормализации предсказуемо стали «рабочий» и «колхозник». Затем та же команда применила методы дистрибутивной семантики, о которых «Системный Блокъ» уже рассказывал, чтобы обобщить профессии в 10 крупных кластеров по сходству. Другие проекты прошлогоднего хакатона были посвящены автоматической идентификации членов одной семьи, выделению ключевых слов в 5-тысячном корпусе писем из лагерей, картографированию массовых депортаций.

География репрессий волнует многих исследователей, и поэтому на основе данных «Мемориала» созданы несколько ресурсов с геопривязкой. Самый известный — московский «Это прямо здесь» (бывшая «Топография террора»). Здесь житель Москвы может буквально в двух шагах от себя обнаружить места массовых расстрелов, здания тюрем, лагерей и лагпунктов, захоронения расстрелянных. Всего — свыше 830 объектов.

Отдельно существует поадресная база расстрелянных в Москве.

Не только жертвы, не только репрессий

База жертв — не единственные данные «Мемориала». Одновременно его сотрудники собирают информацию о сотрудниках НКВД. Сейчас известны имена свыше 41 тыс. человек, работавших в репрессивной системе. Эти сведения были извлечены несколькими исследователями вручную из наградных приказов и (реже) из газет. О многих сотрудниках НКВД неизвестно ничего, кроме имени, места службы и звания в момент награждения. Пополнение базы сильно зависит от скорости рассекречивания архивов и работы исследователей в регионах. Данные по сотрудникам НКВД в машиночитаемом виде, выгруженные для хакатона, можно найти в репозитории «Мемориала». Актуальную версию нужно запрашивать у авторов базы.

Третья крупная база — база остарбайтеров, т.е. жителей оккупированных территорий СССР, перемещенных для работы в Германию и возвратившихся после войны. В советское время остарбайтеры (7 млн человек, до 4% населения) старались скрыть этот факт своей биографии. База появилась случайно: в 90-е годы один журналист по ошибке написал, что «Мемориал» занимается выплатами компенсаций остарбайтерам. После публикации общество получило 320 тыс. писем — они и стали основой для базы данных.

Заключение: цифры и люди

Масштабы репрессий XX века таковы, что даже трехмиллионная база жертв оказывается не просто неполной — фрагментарной. По оценке самого «Мемориала», сейчас она покрывает около 20% репрессированных. Так же фрагментарна и база сотрудников НКВД. Почти нет шансов получить полную картину репрессий первых лет большевистской власти — тогда расправы над «классовыми врагами» производились стихийно и часто вообще не документировались. Но даже о событиях Большого террора 30-х годов, когда ход репрессивной машины обеспечивала бюрократия и имитация судопроизводства, мы тоже знаем мало. Многое остается скрытым в архивах, неоцифрованным, многое хранится разрозненно и без единого стандарта. Все это пока не дает возможности создать базу, которая раскрывала бы масштабы репрессий и позволила бы всесторонне исследовать главную гуманитарную катастрофу XX века в России.

Компьютерные технологии позволяют человеку преодолевать проклятие масштаба. С помощью электронных карт мы можем одновременно смотреть на планету с космической высоты — и тут же спускаться на конкретную улицу, чтобы увидеть отдельный дом. С помощью корпусов текстов — делать выводы о языке на материале миллионов слов, но одновременно находить примеры в конкретных произведениях Пушкина или Толстого. Так и оцифрованные данные обо всех жертвах репрессий позволяют увидеть миллионные масштабы террора — не теряя из вида отдельного человека. А тот, кто увидел и почувствовал за цифрами статистики человека, уже не может стать палачом.

«Системный Блокъ» благодарит сотрудников «Международного Мемориала» Екатерину Павленко и Александру Поливанову за помощь в подготовке поста.

Автор: Даниил Скоринкин

Теги:by_dh_hse, гулаг, данные, история, мемориал

Большие данные Большого террора

Всех поименно назвать

Железнодорожные музыканты и бойщики скота

Memo.data

Не только жертвы, не только репрессий

Заключение: цифры и люди

О проекте

СОЦСЕТИ

Теги

Темы

Большие данные Большого террора

Всех поименно назвать

Железнодорожные музыканты и бойщики скота

Memo.data

Не только жертвы, не только репрессий

Заключение: цифры и люди

Читать по теме:

От поля битвы к байтам: как устроена Всемирная база данных исторических сражений

Тест: что вы знаете о цифровой эпиграфике?

О проекте

СОЦСЕТИ

Теги

Темы