Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.
Термин «эго-документ», или «эго-текст», связан с латинским словом ego — «я»: уже из этого можно понять, что речь идёт о личных текстах, не предназначенных для посторонних глаз. Действительно, эго-документ — это источник личного происхождения, который создан конкретным человеком и обращён к самому себе или узкому кругу читателей. «Идеальный» эго-текст — это дневник: он субъективен, а также написан о себе самом и для себя самого.
Также к эго-документам относят:
В отличие от дневника, они часто бывают ретроспективны, а также имеют внешнего читателя.
У писем есть читатель, но они всё равно не предназначены для широкого круга лиц, а описываемые в них впечатления могут быть субъективны.
Документы такого рода чаще связаны с рабочей деятельностью автора, но однозначно провести границу между ними и дневниками не всегда возможно: например, многие из дневников, представленных в корпусе «Прожито», содержат записи, посвящённые работе.
Дневники или письма заведомо субъективны: пишущий может привирать, ошибаться, а ещё — фокусироваться на себе в ущерб объективной передаче исторической правды. Может ли эго-документ быть историческим источником?
Страница с дневником Льва Абакумова в корпусе «Прожито»
Действительно, содержание дневников или писем может не соответствовать реальности — об этом, например, предупреждает проект «Прожито», собирающий цифровой архив дневников и других эго-документов на русском языке. Несмотря на то, что принимать на веру написанное в эго-документах нужно с осторожностью, они могут быть косвенным подтверждением тех или иных событий, а также отражать отношение простых людей к происходившему.
Кроме того, эго-документы могут быть ценным источником, например, для культуролога или филолога. Так, в дневниках или в письмах раньше, чем в литературе, может быть зафиксирован новый анекдот или жаргонное слово. Поэтому эго-документы представлены и в лингвистических корпусах: в Национальном корпусе русского языка есть 3 684 документа типа «дневник» и 1 367 — типа «письмо».
Если существует много текстов в определённом жанре, значит, к ним можно применить количественные методы «дальнего чтения». Эго-документы — не исключение. Например, на основе уже упомянутого корпуса «Прожито» был разработан датасет «Размечено». Его создатели выделили внутри дневниковых записей именованные сущности: можно, например, заметить, что во время перестройки люди часто обсуждали внутреннюю политику — имена Горбачёва и Ельцина часто встречаются в корпусе. Также к текстам можно применять, например, методы тематического моделирования, как в исследовании дневников 1917 года, выполненном «Системным Блоком».
Тем не менее, к большим данным существующие корпуса эго-документов отнести сложно. Они скорее представляют собой капту, набор данных, который удалось найти исследователю, а не объективное отражение всех существовавших когда-либо эго-документов. Ещё один корпус эго-документов, коллекция открыток «Пишу тебе», предупреждает исследователя, что представленные на сайте данные не удовлетворяют критериям строгой статистической репрезентативности.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…