Читать нас в Telegram
Если бы в России второй половины XIX века были смартфоны... (в представлении DALLE-3)

Мечта об Идеальном архиве

При проведении гуманитарных исследований часто остро стоит вопрос недостатка данных об исследуемом объекте. Многие документы, книги, письма, дневники, брошюры, газеты либо утеряны, либо остаются недоступными. 

О реакции общества на какие-либо явления или процессы историкам, культурологам и социологам приходится судить по воспоминаниям нескольких десятков прославившихся современников, которые могут весьма субъективно отражать действительность, или по сохранившейся периодике, которая часто политически ангажирована и представляет информацию фрагментарно. Современники, простые люди, которые в большинстве своем в прошлом были неграмотны, не оставили никаких свидетельств о своей жизни, мыслях и мнениях.

А теперь представьте, что историк, изучающий, например, Россию при Александре II получил бы доступ ко всем письмам и заметкам каждого жителя империи при фантастическом условии грамотности подавляющего большинства населения. Вообразите также, что значительная часть общения между этими людьми велась бы в письмах и в среднем каждый из них тратил бы на написание писем 4.5 часа в день [1]. К такому типу общения прибегали бы все: крестьяне, купцы, чиновники и даже приближенные императора. При этом любой человек мог бы при желании совершенно бесплатно издавать и распространять собственную газету. Такая печать практиковалась бы повсеместно и многие подобные газеты пользовались бы огромным спросом. И самое главное – каждое письмо, каждая заметка в личном дневнике, каждый выпуск описанных газет, каждая книга и записка бережно сохранялась в огромном архиве так, что получить доступ к любому документу исследователь мог бы за пару мгновений.

Попробуйте представить возможности, которые открываются перед этим историком!

Жители фантастической Российской империи несут свои задокументированные мысли в Идеальный архив.

Мечта становится реальностью

Очевиден факт того, что в настоящий момент человечество порождает наибольшее количество информации за единицу времени в своей истории, причем значительная ее часть изначально создается в цифровом виде. При этом максимально не только среднее, но и медианное значение объемов порождаемой информации. Это значит, что вклад в порождение информации в некотором смысле пусть неравномерно, но все же распределен между всеми нами.

С появлением соцсетей большое число людей тщательно документируют свою жизнь, ведя блоги и страницы. Уже сейчас почти каждый второй россиянин пользуется мессенджером Telegram [2], примерно 74% интернет-пользователей России используют ВКонтакте [3]. Ясно, что с течением времени количество людей, использующих социальные сети и их вовлеченность в создание контента будет только расти. 

Каналы и группы в Telegram вытесняют иные средства массовой информации. Почти у каждой публичной личности, писателя, поэта, общественного деятеля, политика есть группа или канал, в который он регулярно выкладывает свои мысли и мнения касательно событий, происходящих в мире.

Появление смартфонов, доступного Интернета, первых социальных сетей и культуры ведения блогов положили начало новой эпохи, создав для исследователей-гуманитариев недалекого будущего настоящий рай.

Если раньше историки основывались на ограниченном количестве письменных свидетельств, археологических находок и официальных документов, то у исследователей будущего будет гораздо более полное и точное представление о том, как жило общество. Даже о самых обычных людях в будущем можно будет узнать невероятное количество деталей: их взгляды, привычки, интересы и круг общения.

Оставленные цифровые следы в соцсетях можно будет рассматривать как современный аналог устного и письменного творчества прошлых эпох. Анализ мемов, хештегов, шуток, флешмобов, откроет двери для изучения того, как люди в разные периоды реагировали на глобальные и локальные события.

Посты и комментарии представляют собой уникальный пласт для изучения языка, культуры и общественных мнений. В недалеком будущем анализ всех этих данных может позволить восстановить языковую картину и пространство идей с высокой детализацией. Это будет похоже на то, как если бы все люди прошлого записывали каждое своё слово.

Возможно сейчас мы являемся современниками авторов, которые через десятилетия или столетия получат широкое признание. Это молодые и пока неизвестные писатели, поэты, философы и эссеисты. Биографы будущего смогут изучать их страницы в социальных сетях, а также сообщества их поклонников или даже критиков. Современная литература также чаще всего изначально рождается в цифровом виде, причем свой цифровой отпечаток оставляют книги не только именитых авторов, но и фанатское творчество и пробы пера начинающих писателей.

Весь Интернет будет лежать у на ладони. Исследователи смогут проследить рождение новых слов, языковых норм и идей. Возможно будет исследовать распространение концептов, или даже место их рождения. Появится возможность анализировать настроения и мнения сообществ людей, объемом сопоставимым с населением целых государств, их реакции на общественные события.

Старательное и непрерывное наполнение Идеального архива данными.

Будущее уже наступило?

Действительно, для ученых будущего откроются новые горизонты, но, ведь, если вдуматься, уже сейчас возможно проведение подобных исследований. Интернет начал активно наполняться контентом примерно 20 лет назад, 10-15 лет назад широкая аудитория открыла для себя социальные сети и блоги, а во время пандемии коронавируса произошел цифровой «бум». Значит, недалекое прошлое уже оцифровано и может стать материалом для исследований.

С помощью связки Google Trends и расширенных инструментов поиска можно найти время и место возникновения нового слова, первое упоминание о каком-то событии или распространение определенного мнения на популярных некогда форумах.

Используя Python и технику distant reading через алгоритмы автоматической обработки языка возможно анализировать поражающие воображение объемы текстов и строго подтверждать или опровергать выдвинутые гипотезы. Если раньше гуманитарное исследование базировалось на изучении статистически ничтожно малого числа источников и следующим за ним крайне смелым обобщением, то теперь возможно оперировать выборками, сравнимыми по своим масштабам со всеми существующими данными по исследуемой теме.

Python библиотеки requests и bs4 позволяют организовать сбор данных, скачивая целые новостные сайты, открытые базы данных, такие как онлайн-словари или страницы со стенограммами заседаний Государственной Думы, библиотеки с произведениями начинающих авторов такие как Проза.ру и Стихи ру.

Как меняется проблематика современной любительской и фан-литературы? Как ведет себя язык новых авторов? Как все это соотносится с событиями в мире и общественной риторикой?

Используя Python и различные API можно выгружать каналы из Telegram или странички пользователей ВКонтакте, их комментарии и посты. Социолог или историк сможет проанализировать эти данные и изучить реакцию общества на политические события, а лингвист исследовать то, как меняется язык, возникают неологизмы или выходят из употребления слова. 

Как быстро слово «удаленка» вошло в наш язык и закрепилось ли оно в нем достаточно прочно? Как общество отреагировало на начало пандемии коронавируса и первые ограничения? Подписчики каких из вузовских сообществ ВКонтакте, и с большой долей вероятности студенты соответствующих вузов, наиболее заинтересованы в изучении иностранных языков или программирования, если судить по их подпискам?

Бытует мнение, что точные методы в гуманитарных науках — это сугубо альтернативная и тупиковая ветвь эволюции. Это не так. Главный потенциальный объект исследования цифровой гуманитаристики  — не корпусы оцифрованных архивов и размеченные энтузиастами небольшие базы данных, а весь Интернет, который стал неотъемлемой частью наших жизней и останется ей в будущем. Просто Идеальный архив пока слишком молод, чтобы рассказать нам о прошлом, но уже достаточно созрел для того, чтобы говорить о настоящем.

Для того, чтобы полноценно работать с Идеальным архивом, достаточно ноутбука с установленным Python и парой библиотек

Вызовы гуманитаристики будущего

С возможностями приходят и сложности, рассуждать о которых конкретно пока затруднительно в силу того, что бизнес и юридическая практика не готовы к ним.

В первую очередь стоит задаться вопросом, а будут ли все описанные выше массивы данных сохраняться в будущем? Будет ли смысл для компаний, владеющих соцсетями, хранить записи о каналах, последние посты в которых были сделаны десятки лет назад? Такая растрата серверной памяти экономически нецелесообразна. Возможно, в будущем появятся специальные организации или архивы, делающие полные “слепки” Интернета, как это уже сейчас делает Internet Archive, и тщательно сберегающие данные. Сейчас подобным занимаются крупные компании для обучения больших языковых моделей и генераторов изображений, но будет ли у простых исследователей доступ к таким базам данных?

Каким будет законодательство относительно доступа к личной переписке умерших людей, хранящий буквально летописи их жизней? Возможно ли будет работать с такими данными в обезличенном виде? Если да, то каким образом будет осуществляться обезличивание данных? Будет ли распространена практика публикации этих сообщений в том формате, в котором это происходит сейчас с письмами и личными дневниками писателей и философов?

Ответы на эти вопросы пока остаются неизвестными, но рано или поздно они неизбежно предстанут перед исследователями. Эпоха цифровой гуманитаристики как теоретической основы для обработки и анализа огромных массивов данных Интернета еще не наступила, поскольку эти данные пока повествуют о настоящем, а не о прошлом. Главная задача сегодня — бережно относиться к этим данным и заботливо взращивать хрупкий росток новой науки.

Со временем все больше данных и свидетельств, относящихся к историческим, будут переходить в цифровую форму. Не означает ли это, что и гуманитарные науки тоже постепенно станут цифровыми?

Источники

  1. Новости: Социальные сети и мессенджеры: вовлеченность и предпочтения [Электронный ресурс] // ВЦИОМ. 2023. 4 августа [Электронный ресурс] URL: https://wciom.ru/analytical-reviews/analiticheskii-obzor/socialnye-seti-i-messendzhery-vovlechennost-i-predpochtenija (дата обращения 17.11.2024).
  1. Доля пользователей Telegram достигла почти половины населения России  [Электронный ресурс] // РБК. 2024. 06 февраля. URL: https://www.rbc.ru/technology_and_media/06/02/2024/65c0bc179a7947176b534458 (дата обращения 17.11.2024).
  1. «ВКонтакте» назвали лидером среди соцсетей у россиян [Электронный ресурс] // Газета.ru. 2024. 06 февраля 2024. URL: https://www.gazeta.ru/tech/news/2024/02/06/22275307.shtml (дата обращения 17.11.2024).