Читать нас в Telegram

В этой заметке речь пойдет о том, что сегодня кормит толпы ученых из множества дисциплин, от лингвистики до когнитивной антропологии — об исторических культурных данных. Заодно, о русских стихах (которые немного кормят и меня), и о некоторых небольших проблемах в изучении культурных изменений. А начать я хочу с дельфинов.

Всем нравятся дельфины. Дельфины — это такие собаки, решившие вернуться в океан. Они умные и общительные; поговаривают, что они часто спасают утопающих. С дельфинами связан леденящий душу мысленный эксперимент: помните, что мы знаем о дельфинах-спасателях только от выживших людей. Люди, которых они, скажем, жестоко растерзали, не могут рассказать своих историй.

Этот статистический артефакт и логический капкан известен как «ошибка выжившего». Обычно о нем рассказывают на примере союзных бомбардировщиков, вот по этой картинке (от которой устал уже весь Твиттер):

Гипотетический пример распределения попаданий в бомбардировщик времен Второй мировой войны.
Гипотетический пример распределения попаданий в бомбардировщик времен Второй мировой войны. Martin Grandjean, McGeddon, Cameron Moll. Wikimedia Commons

Во время Второй мировой войны исследовательская группа в США пыталась минимизировать потери бомбардировщиков от вражеского огня. У них были данные о распределении попаданий в вернувшиеся на аэродромы самолеты (красные точки на гипотетической схеме). Посмотрев на это, математик Абрахам Вальд предложил укрепить броней «белые» места, без попаданий. Почему? Потому что на выборку самолетов с данными о попаданиях влиял скрытый систематический фактор: среди них не было сбитых, невернувшихся. Иными словами, красные точки на бомбардировщиках говорят только о тех повреждениях, с которыми еще можно летать. Использовать эти данные в модели, которая бы предсказывала места критического попадания — все равно, что стрелять себе в ногу.

Ошибка выжившего в культуре

Летопись культуры — это и есть вернувшийся бомбардировщик, выбравшийся из зенитного огня истории. Любая историческая выборка (будь это библиотечный каталог, музейная коллекция, альбом с марками, или мой список лучших компьютерных игр 1999 года) никогда не будет просто честной и случайной. Скорее всего на то, что вообще может попасться нам на глаза, будет влиять какой-нибудь системный эффект. Ошибка выжившего.

Наши суждения о культуре и ее истории часто основаны на какой-то форме канона — небольшой кучке явлений, переживших прошлое. Из-за того что запас внимания и памяти человека более или менее стабилен, а культурные индустрии сегодня работают на дьявольских мощностях, то количество забытых по отношению к выжившим станет еще больше. Как писал Ю. М. Лотман, искусство есть наш ответ энтропии, но что делать, если основная часть произведенного искусства живет меньше, чем пара сапог?

Может быть дело в том, что история искусств и филология — вот истинный ответ энтропии? Мы помним про забытых! Однако у ученых есть свои хит-парады (структура которых часто противоположна читательской популярности). Наука, ориентированная на сохранение и объяснение ключевых для культуры явлений, тоже воспроизводит ее механизмы и вынужденное неравенство. Посмотрим на ошибку выжившего, так сказать, в дикой природе: в поэтической части национального корпуса русского языка (НКРЯ).

Источники поэзии XVIII-XIX вв. в НКРЯ, распределение во времени (черные колонки). Красной полосой отмечено время создания стихотворений.

Практически все источники поэзии XVIII-XIX вв. в корпусе собраны, отредактированы и изданы во второй половине XX в. Между «когда поэзия случилась» и «когда ее издали» лежат века и десятилетия. Это вполне осознанный принцип: составители корпуса ориентировались на полные собрания сочинений и другие уважаемые академические издания, многие из которых задумывались специально, чтобы представить литературу ушедших эпох. Этот выбор хорошо задокументирован, но этим принципам едва ли можно следовать единообразно по простой причине: в корпусе предлагается исторический взгляд на русский поэтический язык. Силы отбора, канона и академической представительности не действуют равномерно на всем 300-летнем периоде.

Мы можем оценить скорость этого культурного «полураспада». На следующем графике представлены расстояния во времени между годом написания текста и годом издания, использованным в НКРЯ. Для пост-советской поэзии это расстояние, разумеется, минимальное (для стихотворения, написанного в 2000 году, сегодня довольно сложно найти источник из 2050 года). Стихотворения XVIII в. доходят к нам из книг, изданных 200-250 лет спустя.

Зависимость между годом написания отдельных стихотворений и расстоянием до источника во времени. Каждое из ~60000 стихотворений представлено точкой, красная линия — простая линейная регрессия, моделирующая среднее уменьшение времени до источника в зависимости от года написания стихотворения.

Это достаточно стабильная связь: в среднем, каждые 50 лет в прошлое поэзии ее издания «отрываются» от нее на ~40 лет. Данные также показывают интересную аномалию: источники поэзии середины ХХ века в среднем чуть «старше», чем ожидается (темное утолщение над XX веком). Вероятнее всего это связано с поздним возвращением литературы, не издававшейся в Советском Союзе.

Итак, если бы поэтический корпус составляли в 2100 году при постоянной скорости полураспада, то с высокой вероятностью в него не попала бы ни одна из книг, которыми современные поэты представлены сейчас. Можно только гадать, сколько имен мы бы не досчитались.

Это заставляет задуматься о тех , кто остался за бортом из XVIII и XIX веков и о влияния этих сбитых самолетов на нашу работу. Здесь нужны специальные и кропотливые разыскания, но приведу навскидку один анекдотический пример. Уважаемый крепостной крестьянин (впоследствии выкупленный), торговец мелким барахлом, любимец вдовствующей императрицы Марии Федоровны, Федор Никанорович Слепушкин издал пять книг и поучаствовал в огромном количестве изданий, в т.ч. для детского чтения. Сколько его стихотворений попало в корпус? Ровно ноль.

Для советского истеблишмента Слепушкин был неправильный крестьянин: водил дружбу с людьми сомнительной репутации, зависел от благодеяний императорской семьи и покровительства в аристократических кругах. В общем, Слепушкин в литературном марафоне никак не мог тягаться с другим известным поэтом-самоучкой, Алексеем Кольцовым, которого сам Белинский (главная зенитная пушка русской словесности) благословил на долгую литературную жизнь. Кольцов, конечно же, прекрасно издан (в 1939 и 1957 годах), и полностью представлен в корпусе.

Неравенство и проклятие репрезентативности

Стоит ли нам лить слезы об отсутствии в корпусе Слепушкина? Это очень непростой вопрос, ответ на который может показаться парадоксальным. В отношении к истории литературы поэтический НКРЯ, в целом, следует за М. Л. Гаспаровым, занимавшимся масштабными фронтальными исследованиями истории русского стиха (см. «Cовременный русский стих», «Метр и смысл»). Свои наблюдения он производил на источниках, многие из которых впоследствии легли в основу НКРЯ (серия «Библиотека поэта», полные собрания сочинений, академические антологии). В 1980-х Гаспарова даже критиковали за использование множества «плохих» стихов в исследованиях, что забавно, потому что я уверен, что основные залежи «плохих» стихов прошлого не добрались и не могли добраться до изданий XX века.

Гаспаров — и последовавшие за ним — скрыто или явно понимали репрезентативность материала как видимость или влиятельность текстов в истории. Такое понимание репрезентативности противоречит статистике, где характеристики выборки используются, чтобы прикинуть истинный вид популяции (редко доступной для непосредственного наблюдения). Отношения выборки и популяции из классической статистики плохо применимы к культурным данным, как раз потому, что видимость и популярность авторов и текстов — это земля, усеянная сбитыми самолетами, где господствует экстремальное неравенство. По поводу отношений метра и смысла, описанных Гаспаровым, Ю.И. Левин писал:

Упомянем также о подавляющем количественном преобладании шаблонных текстов, связанном со странной склонностью культуры <…> воспроизводить образец в огромном количестве почти неотличимых друг от друга экземпляров <…>

Левин, Ю. И. Семантический ореол с семиотической точки зрения // Гаспаров, М. Л. Метр и смысл. М., 2012. С. 407-408.

Я думаю, что это «воспроизведение образца» вовсе не странная склонность культуры, а ее фундаментальная особенность. Пространства обитания той части культуры, которую мы часто называем «искусством», основаны на экономике гениев, блокбастеров, бестселлеров и звезд. Их видимость и популярность, даже в субкультурных нишах, оставляет далеко позади видимость и популярность их ближайших соперников. Именно эта микроскопическая группа супергероев послужит основой многочисленных копий во времени t+1, и так далее. Что это за статистика такая получается, если наша популяция — всего лишь производное от какой-то маленькой группы?

Представьте трудолюбивого пришельца-ксенолитературоведа, который собрал все стихотворения, опубликованные в русском интернете, чтобы что-то понять про современную поэзию. Средний текст этой популяции не будет похож на стихи из «Воздуха» или «Полутонов». Скорее всего он будет напоминать стихотворение со стихов.ру, где — трудами русского народа — появляется тысячи новых стихотворений в день. Это будет, подозреваю, рифмованный четырехстопный ямб, странная смесь Пушкина, Блока и Асадова. Теперь у трудолюбивого пришельца есть популяция, но что с ней делать?

Если известность, влияние и символическая власть в культуре распределены чрезвычайно неравномерно, то такая популяция — это популяция копий с образца. Характеристики старых и новых элит в ней неразличимы. Парадоксально, но чем больше наш корпус — тем больше нам нужно новой точной информации о нем: откуда что пришло, сколько людей могли прочитать этот текст, какое у этих людей образование и т.п.

В этой ситуации уже не кажется плохой идеей отдаться во власть канона, культурных элит и вернувшихся бомбардировщиков. Что, не долетел, Федя Слепушкин? Очень жаль, братушка, но и без тебя справимся. В этом смысле, поэтический НКРЯ воспроизводит само устройство той культуры, которую он пытается представить. В нем откладываются все исторические слои: вкус литературных элит XIX в., русская академическая традиция, советский «революционно-демократический» канон, пост-советская реакция на этот канон, великое возвращение модернизма, поэзии эмиграции и андерграунда, переходящего в новую классику (см. новейшие добавления в корпус, скажем, С. Гандлевского, О. Седаковой, Е. Шварц).

Как наверное и многие, в большинстве случаев я предпочитаю корпус, который бы не состоял на 99% из стихов.ру. НКРЯ в современном виде подходит для оценки средне-высокого поэтического языка и средних изменений во времени, но не для точечных исторических исследований (когда появилось X), вопросов бытования поэзии в различных нишах и традициях, и уж точно не для изучения описательных поэм Федора Слепушкина.

Рассуждения про поэтический корпус и ошибку выжившего применимы ко множеству культурных данных. С одной стороны, мы теряем прошлое с ошеломляющей скоростью, а с другой стороны забвение вшито в те процессы, которые мы изучаем. Мы можем как пострадать от системных искажений данных, так и обернуть эти эффекты в свою пользу. Символическое неравенство и склонность непропорциональному копированию также затемняет статистические отношения между выборкой и популяцией. Без переосмысления наших инструментов и подходов к историческим культурным данным вместе с экономикой, популяционной экологией и статистикой будет сложно двигаться вперед. Но впереди — множество интересной работы.