Цифра на службе у филолога

Александр Чедович Пиперски — лингвист, кандидат филологических наук, научный сотрудник и старший преподаватель факультета гуманитарных наук НИУ ВШЭ, автор научно-популярных лекций по лингвистике и искусственным языкам. В 2017 году стал лауреатом премии «Просветитель» за книгу «Конструирование языков. От эсперанто до дотракийского». В интервью Системному Блоку Александр Чедович рассказал о своем пути от древних языков к статистическим методам; о том, что делать, если ты филолог, а тянет на «посчитать»; и о том, как количественные методы в лингвистике дают ответы, которых не ждешь.

О роли статистических методов в лингвистике

Лингвисты бывают разные, и ясно, что можно заниматься какой-нибудь формальной семантикой, тогда статистика не нужна вообще. Другое дело, если заниматься лингвистической типологией. Даже изучение грамматики сейчас слабо мыслимо без статистики, потому что многое проверяется по корпусам. Поэтому я думаю, что, конечно, лингвистике сейчас нужна статистика, очень сильная, с младых ногтей. К счастью, она появляется все раньше и раньше в учебных программах, а в школе лингвистики (Школа лингвистики факультета гуманитарных наук ВШЭ — С.Б.) дошла уже где-то до второго курса.

О личном пути

Есть две вещи, которыми я горжусь. Одна состоит в том, что я никогда ни в каком учебном заведении не учил английский язык. Вторая – в том, что в университете у меня не было ни одного математического курса. И программирования не было. Дело в том, что я учился на романо-германском отделении филологического факультета МГУ. Единственное, что у меня было, – это курс информатики. Нас учили делать абзац в Word. Я туда не очень ходил. Правда, программированием я занимался еще со школьных лет. Я был нормальный математический школьник. Потом я не мог выбрать между математикой и филологией. Все-таки поступил на филологию, пока учился, всякую математическую деятельность забыл.

Ближе к курсу пятому начал понимать, что, наверное, надо иногда что-нибудь посчитать. Тогда я занимался изучением фонетики средневерхненемецкой рукописи. Я обнаружил, что выбор между безударными <e> или <i> зависит от ударных гласных – происходит расподобление: после i будет е, иначе будет i. И тут я впервые в жизни совершенно самопально и без всякого образования сделал таблицу сопряженности: «А что будет если мы нарисуем с одной стороны i/не i, а с другой стороны i/e. Получится таблица 2 на 2, и, надо же, окажется, что в одной диагонали очень много всего, а в другой диагонали почти ничего нет». Эта мысль меня глубоко потрясла. Слов типа хи-квадрат или тест Фишера я никогда не слышал. Это все совершенно прошло мимо меня. Так я открыл велосипед в виде таблицы сопряженности.

Потом я поехал в Лейпциг в 2010 году на школу по лингвистической типологии, которая проходила там несколько раз. Там тогда был институт Макса Планка, который сейчас передвинулся в Йену. На этой летней школе было много интересных курсов, из которых мне больше всего понравился курс Бальтазара Биккеля про статистику в лингвистической типологии. Там я узнал, что таблицу сопряженности открыли до меня, и вообще оказалось, что много всего интересного открыли до меня. Вот после этого я стал всем этим интересоваться.

О статистике «для нематематиков»: с чего начать

Я бы посоветовал почитать какое-нибудь количество книг про статистику для лингвистов (или для других специальностей). К сожалению, в основном по-английски, потому что по-русски очень мало книг, которые понятны и от чтения которых на десятой странице не хочется убиться об стену. Мне кажется, что в российской статистической науке нет понимания, что надо объяснять людям просто и доступно. Но есть англоязычные книги про статистику в корпусной лингвистике. Есть книжка Стефана Гриса (Stefan Gries ‘Statistics for Linguistics with R’). Недавно вышла хорошая книжка Натальи Левшиной (Natalia Levshina ‘How to do Linguistics with R: Data exploration and statistical analysis’). И есть совсем новая книжка Васлава Брезины (Vaclav Brezina ‘Statistics in Corpus Linguistics’). Надо почитать какие-нибудь вводные материалы, а дальше уже само пойдет.

О том, что статистика меняет в лингвистической науке

Мне кажется, мы становимся объективнее. Пока мы изучаем язык без статистики, что мы можем делать? Если мы изучаем свой родной язык, мы смотрим себе в голову: как я говорю? как можно сказать, а как нельзя? Из того, чем я недавно занимался: можно ли сказать Обнял или обнЯл, прОдал или продАл. Вот я вроде говорю прОдал, и в итоге если я составляю словарь, то пишу «прОдал, не рекомендуется продАл». То есть я слышал, что люди вокруг меня так говорят, но мне не нравится. Это все довольно субъективные вещи. А как только я начинаю думать о том, как на самом деле говорят люди, мне нужно провести эксперимент или посмотреть по корпусам. И как только появляются эксперимент и корпуса, то тут же появляется статистика: мне надо посчитать и как-то это интерпретировать. В этом случае нужен корпус с акцентуацией, которого толком и нет.

Мы с Антоном Кухто проводили эксперимент: просили людей читать предложения и изучали, как ударение в глаголах зависят от ударения в дополнениях. Мы выяснили, что люди скорее говорят «прОдал дАчу», но «продАл пальтО». По себе это выловить невозможно. Ты можешь попробовать это наблюдать у других людей, а дальше, когда ты начинаешь проводить эксперименты, то надо составлять таблички: здесь на 7% больше в одну сторону, здесь на 7% больше в другую. Что-то же значит эта вариативность. Тут опять же появляется понятие статистической значимости. Так что в лингвистике, даже для самых традиционных вещей, это полезно.

О полезных статистических навыках для филолога

Помимо тривиальных навыков, работа в Excel — уже полезная вещь. Дальше, мне кажется, интересно уметь собирать свои коллекции текстов. Автоматически, или хотя бы полуавтоматически. Понимать, как можно работать с такими коллекциями, владеть корпусными менеджерами, хотя бы знать, куда эти коллекции текстов загрузить. И дальше понимать, что с этим можно сделать. На самом деле это тоже не очень простой вопрос: много ли можно сделать, многого ли можно добиться, анализируя большие массивы текстов.

Мне кажется, современному филологу нужно осознать, что это не какое-то недосягаемое умение безумных программистов в свитерах с оленями. Сейчас это простые пользовательские вещи: в школах все делают облака тэгов (самая модная вещь), и это действительно то, что может сделать более-менее любой человек.

Облако тегов на примере “Евгения Онегина”

Посчитать частотность слов где-нибудь и что-то такое минимальное визуализировать. Или загрузить свои тексты в какой-нибудь корпусной менеджер, тот же самый Sketch Engine. Загружаешь, и даже делать ничего не надо. После того как обновился интерфейс, он стал уже совсем как для дураков. (С новым интерфейсом, правда, я перестал справляться.) Идея в том, что сейчас уже не надо быть супер-мастером программирования, чтобы применять обычные пользовательские вещи.

О точных методах в литературоведении

Во-первых, это от лени. Как способ не читать книжки. На филологическом факультете в последнем семестре у меня была зарубежная литература второй половины XX века. Там был список из 90 романов. Ну, может, не 90, а 75. Понятно, что прочитать это невозможно. Конечно, все как-то сдают. “Питательный бульончик” в голове все равно набирается из каких-то источников: Википедия, пересказы одногруппников перед экзаменом, плюс десять романов ты сам прочитал. Меня это всегда заставляло задуматься о том, что вообще-то жизнь моя ограничена, все книги никогда не прочитаю, и хотелось бы извлекать из них какую-то информацию сверх того объема, который мне доступен. Тогда возникает эта идея: собирать тексты, считать, смотреть и узнавать что-то новенькое.

Когда ты читаешь, ты можешь прочитать только некоторое количество текста. И скорее всего, ты будешь читать то, что считается вершинами литературного творчества по тем или иным причинам, часто даже внелитературным, социологическим и так далее. А когда ты обрабатываешь большой массив текста, ты понимаешь, о чем люди думают: не какие-то вишенки на торте – ты понимаешь, как устроен сам этот торт, из чего он состоит. Следующий вопрос: что тебе интереснее изучать, вишенки или сам торт. Или может быть, тебе интересно объяснить, чем вишенки отличаются от торта и почему они стали вишенками. Может оказаться так, что объяснения лежат не в сфере литературного и филологического, а в совершенно других вещах. А дальше мы уже просто подтягиваем под это филологические объяснения. Здесь каждому свое, но мне интересна структура торта.

О своем первом опыте применения количественных методов к текстам

Первое, что было опубликовано, — это мои инфографики для творчества Николая Гумилева на Арзамасе, с цветами. Я, как положено, с подростковых лет увлекался творчеством Гумилева. Но, как не положено, все еще не переболел этим. Стихи из пяти томов собраний сочинений я знаю наизусть. Этакий корпус в голове хранится. Редакция Арзамаса об этом знала, и в какой-то момент меня попросили написать про Гумилева. Мы сделали карту с фрагментами стихотворений и небольшими комментариями и частотные списки слов по отдельным книгам, которые показывают, как меняется творчество Гумилева с годами. Опять же, можно не читать все его сборники. То, что все эти образные системы очень изменились, понятно по отдельным словам.

О количественных методах для исследования искусственных языков

Проблема в том, что на искусственных языках довольно мало текстов: на языках художественных произведений обычно есть только отдельные фразы (тот же самый дотракийский). Есть тексты на клингонском, много чего на него переведено (Гамлет, например), но тоже гораздо меньше, чем на естественных языках. У Толкина есть достаточно текстов, ну и эсперанто. Здесь все же можно заниматься цифровыми исследованиями, но в другом русле. Не разобрать большой корпус текстов и по нему что-то посмотреть, а что-нибудь визуализировать. Посмотреть, например, где изобретаются искусственные языки, в какие годы изобретаются. Это я как раз гораздо меньше умею, это скорее по вашей (Цифровых Гуманитариев) части. Здесь перспективна не лингвистическая часть, а более культурно-социологическая.

О разнице между «количественными» и «цифровыми» методами

У меня нет, конечно, никакого чёткого различия, но понятно, что у каждого из нас свои вкусы: кто-то любит красивые картинки рисовать, кто-то посчитать что-то интересное. Я вот как раз больше за посчитать. Из того, что совершенно нельзя назвать количественным, но что и филологией не назовешь – я, например, вот участвовал в таком проекте: антрополог гулял с жителями разных районов Москвы, а они ему что-то интересное рассказывали. В итоге появилась в интернете карта, на которую наложены метки и фрагменты рассказа. (Кто хочет заглянуть в район Ясенево, там есть информант П.А.Ч., рассказывает про район Ясенево.) Не знаю, правда, что с этим можно делать дальше, это же вечный вопрос цифровых гуманитариев: «А дальше что? Как это обработать и что из этого получить?»

Проект “Историческая память города”. Информант ПАЧ рассказывает про район Ясенево.

Об исследовании интернет-коммуникаций

Мы с коллегами издали книжку «Словарь языка интернета.ru». Там количественного довольно мало: книжка предполагалась популярной, и всё количественное при редактуре пропадало. По Словарю не видно, но на самом деле мы проводили огромнейшие исследования. Изучали, например, вариации слова «спасибо» (спасибки, спс), когда они появляются, как меняются, составляли таблицы.

О том, откуда берутся идеи для исследований

Они просто приходят сами, что-то читаешь, о чём-то думаешь и приходят в голову мысли: «А почему бы это не посчитать?». Мне нравится, когда первоначальной идеи или гипотезы вообще нет. В корпусной лингвистике такой метод называется сorpus-driven: а давайте мы что-то посчитаем, а дальше попробуем проинтерпретировать что получится.

Например, я сейчас реализовал свою подростковую мечту: собрал корпус эротических рассказов – 20000 текстов. Исследуя их, я беру одну из категорий, на которые они разделены на сайте, и считаю слова, которые значимо чаще встречаются в этой категории на фоне всех остальных. Я не знаю, что у меня дальше получится.

Я выделяю ключевые слова из категории «поэзия». У меня появляется список, который я пытаюсь как-то интерпретировать. Оказывается, что этот список чётко распадается на три группы. Одна группа — это слова типа “коль”, “ль”, “уж” и т. д. Это просто поэтизмы, которые нужны для того, чтобы соблюдать ритм, и, естественно, в прозаических текстах на том же сайте они не встречаются.

С другой стороны, я вижу очень возвышенные слова типа “страсть”, “луна”, “вожделение” – вторая группа. И третья группа – это все матерные обозначения всех действий и всех органов, которые встречаются в эротической поэзии чаще, чем в прозаических текстах, в разы чаще. То есть получается, что эротическая поэзия это такая вот с одной стороны гиперболизированная поэтичность, а с другой – гиперболизированная грубость, поэтому получается определенный эффект. Но опять же я же ни о чём об этом заранее не думал. Смысл в том, чтобы исследовать и узнать.

Авторы: Вусале Агасиева, Герман Пальчиков, Даниил Скоринкин

Теги:by_dh_hse, digital humanites, анализ текста, корпус, лингвистика, Пиперски, статистика, филология

Цифра на службе у филолога

О роли статистических методов в лингвистике

О личном пути

О статистике «для нематематиков»: с чего начать

О том, что статистика меняет в лингвистической науке

О полезных статистических навыках для филолога

О точных методах в литературоведении

О своем первом опыте применения количественных методов к текстам

О количественных методах для исследования искусственных языков

О разнице между «количественными» и «цифровыми» методами

Об исследовании интернет-коммуникаций

О том, откуда берутся идеи для исследований

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Цифра на службе у филолога

О роли статистических методов в лингвистике

О личном пути

О статистике «для нематематиков»: с чего начать

О том, что статистика меняет в лингвистической науке

О полезных статистических навыках для филолога

О точных методах в литературоведении

О своем первом опыте применения количественных методов к текстам

О количественных методах для исследования искусственных языков

О разнице между «количественными» и «цифровыми» методами

Об исследовании интернет-коммуникаций

О том, откуда берутся идеи для исследований

Читать по теме:

«Один человек сможет построить компанию в миллиард долларов»: интервью с технооптимистом Иваном Ямщиковым

Искусство оцифровки: подборка интервью «Системного Блока»

«Чукотка — это культура, сквозь которую прорастает язык»: лингвист Инна Зибер об изучении Севера, магии чукотского имени и утрате традиций

«90% мировой культуры строится на воспроизведении паттернов»: интервью с Игорем Пильщиковым

О проекте

Контакты

СОЦСЕТИ

Теги

Темы