Что такое языковые корпусы и какие они бывают
Языковой корпус в современном понимании — это обработанное по определенным правилам собрание текстов в электронном виде, в котором можно искать нужную информацию об использовании языка. Например, с помощью корпуса можно узнать, когда в речь вошло слово прикол в современном значении или кто — мужчины или женщины — использует в речи больше прилагательных.
Корпусы различаются по своему размеру, содержанию, целям существования и инструментарию. От Корпуса радиопередач Бостонского университета с разметкой вдохов и интонационных контуров дикторов до Корпуса современного американского английского, от Корпуса русской речи Башкирии до Национального корпуса русского языка (НКРЯ) и от его Подкорпуса берестяных грамот, предоставляющего их фотографии и прорисовки прямо в выдаче, до Корпуса русского жестового языка, который в принципе не может существовать без параллельного видеоряда и имеет две отдельные строки с записью жестов левой и правой рук.
При создании всех этих корпусов исследователи задавались разными вопросами и ставили перед собой разные задачи. Например, если для создания корпуса радиопередач Бостонского университета было достаточно записать речь семи дикторов (четырех мужчин и трех женщин), то для создания национального корпуса требуется отразить все аспекты того, как используется данный язык разными социальными классами, в разных жанрах и коммуникативных ситуациях. Однако вне зависимости от его назначения, создание любого корпуса — это всегда поиск компромисса между теоретическими идеалами и тем, что практически возможно реализовать. Посмотрим, какие задачи при составлении корпусов приходится решать и как их решают.
Требования к корпусам: сбалансированность и репрезентативность
Можно предположить, что для получения репрезентативного набора текстов без уклона в одну или другую сторону нужно взять случайную выборку текстов на данном языке. Однако это потребует очень большого количества текстов, поскольку рандом хорошо работает для больших чисел. Между разными жанрами (например, академической прозой и криминальным триллером) существует больша́я разница — бо́льшая, чем между текстами одного жанра, — так что для создания всеобъемлющего корпуса стоит для начала разделить массив текстов на жанры и поджанры, а дальше случайным образом выбирать тексты уже конкретно в них.
Разные жанры используются в речи с разной частотой. Мы хотим, чтобы в нашем корпусе они были представлены равномерно или в соотношении, отражающем реальность? Чаще всего, репрезентативная выборка означает, что процент собранных данных об определенной группе в выборке должен совпадать с процентом, который члены этой группы составляют от общего множества. Если мы исследуем, как часто жители Краснодарского края читают книги, и решаем собрать выборку в 1000 человек, мы не можем просто опросить всех своих знакомых студентов оттуда и набрать таким образом половину респондентов. По данным Росстата, в Краснодарском крае 7,7% населения находится в возрасте от 20 до 24 лет [1] — значит, и мы должны стремиться опросить ровно 77 человек в этой возрастной категории.
Однако при составлении корпуса демографическая репрезентативность бесполезна. Если мы просто зафиксируем речь носителей языка пропорционально демографическим параметрам, такой корпус по этому определению будет репрезентативным, однако окажется, что около 90% его объема составляет устная речь, еще 3% займут письма и записки и только 7% останется на все остальные регистры письменной речи, такие как репортажи, книги, журналы, официальные документы и т. д. [2]. Конкретные числа релевантны для США 1993 года. Из-за соцсетей в наши дни распределение будет другим, однако процентное соотношение все равно будет неравным. Эти 7%, конечно, не отражают относительную важность таких текстов в культуре, а также не смогут продемонстрировать разнообразие между этими жанрами. Нам не нужно собирать корпус, чтобы выяснить, что 90% случаев использования языка похожи друг на друга (просто потому что они относятся к устной речи). Корпус используется как инструмент исследования различий, в том числе между жанрами, которые в этом случае относятся к оставшимся 10%. Значит, мы стремимся к репрезентативности в другом смысле: такой, которая представит в полном объеме всю вариативность, которая существует в данном языке.
Причем тут моллюски
Каким образом мы отберем материалы для корпуса? Допустим, мы хотим добавить в корпус естественнонаучные тексты. Какой объем текста из каждой публикации мы должны взять для этого? Первый ответ, который приходит в голову, — это «полный текст всех публикаций». В конце концов, чем больше в корпусе текста, тем он репрезентативнее, не так ли?
В этом варианте все публикации будут разного объема, а это значит, что одни темы будут представлены лучше, чем другие. Для решения проблемы можно выбрать наименьшую по объему публикацию и взять из остальных такое же количество слов. Казалось бы, это уравнивает все тексты.
Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается слово букцинум — название одного из родов брюхоногих моллюсков из семейства трубачей. Однако в других случаях букцинум — это очень редкое слово. Если же мы возьмем ограниченное число книг, частотность этого слова в нашем корпусе взлетит в разы относительно «реальной» частотности букцинумов в языке. Данная проблема искажения выборки известна как the whelks problem (проблема букцинумов) [4].
Ее можно решить количественным методом. Принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги [4]. Нужно постараться обеспечить максимальное количество разных источников для корпуса. Может показаться, что 40 000 слов — это по-прежнему очень много, в 40-тысячном фрагменте монографии о букцинумах их все еще будет слишком много. Это верно. Однако создание корпуса — практическая задача, у которой есть много ограничений, в том числе финансовых. Чем больше источников пытались выбрать создатели Британского корпуса, тем больше увеличивались расходы на лицензирование этих источников. При работе с печатными изданиями набрать много маленьких фрагментов — гораздо дороже, чем несколько больших. Так что «самым частотным» словом для ученых в очередной раз оказался «компромисс».
При составлении этого корпуса проблема моллюсков настигла лексикографов на практике в ином обличии. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии». 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.
Сколько нужно слов, чтобы встретить Пушкина
Скорее всего, открывая эту статью, вы бы не поставили на то, что встретите в ней фамилию Мануэля Норьеги, фактического главы Панамы с 1983 по 1989 годы. Однако если сейчас, во время чтения этого абзаца, предложить вам поставить на то, встретите ли вы до конца статьи эту фамилию еще раз, желающих наверняка станет больше. Почему?
У нас есть интуитивное понимание, что текст — это не набор случайных слов. Если в тексте заходит о чем-то речь, очень вероятно, что эта мысль не закончится на том же месте, — а значит, слова, которые уже были использованы, с некоторой вероятностью встретятся снова, с новым упоминанием введенных тем. Кеннет Черч статистически подтвердил это и назвал выведенную закономерность the Noriega problem — проблемой Норьеги [3].
Будь тексты случайными наборами слов, было бы легко вычислить вероятность появления случайного слова дважды. Для этого в формулу вероятности пересечения двух независимых событий P(A ∩ B) = P(A) ⋅ P(B) на место обоих событий А и В нужно подставить вероятность p того, что интересующее нас слово встретится в тексте, и получить вероятность встретить это слово дважды: P = p2.
Например, фамилия Пушкин в основном подкорпусе НКРЯ встречается 97,86 раза на миллион слов (по состоянию на ноябрь 2025 года) — иными словами, вероятность встретить ее в тексте размером в миллион слов p = 0,00009786. В случайном наборе в миллион слов из НКРЯ вероятность встретить ее дважды была бы p2 ≈ 0,00000000958. Согласно же исследованию Черча, вероятность этого в реальном тексте из миллиона слов будет ближе к p / 2 = 0,00004893 — что примерно в 5100 раз выше.
Фамилии взяты для примеров не просто так. Эта адаптация вероятности неодинакова для разных типов слов. Фамилии подвержены этому явлению гораздо больше, чем имена, а вероятность встретить служебные слова (союзы, предлоги, частицы) минимально зависит от того, встречались они в тексте раньше или нет. У них адаптация совсем низкая, околонулевая. В целом, хорошие ключевые слова показывают высокую адаптацию — можно пользоваться этим для составления идеальных списков ключевых слов для поисковой оптимизации.
Проблема Норьеги возвращает нас к проблеме моллюсков. Книги о букцинумах особенно опасны: если редкое слово встретилось в тексте однажды, вероятность встретить его снова и снова возрастает на порядки. Это еще один аргумент в пользу отбора коротких и разнообразных фрагментов, если ваша цель — крупный репрезентативный корпус, который бы покрывал все сферы употребления языка.
Каким же должен быть корпус?
В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.
Двух одинаковых корпусов для разных исследовательских задач не бывает. Если вы работаете с малым языком или создаете корпус для изучения конкретного узкого явления, в вашем корпусе неизбежно будут искажения в частотности и неравномерность в представлении жанров — и это может не быть проблемой вообще. Первоочередная задача при создании корпуса — это всегда ответ на вопрос «Зачем?».
Благодарности
Спасибо старшему преподавателю учебно-научного центра компьютерной лингвистики РГГУ Ирине Пинхасик за помощь в поиске литературы.
Источники
- Росстат.
- Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. N. 4. P. 243–257.
- Church K.W. Empirical estimates of adaptation: The chance of two noriegas is closer to p/2 than p2 // COLING 2000. Volume 1: The 18th International Conference on Computational Linguistics. 2000.
- Kilgarriff A. Putting frequencies in the dictionary // International journal of lexicography. 1997. Vol. 10. N. 2. P. 135–155.