Если собрать много текстов на одном языке, это уже корпус? Если да, то много — это сколько? Рассказываем, что называется корпусом и какие есть критерии отбора текстов. Объясняем, почему «чем больше, тем лучше» не работает, как устроены национальные, веб- и мультимедийные корпусы, и зачем они нужны ученым (и не только)
Дать единое определение корпусу непросто. Для многих задач и во многих дисциплинах бывает необходимо собрать те или иные тексты, чтобы ответить на определенный вопрос. В филологии корпус — это собрание сочинений одного автора (например, все пьесы Шекспира) или работы конкретного жанра и периода (все романы восемнадцатого века). С его помощью можно изучать стилистические особенности автора или эпохи. В теологии корпусом может выступать определенный перевод Библии или серия религиозных текстов разных авторов. Так, при анализе текстов синоптических Евангелий (похожих друг на друга Евангелий от Марка, Луки и Матфея) была выдвинута гипотеза о существовании общего источника («Источника Q») для Луки и Матфея и было доказано, что Евангелие от Марка самое древнее. В полевой лингвистике корпусом называется любой набор данных на исследуемом языке, в том числе набор переведенных предложений из исследовательской анкеты для носителей языка [3: 22].
В рамках корпусной лингвистики Анатоль Штефанович выделяет три ключевых свойства, необходимых для того, чтобы «коллекцию примеров использования языка» можно было назвать корпусом, — и предлагает использовать для таких объектов уточняющий термин языковой корпус.
Что значит репрезентативность? Это когда выборка из множества отражает те же явления в тех же пропорциях, что и множество целиком. В репрезентативном корпусе должны быть отражены те же явления лексики, грамматики, стилистики и прочих релевантных областей исследования, что и во всех существующих текстах на изучаемом языковом варианте. Это может значить две вещи: либо создатели корпуса должны взять тексты в тех же пропорциях, в которых они производятся (например, в мире пишется гораздо больше личных писем, чем фантастических романов), либо в тех же пропорциях, в которых они воспринимаются (например, королевские обращения по радио в XX веке слушал огромный процент населения Великобритании, тогда как новостную рубрику локальной радиостанции — совсем немногие; хотя новостей на локальном радио выходило кратно больше, чем королевских обращений).
Оба решения сталкиваются с рядом проблем. Во-первых, у каждого человека разный опыт получения информации (кто-то весь день слушает подкасты, кто-то — аудиокниги), а никакого определения «среднего носителя языка» пока не существует. Во-вторых, нет точных данных об объемах производимых текстов (сколько печатается рекламных листовок и сколько у людей за день происходит личных разговоров?) и не все из них можно получить: некоторые тексты защищены грифами секретности или патентами, некоторые — привилегиями (как признания в исповедальне или разговор клиента с юристом). В-третьих, при достижении репрезентативности корпус рискует стать бесполезным: в корпусе американского английского, отражающего частоту порождения определенных текстов, примерно 90% речи было бы устной, а на все разнообразие литературы пришлось бы всего 7% данных [1: 247].
Поэтому для создания сбалансированных корпусов пользуются другой метрикой — разнообразием. Раз невозможно составить по-настоящему репрезентативный корпус, то, вместо того, чтобы пытаться и ошибаться с пропорциями, лучше добавить в корпус как можно больше разных языковых вариантов, и тогда в нем будут так или иначе представлены все релевантные особенности. Так, вместо того, чтобы измерять, в каком соотношении публикуются детективы, фэнтезийные романы и научная фантастика, можно взять фрагменты объемом в две тысячи слов из тысячи книг для каждого жанра.
Что значит «большой»? Как часто шутят, единственный честный ответ на вопрос, насколько большим должен быть языковой корпус, — «никто не знает». Размер в целом, конечно, связан с репрезентативностью: если бы мы собрали все, когда-либо написанное на русском языке в XXI веке в один корпус, он по определению был бы репрезентативным относительно русского языка XXI века. Однако в погоне за объемом могут теряться другие важные параметры: например, корпусы, собранные на основе скачиваемых подряд массивов текстов из интернета, не только оказываются нерепрезентативными относительно языка в целом (ведь содержат, например, сотни миллионов постов на форумах, но не содержат ни одного романа), но и могут содержать большие объемы нейросетевых текстов. Объем корпуса сильно зависит от поставленной задачи, но Штефанович отмечает, что современные стремящиеся к разнообразию корпусы содержат в основном от 1 до 500 миллионов токенов, и этого объема хватает для большинства практических задач. Впрочем, для корпусов малых языков или языков, никак не представленных в интернете, создание и значительно меньшего корпуса будет важным началом работы.
Что значит аутентичность? В широком смысле текст неаутентичен, если производящий его человек знает, что он потом будет взят в корпус или подвергнут лингвистическому анализу. В такой ситуации речевое поведение меняется, и люди часто начинают говорить подчеркнуто правильно, так, как они себе представляют, что от них ожидает исследователь. Конечно, не нарушая естественности ситуации, проще собрать письменную речь: тексты можно собрать в корпус уже после их написания автором, тогда как устная речь должна быть записана в моменте (на что, как и на публикацию, необходимо получать согласие).
Также под аутентичностью понимают максимальное сохранение коммуникативного контекста — среды, в которой текст был произведен (на лекции, в храме или в баре), его жанра и типа, числа собеседников. Кроме того, для устной речи при переносе в корпус часто теряются детали интонации, мимики и жестикуляции, а для письменной — шрифт, его цвет и размер, положение на странице.
Некоторые корпусы могут бороться с исчезновением контекста и метатекстовых данных с помощью того, что не ограничиваются простым переносом текста. Так, некоторые корпусы могут иметь аудиодорожки: например, Акустико-фонетический корпус непрерывной речи TIMIT, разработанный для улучшения систем автоматического распознавания речи и для исследований фонетики американского английского. У других корпусов есть даже видеоряд (например, Мультимедийный русский корпус (МУРКО)). В нем можно искать сопровождающие речь и самостоятельные жесты по их типу и значению (например, в корпусе находится один жест «вести машину» и два — «остановить машину»), фильтровать реплики по манере речи («сдавленным голосом», «крича», «диктуя» или даже «в пьяном виде») или социальной ситуации (лекция, застольная речь или разговор с врачом). Видеоряд, конечно, имеет и Корпус русского жестового языка, в котором параллельно с видео можно увидеть дорожки с разметкой не только жестов рук, но и сопровождающей артикуляции губами, движений головой или корпусом.
Многие корпусы имеют определенную специализацию. Энико Чомай и Уильям Кроуфорд в своем определении уточняют, что корпус — это коллекция текстов, «которые разделяют похожие контекстуальные или ситуационные характеристики» [2: 5–6]. Специалисту, нуждающемуся в газетных материалах, — будь то лингвист, изучающий публицистический стиль речи, историк, архивист или антрополог, которому нужны публицистические источники, — придется обратиться к одному из специализированных газетных корпусов. В Корпусе русского языка в Дагестане, состоящем из социолингвистических интервью, в свою очередь, можно найти как собственно социолингвистические и антропологические данные, так и языковые материалы, ценные для исследования процесса освоения второго языка.
Вопрос объема радикально решают корпусы семейства TenTen. Это корпусы объемом более 10 миллиардов слов, доступные на более чем 50 языках. Их собирают, скачивая тексты из интернета, а для повышения качества текста используют особые механизмы вычисления спама, удаления дублирующегося контента и вспомогательного интерфейса вроде меню. Чтобы избежать машинного перевода и сгенерированных текстов, задают стартовые URL на доверенных сайтах и ограничивают глубину перехода по ссылкам на другие сайты, с которых бот может скачивать информацию. Альтернативой корпусу ruTenTen для русского языка является собранный в том числе на основе постов из «Живого журнала» и ВКонтакте Генеральный интернет-корпус русского языка (ГИКРЯ), содержащий более 20 миллиардов слов. Он дает возможность изучать диалектное варьирование за счет разговорного стиля речи и отмеченного в метаданных региона у многих пользователей — авторов постов и сообщений.
Другими большими корпусами — хотя, конечно, гораздо меньшего размера и собранными по другому принципу — являются национальные корпусы. Они призваны максимально полно отражать выбранный язык. Примерами могут служить Национальный корпус русского языка (НКРЯ), общий объем которого более двух миллиардов, а объем основного подкорпуса — около 389 миллионов слов, англоязычные British National Corpus (BNC) и Corpus of Contemporary American English (CoCA) — более 100 миллионов и 1,1 миллиарда слов соответственно. Также стоит упомянуть корпусы семейства Aranea, созданные для множества разных языков по схожей методологии, нацеленной на сравнимость собранных данных, и доступные в сериях Minus (120 миллионов токенов) и Maius (1,2 миллиарда токенов).
Есть и корпусы гораздо меньшего объема. Таковы корпусы многих языков России, собираемые исследовательскими экспедициями: от Устного корпуса абазинского языка (3636 токенов) до Открытого корпуса вепсского и карельского языков VepKar (2 984 130 слов). Несмотря на меньший объем, они бесценны для документирования малых языков и использования их данных при создании учебных пособий, словарей и грамматик.
Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике…
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст