Кадр из кинофильма "Кавказская пленница"

Классифицируют ошибки, просят рассказать о грушах, считают частотность матерных слов… порой для исследования лингвистам нужны нестандартные коллекции текстов. Подборка из 5 неординарных корпусов русского языка в вашу лингвистическую копилку.

1. Один речевой день 

Как собрать коллекцию письменных текстов, примерно понятно. Но как быть с устной речью? Не бегать же за людьми с диктофоном. Или все-таки бегать? Группа исследователей из Санкт-Петербургского университета попросила информантов (то есть людей, согласившихся участвовать в исследовании) носить с собой включенный диктофон в течение одного обычного дня. Завтрак на кухне, путь на работу, поход в магазин — речевые действия, сопровождающие каждодневные естественные действия, и интересуют лингвистов. Эти данные нужны для исследования социодиалектов: особенностей речи горожан в зависимости от профессии, возраста, пола и других факторов. Помимо речи самих информантов, в коллекцию попали реплики множества их собеседников: продавцов, кондукторов, менеджеров, преподавателей, врачей, библиотекарей… Темы разговоров разнообразны: от обсуждения со стоматологом проблем с зубами до разговоров о религии, жизни и смерти. Обычно информанты помнят о диктофоне примерно первый час записи, после чего забывают — и начинают говорить совершенно естественно.

На этом корпусе уже получено много интересных результатов:

  • работники силовых структур употребляют бранную лексику в 9 раз чаще, чем в среднем по всему корпусу, а слово блядь занимает 11-е место по частотности в их лексиконе — сразу после слова это. 
  • Самое частотное слово в речи у мужчин — ну, у женщин — я; мужчины чаще используют бранную лексику, а женщины чаще говорят ой.
  • Женщины больше заботятся о формальном поддержании разговора, чаще используют т.н. метакоммуникативные маркеры: слушайте, угу, хорошо, значит и т.п. 
  • Фонетические варианты слов различаются по возрастам: например, слово вообще старшее поколение произносит как апще, аще, ваще или пще, а средний возраст — апще, ваще, пще или фще.

2. Рассказы о грушах

Ещё в 70-е годы американский лингвист У. Чейф подумал, что интересно сравнить, как один и тот же сюжет будет выглядеть в пересказе разных людей, и что это может прояснить относительно их особенностей восприятия информации, выбора языкового материала или культурных различий. Для этого Чейф снял шестиминутный фильм о том, как мальчик крадет у фермера корзину с грушами. Его герои не произносят ни слова. Испытуемые должны сами объяснить все увиденное. В фильме также есть несколько интересных «ловушек». Например, один из героев играет в игрушку, для которой нет специального названия ни в одном языке. Это значит, что испытуемым придется описывать незнакомый предмет своими словами. 

Чейф опробовал свой эксперимент более чем на 15 языках, но этот видеосюжет до сих пор используется для создания всё новых коллекций записей. Для русского языка есть записи обычных носителей языка с разметкой по жестам и записью видео рассказчика, а также рассказы людей с афазией.

Пример разметки записей для русского языка

3. Русский учебный корпус 

Группа лингвистов из Вышки работает над созданием русского учебного корпуса, где представлена письменная речь людей, для которых русский не является родным. Корпус детально размечен по типам допущенных ошибок: орфографические ошибки, употребление кратких и полных форм прилагательных: чай был такой вкусенслучаи словотворчества из существующих в русском языке морфем: но это не действительная дружбостьошибки в фразеологизмах: от дубов простыл и свет.

Что это даёт учёным кроме умиления? Во-первых, ценную статистику для преподавателей языка и методистов: какие темы сложнее даются китайцам, а какие — французам. А во-вторых, регулярные ошибки могут указывать на нелогичное место в русской грамматике (и без того не очень логичной), а значит, интересное для лингвистов.

Разметка ошибок — дело очень непростое. Самое сложное — определить «что хотел сказать автор». Ведь от этого и будет зависеть тип ошибки. Предлагаем провести небольшой эксперимент и написать в комментариях вашу исправленную версию фразы:

Кот, которому завут Матроскин скривается за диваном и там ждёт суд. 

4. Параллельные корпуса субтитров к фильмам

Параллельные корпуса — это коллекции текстов и их переводов на другие языки, выровненные по фразам. Они уже давно помогают специалистам по переводу подыскивать оптимальные варианты передачи смысла. Но этот корпус интересен своим гигантским размером и источниками. На 2018 год на сайте проекта доступна коллекция субтитров к фильмам и их переводы на 62 языка, любезно предоставленная сайтом OpenSubtitles. Общий объем — 22,1 млрд. слов!

Пример поиска слова fucking по корпусу субтитров

Из минусов — иногда сбоит автоматическое выравнивание фраз и нет расширенного механизма поиска по корпусу.

5. Корпус учебников русского языка

Учебники русского языка для начальной школы. Те самые, где мама моет раму и скворцы перелетают с ветки на ветку. Эти учебники издаются 100-тысячными тиражами, но по их содержанию по-прежнему нет практически никакой статистики. Специалисты института русского языка им. А.С. Пушкина собирают корпус таких учебников, чтобы выяснить, как дети изучают русский язык в современной началке. 

Спойлер: птиц в учебниках по-прежнему очень много. С большим отрывом пернатым лидером по упоминаемости в учебниках родной речи становится воробей (43 упоминания за параллель 1-4 классов), следом идут сороки, скворцы, журавли и другие крылатые представители фауны, в основном средней полосы России. Рейтинг популярности птиц по частоте упоминания в параллели учебников за 4 класса представлен в таблице ниже.

Рейтинг популярности птиц по частоте упоминания в учебниках за 4 класс

Менее популярными в учебниках оказались кукушки (10), аисты (8), рябчики (8), галки (8), орлы (7), клесты (6), кряквы (5), зяблики (5), чижи (4) и сойки (4). Также в учебниках встречаются и более экзотические птицы: пингвин (10), попугай (10), пеликан (4), киви(2), страус (1), фламинго (1). Замыкают рейтинг пернатых сойка, свиристель, зуй, оляпка, глухарь, тетерев, куропатка, малиновка, альбатрос и деряба. 

История последней птицы столь пронзительна, что мы не можем не поделиться ею с вами:

Улетели на юг ласточки, скворцы, зяблики. Одиноко сидит на берёзовой ветке у дороги большая и тихая птица. Это деряба. Молчаливая, не очень нарядная, эта птица осталась верной родному лесу. Вместе с лесом она стойко переносит зимние морозы и леденящие метели.

В. Медведев

Источники:

Корпус Один речевой день 

Статья Pear Stories, 40 years later

Русский учебный корпус 

Параллельные корпуса субтитров к фильмам

Лаборатория института Пушкина