Национальный корпус русского языка — уникальное электронное собрание текстов на русском языке и важнейший национальный проект. Многие люди выразили беспокойство и поддержку НКРЯ, когда в его работе возникли неполадки. Системный Блокъ тогда тоже выступил в защиту корпуса. В материале «Я/МЫ НКРЯ» мы писали о том, что происходит с корпусом, собирали комментарии лингвистов и рассказывали об истории проекта. На этот раз Системный Блокъ выяснил, кто и как использует НКРЯ.
Как используют НКРЯ учащиеся школ?
Первыми, кто рассказал нам про опыт работы с НКРЯ, были школьники. Корпус помогает «младолингвистам» в их первых серьезных исследованиях.
Нияз Киреев (9 класс, школа № 45, г.Уфа):
Я изучаю отношения между диалектной и разговорной лексикой и историю слов (напр., одно из моих исследований посвящено слову «голимый»). Несмотря на то, что диалекты и просторечие в целом слабо представлены в НКРЯ (диалектный подкорпус пока не очень велик), для исследований в этой области его данные бывают очень важны, потому что многие явления бытовой речи фиксировались впервые не лингвистами, а представителями «высокой» литературы. Например, сейчас я пишу исследование о диалектном и арготическом слове «гамырка»; по данным корпуса, впервые в печати (в 1899 году) оно употреблено Л. Н. Толстым в романе «Воскресение». Почти одновременно — В. В. Вересаевым в рассказе «Лизар». (О значении умолчу — в этом году выйдет моя статья на эту тему.)
В октябре 2019 года (к сожалению, именно тогда, когда корпус работал с неполадками) в образовательном центре «Сириус» проходила лингвистическая смена для школьников. Они работали над проектом «Изменения в русском языке последних веков (по НКРЯ)». У каждого было определенное задание: исследовать слово или грамматическую особенность. Вот что делали некоторые из них:
Анна Елагина (11 класс, МБОУ Лицей № 83 — Центр Образования, Казань):
Я исследовала частотность употребления союзов «ибо», «нежели» и их синонимов по заданным временным и жанровым подкорпусам. Рассматривала графики, выявляла случаи употребления по контексту. С XVIII по XX век употребление союзов «ибо» и «нежели» сходит к минимуму и сейчас встречается всё чаще с иронией. В своих привычных позициях они заменяются многозначными синонимами: «потому что», «так как», «чем». И ещё хотелось бы посмотреть употребление фразы: «ибо нефиг» (по совету Светланы Анатольевны Бурлак), поэтому важно, чтобы корпус «жил»!
Леонид Зайцев (10 класс, школа № 14, Рязань):
Я исследовал употребление редких падежей русского языка (частного и местного) в основном подкорпусе НКРЯ с использованием семантического фильтра съедобности: рассматривал графики частот их употреблений с начала XIX века до настоящего времени. Частный падеж в наше время употребляется реже. У «съедобных» существительных обратная корреляция его частотности с частотностью родительного падежа. Местный падеж в настоящее время встречается также часто и чаще, чем во времена Пушкина.
Анна Богданова и Марина Голецкая: (11 и 10 класс, Академические классы школы № 232, Санкт-Петербург):
Мы исследовали изменения в согласовании по падежам прилагательных с существительными разных родов в сочетаниях «два/три/четыре+существительное» с XIX века по настоящее время. С конструкцией два/три/четыре в номинативе + существительное в начале XIX века употреблялись прилагательные в именительном падеже. Сейчас — только прилагательные в родительном. (Ср. Два серые кота vs. два серых кота). С существительными женского рода и сейчас оказались допустимы прилагательные в номинативе.
Студенты, руководившие проектом вместе с доктором филологических наук Светланой Анатольевной Бурлак, поделились впечатлениями от проделанной работы.
Юлия Панченко (Отделение теоретической и прикладной лингвистики, МГУ) и Михаил Сонькин (Фундаментальная и компьютерная лингвистика, НИУ ВШЭ):
Нашей задачей было научить школьников работать с корпусом и проводить с ним исследования. Были отдельные пары про устройство НКРЯ и подкорпусов, разные виды поиска, работу с полученными данными в Excel. Большинство исследований получились очень интересными и для нас, и для самих школьников. Некоторым Светлана Анатольевна посоветовала доработать исследования до статей или докладов для конференции, и было видно, как их это обрадовало. На протяжении всего времени мы шутили, что главным выводом проекта будет «Корпус лагает». Технические неполадки действительно были и время от времени мешали, но основной вывод все-таки звучал по-другому: проводить исследования с НКРЯ можно и нужно. И главное — это очень увлекательно!
НКРЯ в студенческих исследованиях
Студенты не только учат школьников использовать НКРЯ, но и применяют корпус для собственных исследований. Например, в курсовых и дипломных работах.
Мария Голубева, студентка РГГУ, «Фундаментальная и прикладная лингвистика»:
В своих курсовых работах я изучаю синтаксис русского языка. На втором курсе я исследовала инверсию прилагательных, а сейчас пишу работу об особенностях синтаксиса конструкции «друг друга». В НКРЯ я беру бо́льшую часть материала, потому что там очень удобно задавать параметры поиска. Там можно искать не только конкретную форму одного слова, но также словосочетания. Можно задавать расстояние между словами. Например, искать существительное в И.п. непосредственно перед согласованным прилагательным — тогда найдутся случаи с инверсией. Или можно искать местоимение «друг друга» в различных падежах и проверять, например, где оно находится относительно антецедента: это сложнее, будет много «стандартных» случаев, среди которых нужно будет искать необычные употребления. Вообще, в НКРЯ очень много инструментов поиска, и это позволяет быстро находить интересующие нас случаи употребления, видеть, какие параметры влияют на их частотность.
Участники научно-учебной группы (НУГ) «Материалы к частотному словарю русской поэзии» НИУ ВШЭ тоже рассказали, как используют НКРЯ. В НУГ студенты работают вместе с преподавателями.
Кристина Викторовна Литвинцева, доцент Школы лингвистики, и Алексей Старченко, студент направления «Фундаментальная и компьютерная лингвистика»:
В составе НКРЯ уже есть поэтический подкорпус, но наша группа поставила своей задачей разработать инструменты для большего количества вариантов его использования, чтобы лингвистам было удобнее. Ведь поэтические тексты устроены не так, как другие — в них гораздо больше того, что можно изучить: ритмы, рифмы, ударения. Наша группа решила посчитать и менее очевидные, но не менее интересные вещи, например, посмотрела распределение прилагательных цвета у разных поэтов в разное время (частоту использования той или иной лексемы можно посмотреть в Поэтическом корпусе НКРЯ, кликнув на странице выдачи на «Распределение по годам» ). Таким образом, у нас получился «атлас поэтической моды» — тренды в использовании прилагательных цвета поэтами Серебряного века. Как вы думаете, насколько системным поэтом тут оказывается Александр Блок?
Ещё одно направление в рамках нашей группы связано с ударением: поэзия — один из немногих типов текстов, в которых его можно (пусть и с некоторыми особенностями) непосредственно наблюдать. Особенно нам интересна вариативность в ударении, которая встречается в стихах: можно ли в таких случаях понять, перед нами поэтическая вольность или языковая закономерность? А ещё на данных Поэтического корпуса удалось сделать инструмент «Словарь сочетаемости поэтического подкорпуса», дающий возможность получить информацию о сочетаемости интересующего слова с другими и частоте такой сочетаемости (например, для слова «сильный» самая высокая частота сочетаемости со словом «сей», а для «бессильный» — со словом «такой»).
Опыт ученых и преподавателей
И наконец, мы обратились к учёным, которые многие годы используют НКРЯ в различных научных проектах и в работе со студентами. Упомянув многообразие задач, для решения которых может применяться корпус, они привели несколько примеров из своего опыта.
Мария Кирилловна Тимофеева, зав. кафедрой фундаментальной и прикладной лингвистики Новосибирского государственного университета:
В НКРЯ зафиксирован своего рода «портрет» русского языка. Вряд ли создание аналогичного по информационной и функциональной проработанности ресурса возможно в нашу эпоху повсеместного увлечения big data и машинным обучением. Тем больше его ценность. Почти при любом исследовании русского языка можно найти вопросы, для решения которых полезно обратиться к корпусу.
Приведу небольшой пример из работы в области прагматики, то есть раздела лингвистики, напрямую в НКРЯ не представленного (за исключением речевых актов в мультимедийном корпусе). Задача состояла в изучении прагматических шкал («шкал Хорна»), то есть последовательностей типа <все, большинство, много, немного, несколько>, <великолепный, красивый, хороший>, элементы в которых упорядочены по силе определённого семантического параметра. Выбирая конкретную позицию на такой шкале, говорящий, как правило, подразумевает, что эта позиция самая сильная из возможных в данной ситуации, что более сильное утверждение было бы неверно. Эту подразумеваемую мысль называют скалярной импликатурой. Такие языковые средства не отражены в разметке корпуса. Тем не менее, можно создать поисковые запросы, помогающие найти разнообразные случаи использования прагматических шкал и операций с ними в речи. Например, колебания в выборе позиции на шкале, смещение позиций в процессе коммуникации, введение собственных (идиолектных) позиций, закономерности метафорического применения числовых шкал к размытым понятиям (например, «Х в N раз умнее / важнее / красивее / опытнее»), сдвиг позиций при межъязыковом переводе (по параллельному корпусу НКРЯ).
При творческом подходе к формированию поискового запроса можно извлечь из корпуса полезную информацию для очень многих задач, казалось бы, далёких от корпусной лингвистики. Такая функциональная гибкость также делает НКРЯ незаменимым при обучении иностранных студентов русскому языку, позволяя варьировать учебные задания с учётом проблемных областей.
Елена Михайловна Северина, профессор кафедры лингвистики и профессиональной коммуникации Южного федерального университета:
Для переводчиков параллельный корпус НКРЯ (КоПарТ) предоставляет возможности изучения особенностей перевода, например, можно использовать семантическую разметку для изучения перевода культурных реалий. Конечно, в корпусе представлены не самые современные переводы, но возможность качественного поиска позволяет найти интересные проблемы перевода, а затем изучить, каким образом решались эти задачи в переводах, не представленных в КоПарТ.
Например, для изучения возникающих при переводе лексико-семантических трансформаций романа В.В. Набокова «Пнин» (Pnin«, 1957) были исследованы три его перевода на русский язык, выполненные Г. Барабтарло (1983), Б. Носиком (1991) и С. Ильиным (1993). С помощью технологий КоПарТ НКРЯ, в котором представлены оригинал и перевод Г. Барабтарло, были выявлены специфические особенности текста и перевода, которые затем уже изучались в других переводах.
Технологии КоПарТ дают возможность выявить количественные структурные различия между оригинальными и переводными текстами, различия между переводным и авторским членением текста по предложениям, например, исследование русско-английского подкорпуса текстов для каждого из авторов, показало большую разницу в количестве русских и английских предложений переводов текстов А.С. Пушкина (-480 предложений) и Н.В. Гоголя (-525 предложений). С одной стороны, есть сложные ироничные и специфические контексты, которые сложно передаваемы на языке перевода, а с другой, — достаточно четкие контексты, которые просто пропущены, причем у Гоголя пропущены большие куски текста (например, про «метко сказанное слово»: начиная с «Выражается сильно российский народ! и если наградит кого словцом, то пойдет оно ему в род и потомство, утащит он его с собою и на службу, и в отставку, и в Петербург, и на край света…»).
Исследование моделей перевода в реальном корпусе позволяет проверить утверждения о «языковой специфичности» тех или иных лексем и возможности их перевода, а также исследовать проблему перевода безэквивалентной лексики (БЭЛ).
Из историй наших участников мы узнали о разных применениях НКРЯ, но на этом его возможности не заканчиваются. Пожелаем всем исследователям дальнейших успехов, а корпусу — только развития и процветания. Поделитесь и вы своим опытом использования НКРЯ в комментариях!
Постер, созданный по результатам проекта в Сириусе