Читать нас в Telegram
Иллюстрация: Надя Луценко

Кто такая деряба?

Представим ситуацию: родитель помогает своему ребёнку делать домашнее задание и в какой-то момент узнаёт то самое предложение из его собственного учебника по русскому языку, которое он сам читал, будучи школьником, лет тридцать назад. У родителя этот факт может вызвать тёплые ностальгические чувства, а вот учитель, вероятно, уже с некоторым внутренним сопротивлением из года в год продолжает преподавать язык с одними и теми же примерами, в которых упоминаются одни и те же комбайнёры или крейсер «Аврора», наблюдая, как они кочуют из издания в издание. Каждое новое поколение детей продолжает задаваться вопросами о том, кто же такая деряба и где она обитает (подробнее о лексике современных учебников можно прочитать в исследовании Антонины Лапошиной [1]). Отличие разве что одно: раньше за этой информацией нужно было лезть в энциклопедию, а сегодня ребёнок просто идёт в поисковик.

Да, узнать, кто такая деряба, стало легче. Однако школьнику может быть сложно понять специфические слова. А для правильного орфографического написания слов часто всё-таки требуется чётко понимать смысл текста.

Ребёнку наверняка гораздо интереснее увидеть, что текст их любимой истории про Незнайку, Гарри Поттера или Фиксиков написан согласно тем самым правилам, которые он изучает на уроках. Например, вот в таком отрывке:

Он был настолько уверен, что это письмо от Дамблдора, объясняющее всё — и дементоров, и миссис Фигг, и намерения Министерства, и то, как он, Дамблдор, собирается всё уладить, — что впервые в жизни испытал разочарование, увидев почерк Сириуса.

Пример насыщен разными видами орфограмм: правописание н и нн, приставок, корня с чередующейся гласной, -тся/-ться, гласной в личной форме глагола.

К сожалению, таким примерам сложно добраться до учебников: им придётся пробираться сквозь заросли утреннего хвойного леса, описанного в учебниках. Но можно обойти это и обратиться прямиком к любимым авторам детей. 

НКРЯ в помощь!

Чтобы учителям стало проще подбирать хорошие примеры для занятий по орфографии, в НКРЯ создают инструмент, который размечает грамматически сложные места в текстах. Он позволяет автоматически находить фрагменты текста, содержащие ту или иную орфограмму, среди произведений детской литературы. С помощью него учителя и составители учебников смогут находить примеры к правилам среди текстов, которые действительно читают сами дети. Таким образом повышается понятность и привлекательность примеров. Вот девять правил правописания, примеры для которых находит инструмент:

  1. -тся/-ться в глаголах;
  2. окончаний личных форм глаголов;
  3. суффиксов действительных причастий настоящего времени;
  4. суффиксов страдательных причастий настоящего времени;
  5. -о-/-ё- после шипящих согласных;
  6. приставок, оканчивающихся на -з-/-с-;
  7. приставок пре-/при-;
  8. неизменяемых приставок;
  9. -н-/-нн- в суффиксах и на стыке морфем в словах разных частей речи.

О подготовке и разметке

Первым и самым дискуссионным этапом был отбор правил для разметки. Какие из них нуждаются в большем количестве примеров? Возможно, те, что наиболее сложны для школьников. А какие правила можно считать наиболее трудными, откуда их взять? Мы решили опираться на статистику ошибок ЕГЭ от ФИПИ, а также нашли два исследования, где авторы пытались выявить наиболее «ошибкоопасные» и сложные орфографические темы [2, 3]. Корпус «От 2 до 15» в составе НКРЯ содержит литературу для современных детей и подростков. Каждое произведение в корпусе имеет отметку о возрасте, в котором его наиболее интересно читать.

Состав и метаданные корпуса «От 2 до 15». Таблица автора

Таким образом, мы имеем корпус, который составлялся именно с фокусом на произведения, которые привлекают школьников в разном возрасте. И это идеальный для нас вариант, если мы стремимся разнообразить языковые материалы учебников и добавить увлекательности орфографических занятий для детей.

Глядя на состав корпуса и его временной диапазон, можно задаться вопросом, как в корпусе могли оказаться тексты, созданные в 1836 году? Неужели такие старые произведения понятны и интересны детям? Отвечаем: можно быть уверенными в подобранных текстах, так как сам корпус «От 2 до 15» составлялся в рамках исследования [4], авторы которого изучали сложность текстов для детей разного возраста. Разметка текстов в корпусе выполнена с помощью нейросетевой модели для классификации текстов по возрасту в зависимости от сложности текста. И наше произведение 1836 года — это «Капитанская дочка» Пушкина, которую модель посчитала доступной для чтения детьми 11–13 лет.

Компьютер и проверка орфографии

Базово компьютер не знает никаких правил, ему вообще не свойственно знание человеческого языка. Правил орфографии русского языка компьютер не знает тем более. Поэтому просто запросом Уважаемый компьютер, найди мне все примеры для правописания о/ё после шипящих решить задачу разметки примеров для орфографических правил не получится. Важно «перевести» такой запрос с «человеческого» языка на «компьютерный»: на практике это означает, что мы алгоритмически должны по шагам прописать всё, что нужно сделать для желаемого результата.

Возьмём предложение в качестве примера: 

В это время к Незнайке пришёл его друг, Гунька.

В этом предложении алгоритм должен выделить две орфограммы в слове пришёл: приставку при- («Правописание приставок пре- и при-») и букву ё («Правописание о и ё после шипящих согласных»). Для первого правила компьютер сначала генерирует морфемный разбор слова, а затем проверяет, есть ли среди всех морфем в слове приставка при- и является ли гласная в ней безударной. Для второго правила компьютер ищет все слова с сочетанием шипящей согласной и гласной о или ё, а также проверяет, является ли гласная ударной. 

Откуда же у компьютера знания по морфологии и фонетике? Как он понимает, где в слове ударение или суффикс?

Компьютерные лингвисты разработали инструменты, которые позволяют обработать тексты, снабдив их лингвистической разметкой. К таким размеченным текстам уже можно задавать исследовательские вопросы с опорой на разметку. В НКРЯ есть несколько уровней такой разметки, перечислим некоторые из них:

  • Исходно тексты корпуса хранятся в формате CoNLL-U. Это такой формат, который позволяет удобно представлять информацию обо всех составляющих текста с помощью системы специальных тегов: о предложениях и синтаксических зависимостях в них, о словах и их морфологических характеристиках. Для получения такой разметки в НКРЯ разработали нейросетевой морфосинтаксический анализатор РуБик.
  • Морфемный разбор слов также был сгенерирован с использованием нейросетевых методов. Вот так выглядит результат работы морфоанализатора: 
«перламутровый»: {
    «A»: {
      «neural»: true,
      «parsing»: [
        «перламутр:ROOT»,
        «ов:SUFF»,
        «ый:END»
      ]
    }
  • Для постановки ударений в словах использовался словарно-нейросетевой акцентуатор ru-accent-poet. В результате его работы появляется строка, содержащая слово с апострофом перед ударной гласной: «прим′ер».

И это правда работает?

Перед тем, как доверить любому автоматическому алгоритму решение интеллектуальной задачи, необходимо проверить, насколько мы можем на него полагаться. Чтобы оценить качество работы алгоритма, мы сравнили машинную разметку с экспертной. В качестве экспертной разметки была взята аннотация, сделанная вручную студентами-филологами и лингвистами. Сравнив автоматическую разметку с ручной, мы подсчитали все случаи, когда аннотированные компьютером и экспертами примеры совпали. Это позволило выявить, в каких случаях компьютер ошибается, пропуская примеры или, наоборот, размечая лишние. В результате мы узнали, что алгоритм наиболее хорошо справляется с разметкой примеров на правописание -тся/-ться в глаголах, -о-/-ё- после шипящих, приставок пре-/при- и приставок, оканчивающихся на -з-/-с-.

В результате подсчёта метрик мы получили значения от 0,44 до 0,95. Но и они являются только примерной оценкой точности алгоритма, так как на неё влияет ряд факторов, например: неточности в эталонной разметке и разная представленность  примеров в корпусе. В качестве эталонной мы взяли ручную разметку, но нужно понимать, что и в ней могут быть ошибки. Ручная разметка — это трудоёмкий для эксперта процесс, без которого, однако, нам было не обойтись. Размечая тексты, человек может что-то упустить, забыть случай использования правила или перепутать метки для разных правил, из-за чего в эталонной разметке теряется часть необходимых орфограмм.

Также количество примеров для разных правил в текстах корпуса представлено неравномерно: например, мы имеем очень много прилагательных и причастий с -н- и -нн-, но мало страдательных причастий с орфограммой в суффиксах -ем- и -им-. Это уменьшает точность оценки, потому что выборка не такая большая. В дальнейшем требуется разнообразить данные.

Объединив несколько разных инструментов в работе над одной задачей, возможно дополнить корпусную разметку и получить новое практическое применение корпуса. Орфографическая разметка расширяет функционал НКРЯ и открывает новые возможности для учителей-словесников и методистов. В дальнейшем она может стать основой для автоматического создания упражнений по орфографии при отработке полученных знаний.

Источники

  1. Лапошина А. Н., Веселовская Т. С., Лебедева М. Ю. и др. Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). 2019. Вып. 18 (25). C. 351–363.
  2. Сложности русского языка. [Электронный ресурс] URL: https://yandex.ru/company/researches/2016/ya_spelling (дата обращения: 10.11.2024).
  3. Фонд «Эмпатия» провёл опрос о современном русском языке среди школьных учителей. [Электронный ресурс] URL: https://empathy-foundation.ru/news/fond-empatiya-provyol-opros-o-sovremennom-russkom-yazyke-sredi-shkolnyh-uchitelej/ (дата обращения: 10.11.2024).
  4. Иомдин Б. Л., Морозов Д. А. Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей // Русская речь. 2021. № 5. C. 55–68.