– Дядя Петя, что такое «крокодиловы слезы»?
Дядя Петя вытащил из котла кусок горячей капусты.
– Кажись, соус такой.
Нет, это не соус…
В этом отрывке из романа «Два капитана» повар дядя Петя не может удовлетворить любопытство маленького Сани Григорьева, но верно ощущает, что словосочетание «крокодиловы слезы» к настоящим крокодилам никакого отношения не имеет. Все дело в том, что «крокодиловы слезы» — пример коллокации, частотного сочетания слов с собственным значением. Впрочем, далеко не все исследователи согласятся с таким определением, поскольку термин «коллокация» может трактоваться очень по-разному.
Рассказываем, какие еще определения существуют, как пользоваться поиском коллокаций в Национальном корпусе русского языка и том, что результаты поиска могут нам рассказать о евреях в Российской империи XIX века.
Так что такое коллокации и как их находить
В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»). Вы могли встречаться с коллокациями, когда учили иностранный язык, ведь запоминать готовые выражения сразу зачастую проще, чем заучивать слова по отдельности. Тем более что какие-то сочетания, корректные с точки зрения грамматики, могут просто не использоваться, так как их заменяют более частотные. Специально для помощи в заучивании коллокаций даже составляются отдельные словари: например словарь FreeCollocation для английского. Также коллокации могут быть полезным инструментом при разработке толковых словарей или в филологических исследованиях.
Однако вокруг определения коллокации до сих пор ведутся дискуссии. Некоторые исследователи считают, что слова в коллокации должны образовывать устойчивое сочетание, быть ассоциированы друг с другом. Впрочем, признаки «устойчивости» или «ассоциированности» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации.
Более строгим оказывается критерий некомпозициональности сочетания. В лингвистике некомпозициональными называются словосочетания, общее значение которых не складывается из значений каждого слова. Допустим, сочетание «Петины слезы» имеет значение «слезы, которые пролил Петя», тогда как «крокодиловы слезы» чаще употребляется вовсе не в значении «слезы, которые пролил крокодил», а в значении «фальшивый плач», которое из отдельных значений «слеза» и «крокодилов» никак не следует. Однако при определении коллокаций этот критерий используется достаточно редко: обычно этим термином обозначается более широкий круг явлений.
Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). На практическом уровне это различение можно проиллюстрировать следующим образом: пара слов «хлеб насущный» является когерентной коллокацией, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, но не когерентной, ведь высокая совместная встречаемость обусловлена грамматическими причинами: в большом числе контекстов постановка неопределенного артикля обязательна.
С появлением корпусов задача значительно упростилась, потому что появилась возможность выделять коллокации на основе статистических данных, то есть совместной встречаемости — самого базового свойства коллокаций.
Введем термины node («узел», в русском принят термин «ключ») — слово, коллокации к которому мы ищем, и span («окно») — количество слов слева и справа от узла, которые мы учитываем при подсчете метрики. Одна из самых популярных метрик коллокаций, Mutual Information (MI), имеет следующую формулу:

Здесь MI — итоговое значение; Fn,c — совместная встречаемость узла и коллоката; Fn — частотность узла; Fc — частотность коллоката; N — размер корпуса; S — размер окна.
Альтернативой этой метрике может выступать MI3:

Здесь O11 — реальная совместная встречаемость ключа и коллоката, а E11 — ожидаемая. Ожидаемая частота рассчитывается по следующей таблице:

Здесь O12 и O21 — встречаемость каждого коллоката с другими словами. Произведение каждой из них на частоту совместной встречаемости — R1 и C1. Уже из них можно вычислить и ожидаемую частоту:

Существуют альтернативные метрики связанности коллокаций, многие из них изложены на этом портале. В нашей статье мы не будем их касаться, но прикрепим картинку, которая показывает, какие метрики существуют для выявления разных типов коллокаций.

Виды коллокаций и метрики для их выявления на шкалах частотности и эксклюзивности. Источник: [3]
Здесь можно видеть, какие сочетания находит каждая метрика. Допустим, MI ищет низкочастотные коллокации, элементы которых почти не встречаются ни с чем, кроме друг друга (на схеме они названы exclusive, эксклюзивные). А вот MI3 ищет скорее частотные и не столь эксклюзивные сочетания.
Поиск коллокаций: что умеет НКРЯ
В Национальном корпусе русского языка (НКРЯ) также можно искать коллокации. Посмотрим, как это делается. Для этого зайдем на главную страницу корпуса и перейдем в основной подкорпус.

Откроем поиск коллокаций.

Мы видим, что НКРЯ позволяет осуществлять поиск по ключу (он же node, «узел») и коллокату. В строку поиска вводится лемма (т. е. начальная форма слова). Если задать в поиске и ключ, и коллокат, можно проверить связанность коллокации. Посмотрим, как это работает с уже известной нам коллокацией «крокодиловы слезы».


НКРЯ рассчитывает несколько метрик сразу, среди них есть уже знакомая нам MI3. Для «крокодиловых слез» она составляет 15,06. Впрочем, гораздо интереснее посмотреть на нее в контексте других коллокатов. Для этого уберем при поиске лемму коллоката, чтобы увидеть, какие еще слова связаны со словом «крокодиловый».

При сортировке по значению MI3 видно, что «крокодиловы слезы» — сильная коллокация, поскольку при ранжировании выше нее оказывается только «крокодиловая кожа». Получается, что «крокодиловы слезы» — частотная коллокация, элементы которой относительно редко встречаются не рядом друг с другом, то есть она эксклюзивная.
Можно заметить, что в списке выше присутствуют коллокации «крокодиловый из» и «крокодиловый проливать». Но что делать, если нам интересны только пары «крокодиловый + существительное»? В таком случае НКРЯ позволяет фильтровать коллокат по части речи.
Вернемся в окно поиска и нажмем на кнопку «Выбрать» в окне «Грамматические признаки».

Открывается стандартное для НКРЯ окно, в котором можно выбрать часть речи и другие морфологические признаки слова. Выберем пункт «Существительное».

Теперь окно поиска выглядит следующим образом:

Из итогового списка пропали все коллокаты, не являющиеся существительными.
А вот как будет выглядеть список коллокатов-глаголов:

Интересно, что три коллокации из четырех связаны с выражением «крокодиловы слезы», которое мы так подробно рассматривали выше.
И что с этим делать?
Коллокации имеют широкий круг применений. Выше мы уже упоминали, что они используются при изучении иностранного языка (а некоторые исследования показывают, что по ошибкам в коллокациях можно с высокой точностью отличить носителя от изучающего язык как иностранный). В этом разделе мы расскажем о применении коллокаций в социальной истории на примере одного небольшого исследования.
Мы решили посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы мы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности. Для самых популярных коллокаций были просмотрены контексты, в которых они встречались. Посмотрим, что получилось.
- Религия
Среди коллокатов-прилагательных довольно часто встречаются связанные с религией слова, например: «крещеный», «православный», «некрещеный», «христианский» или «религиозный». Это соответствует нашим представлениям о том, как евреев воспринимали в Российской империи, ведь вероисповедание было одним из основных признаков, по которому евреи противопоставлялись остальным.
- Страны и города
Также среди коллокатов-прилагательных часто встречаются обозначения, связанные с национальностью и географией («польский», «немецкий», «французский», «киевский»). Внимательно посмотрев на контексты, мы увидели, что в случае с евреями употребление этих прилагательных связано либо с тем, что евреев дополнительно классифицировали по их территориальному происхождению (например, «польский еврей»), либо с тем, что евреев оценивали через сравнение с другими этносами. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения.
Примеры:
«…Ваша ненависть к «жиду» простирается даже на Дизраэли… который, вероятно, сам не знает, что его предки были когда-то испанскими евреями…» [Ф. М. Достоевский. Дневник писателя. 1877. Год II-й (1877)]
«…в которых обыкновенно киевские евреи развозят красный товар…» [А. А. Фет. Из деревни. 2 (1864)]
«До самого отъезда Савин страшно боялся, чтобы в нем не узнали русского, бежавшего от французских жандармов…» [Н. Э. Гейнце. Герой конца века (1898)]
- Дельцы
Многие коллокаты-глаголы для слов «еврей» и «жид» относятся к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые из которых имеют негативный оттенок («надуть», «обмануть»). Связанные с этой темой слова можно найти и среди коллокатов-прилагательных («экономический», «хитрый», «богатый»). Всё вместе это позволяет предположить, что уже тогда образовался стереотипный антисемитский образ еврея как богача и успешного коммерсанта, который часто прибегает к обману в целях обогащения.
Примеры:
«Образование земледельческих колоний имело мало успеха, а с другой стороны, под разными предлогами евреи стали приобретать населенные имения.» [П. М. фон Кауфман. Записка, представленная в 1881 году сенатору Половцову, ревизовавшему по высочайшему повелению Киевскую губернию (1881)]
«— Какъ меня жидъ-то надулъ въ Бѣлградѣ! обратился Николай Ивановичъ къ женѣ и покачалъ головой.» [Н. А. Лейкин. В гостях у турок (1897)]
«Я торговался, как жид, и вот результаты: 35 р. квартира, 3 р. дворнику, но без дров.» [В. М. Гаршин. Письма Е. М. Гаршину (1883)]
«На основании этого закона, евреям дозволяется открывать питейные заведения только в собственных домах.» [П. М. фон Кауфман. Записка, представленная в 1881 году сенатору Половцову, ревизовавшему по высочайшему повелению Киевскую губернию (1881)]
- Жестокость
Мы заметили, что некоторые коллокаты-глаголы у слов «еврей» и «жид» используются для описания конфликтов, как правило, с применением насилия («бить», «убить»). Во второй половине XIX века в Российской империи участились еврейские погромы, и скорее всего появление таких глаголов связано именно с этим. Впрочем, эти коллокаты встречаются относительно редко и слабо связаны с исходными словами, поэтому можно заключить, что в письменных источниках эта тема представлена слабо.
Примеры:
«посоветовать большую осторожность и справедливость по отношению к евреям, столь жестоко преследуемым в России.» [В. Н. Ламсдорф. Дневник (1891)]
«Утром он подбадривал парней словами: «Бейте жидов!» [Н. П. Карабчевский. Речь в защиту потерпевших от погрома в еврейской колонии Нагартов (1900)]
«Немногочисленное тогдашнее поселение правобережной Украины … сильно было проникнуто казацким духом … ненавидело поляков и жидов» [Н. И. Костомаров. Русская история в жизнеописаниях ее главнейших деятелей. Выпуск шестой: XVIII столетие (1862-1875)]
Разумеется, коллокации не могут быть единственным источником для исторических исследований, однако с их помощью можно проследить, какой след исторические события оставляют в языке.
Источники
- www.collocations.de: Association Measures. 2025. Collocations.de. 2025. URL: http://www.collocations.de/AM/index.html (дата обращения: 30.03.2025).
- Biber D., Randi R. The Cambridge Handbook of English Corpus Linguistics. Cambridge University Press. 2015.
- Brezina V. Statistics in Corpus Linguistics: A Practical Guide. Cambridge University Press. 2018.