Введение

Дистрибутивная семантика исходит из гипотезы, что значение слова определяется контекстом его употребления. И наоборот: слова, обладающие схожими значениями, употребляются в одинаковых контекстах. Все это позволяет нам выразить значение слова с помощью его совместной встречаемости с другими словами. Мы подсчитываем, с какими словами слово наиболее часто встречается в больших корпусах текстов, и можем определить, какие слова похожи друг на друга и какие различны. Системный блок писал про это и раньше. В этой статье речь будет идти о том, как с помощью дистрибутивной семантики извлечь цветовые характеристики объектов, и как можно сравнивать цвета в языке и в реальном мире.

Цвета и дистрибутивная семантика

Для начала поговорим о том, почему вообще нас должно интересовать, какого цвета слоны или бананы в языке. Интерес к связи между языком и восприятием возник ещё в 1950-е годы, когда была сформулирована гипотеза Сепира-Уорфа: человеческое восприятие формируется под воздействием семантических и грамматических категорий языка. Если в языке нет категории будущего времени, то и осознать будущее носитель языка не способен. У этой гипотезы существует много противников, а цветовое поле предоставляет материал, который удобен для того, чтобы гипотезу подтверждать или опровергать.

Чтобы выяснить, в каком отношении находятся цветовые характеристики и категории восприятия в языке и в реальном мире, было проведено несколько экспериментов.

Эксперимент 1: конкретные vs. абстрактные понятия

В первом эксперименте мы сравниваем цветовое разнообразие в языке для понятий из разных категорий: животные, растения, одежда, черты характера, черты внешности. Нас интересует, для каких категорий в языковых данных будет характерно большее цветовое разнообразие, а какие категории описываются меньшим количеством цветов.

Например, для описания животных или цветочных растений люди могут использовать десятки оттенков, но при этом обычно один из цветов доминирует. Так, розы скорее будут красными, васильки голубыми, львы жёлтыми и т.п. А для описания предметов одежды, тоже очень разных по цветовой гамме, доминантного цвета обычно нет. Одежда может быть любого цвета, и ни один не преобладает (ну разве что серый цвет в мегаполисах).

Сочетание цветов и понятий улавливается дистрибутивными моделями, поскольку чем чаще эти слова встречались вместе в тексте, тем более близки их вектора. Таким образом, из дистрибутивных данных можно понять, для каких объектов характерно иметь визуально-цветовое описание в языке, а для каких — нет.

Чтобы выяснить, для каких категорий характерно разнообразие, мы извлекаем вектора совместной встречаемости слов с цветовыми понятиями, а затем для каждого слова вычисляем дисперсию значений. Слова с высокой дисперсией (то есть большим разнообразием) относятся к категориям «животные» и «растения», как мы и предполагали. Слова с низкой дисперсией включают в себя черты внешности и абстрактные понятия.

Цветы и птицы в дистрибутивной модели и в реальном мире.

Эксперимент 2: только цвета

Во втором эксперименте мы сравниваем дистрибутивное пространство, построенное на основе всей коллекции текстов, и подпространство, построенное только на основе цветовых терминов. То есть мы подсчитываем совместную встречаемость слова с цветами (сколько раз слово «слон» встречалось со словом «красный», «синий», «фиолетовый» и т.д.) и опускаем все остальные слова. Для 500 слов с наибольшей вариативностью цветов и 500 слов с наименьшей вариативностью (слова взяты из первого эксперимента) мы извлекаем ближайших семантических соседей в обоих дистрибутивных пространствах.

Полное дистрибутивное пространство демонстрирует нам реальные семантические репрезентации слов. Если соседи слова в полном пространстве и во втором «цветовом» дистрибутивном пространстве совпадут, то это означает, что для данного конкретного слова цвет действительно очень важен — цветовые термины заключают в себе значимую семантическую информацию, описывающую это слово.

Наибольшее совпадение соседей слова в двух пространствах характерно для тех же самых категорий слов с высокой дисперсией цветовых значений: животные, растения. Это означает, что слова, для которых цвет — важная характеристика, имеют хорошие репрезентации в урезанном «цветовом» пространстве. То есть когда мы оставили только цвета, семантическая информация почти не потерялась — для описания флоры и фауны действительно важны цвета.

Эксперимент 3: что обо всем этом думают люди?

Если для некоторого слова слова в дистрибутивном пространстве характерно большое разнообразие цветов, которыми оно описывается (1 эксперимент), и его ближайшие семантические соседи совпали в полном и “цветном” пространствах (2 эксперимент), значит ли это, что люди действительно воспринимают предметы в таких цветах, в каких мы их видим в дистрибутивном пространстве? Для того чтобы это выяснить, мы сравнили извлеченные для конкретных понятий цвета со списком типичных цветов с точки зрения людей (какими цветами они описали бы эти предметы). Список цветов с точки зрения людей был составлен в ходе множества психолингвистических исследований.

Сравнение цветовых характеристик слов совпало только для 43% понятий. Получается, даже для слов, для которых характерно употребление с одним конкретным цветовым термином, этот цвет не обязательно является характерным с точки зрения восприятия.

Что в итоге? Розовые слоны против серых

В этом исследовании мы пытались выяснить, в каком отношении находятся цветовые характеристики понятий в языке и их цвета в реальном мире. Мы обнаружили, что для некоторых слов цвет является очень важной характеристикой: слова часто употребляются с некоторыми цветами в текстах, и если мы описываем слово только через его совместную встречаемость с цветовыми терминами, то семантическая информация практически не теряется.

Однако характерные цвета понятий, извлеченные из дистрибутивной модели, не совпадают с их цветами в реальном мире. Одной из причин такого поведения может быть соблюдение постулата Грайса «не говорить об очевидном». Зачем называть слона серым, если все и так знают, какого он цвета? Зато сказочные розовые слоны определенно заслуживают упоминания в языке.

Другой причиной может быть фигуративный язык. К примеру, при описании облаков чаще будут употребляться цвета «розовый», «желтый» или же «серый», поскольку люди редко обращают внимание на облака обычного белого цвета.

Источники

  1. Bruni, E. et al (2012). Distributional semantics in technicolor. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers 1.
  2. Rawee, J (2018). The Color Subspace in Distributional Semantics: Between Utterance Conservation and World Transformation.