Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
В английском языке нельзя с помощью одного слова выразить значение «послезавтра», а в русском — значение «две недели». Но, как правило, во множестве языков есть слова из так называемого базового словаря: например, «я», «мать» или «жить». На основе базового словаря и был создан список Сводеша — список самых распространенных, базовых лексем, который используется для оценки родства языков, как правило, внутри одной языковой семьи.
При описании списка Сводеша часто говорят не о собственно словах, а о значениях, которые эти слова передают. Это более точный термин, ведь, например, слова water в русском языке нет, а значение, передаваемое словом water, — есть (оно передается словом «вода»). Кроме того, список включает слова, у которых потенциально может быть несколько значений, в том числе редкие или устаревшие. Например, слово foot входит в список Сводеша в значении «нога, часть тела», но не входит в значении «фут, единица измерения» — это гораздо более редкое значение, известное в ограниченном числе культур.
Список Сводеша состоит из базовой лексики: так называют понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке. Второе качество базовой лексики (несклонность к изменениям) Моррис Сводеш сравнивал с радиоактивным распадом, утверждая, что базовые слова в языках мира выпадают из употребления и заменяются новыми с примерно одинаковой низкой скоростью. Благодаря этому мы можем оценить, как давно два языка были одним (подобно оценке древности археологической находки с помощью радиоуглеродного анализа). Это означает, что, например, «мясо» может считаться универсальным понятием, а «шашлык» — уже нет. Впрочем, решение проблемы универсальности бывает и более неожиданным, особенно при европоцентричном подходе, которым отличаются многие гуманитарные науки. Например, изначально включенные в список Сводеша понятия «муж» и «жена» пришлось убрать, поскольку они встречались только в 57% и 51% рассмотренных языков.
Кроме того, при заполнении списка Сводеша для конкретного языка в список должно включаться самое базовое слово, выражающее в данном языке искомое значение. Например, для русского языка в поле eye мы бы записали «глаз», а не «глазик» (уменьшительно-ласкательное) или «око» (архаичное). Помимо стилистической нейтральности слова при заполнении списка также учитываются частота его употребления и способность употребляться самостоятельно. Если же какое-то слово используется только в составе устойчивого выражения или составного слова, то оно признается неподходящим.
В первом варианте списка Сводеша, опубликованном в 1952 году, было 215 значений. В 1971 году был опубликован финальный список, состоящий из 100 значений. Сократить список удалось, избавившись от ряда значений, которые все же не оказались достаточно универсальными. Например, числа «три», «четыре» и «пять» присутствуют в первом списке, но отсутствуют в обновленном.
Кроме того, при сравнении языков было выявлено, что некоторые значения ведут себя похожим образом. Например, если значение слова «жена» в языке X и языке Y обозначается родственными словами, то в этих языках родство крайне вероятно и для слова «женщина». К подобным значениям Сводеш отнес, например, слова «земля» и «пыль», «длинный» и «далекий», «туман» и «облако». Правда, несколько таких пар в финальном списке все же остались, например, «кора» и «кожа», «кто» и «что».
Были сокращены и названия животных. Так, «змею» и «червяка» из списка убрали, оставив четыре значения — «собака», «птица», «рыба» и «вошь». Это связано с тем, что часто названия животных могут быть родственны не столько в силу лингвистических причин, сколько из-за того, что они легко передаются из одного языка в другой, например, когда люди мигрируют в новое для них место.
Некоторые слова, несмотря на универсальность значений, также не попали в короткий список. Например, слова для обозначения родителей есть только в «длинной» версии. Еще в статье 1955 года Сводеш обращает внимание на сложности, связанные с подобными словами. В их основе часто лежит детский лепет (ма-ма, па-па), и во многих языках мира они будут похожи, даже если родство между языками отдаленное.
Лингвист Сергей Яхонтов создал еще более сжатый список, состоящий всего из 35 значений. Например, «собака» в нем все еще осталась, а вот «птица» — уже нет.
Отдельный вариант списка Сводеша есть и для жестовых языков. Примечательно, что в нем нет, например, значений для частей тела («рука», «голова») или некоторых местоимений («я», «это»). Дело в том, что в разных жестовых языках эти жесты часто похожи не из-за родства языков, а из-за логики жестовой речи, где значение «я» часто передается указыванием на себя, а значение «голова» — касанием головы.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…