Лингвистика

Большие данные о языках в справочнике Ethnologue

Обзор самого известного онлайн-ресурса о языках мира: что можно узнать и кому это пригодится?

Что такое Ethnologue?

84 года назад SIL, или Summer Institute of linguistics (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь SIL — это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом. Результаты многолетней полевой работы и систематизации данных SIL публикует для общего доступа на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию. Каждый год в День родного языка, 21 февраля, организация обновляет издание Ethnologue.

К сожалению, Ethnologue является частично платным. В этом посте мы расскажем о его бесплатном функционале.

Ethnologue для любознательных: всё, что вы хотели узнать, но боялись спросить о языках мира

На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111. При этом 40% из всех существующих языков находятся под угрозой исчезновения. Посмотреть, как распределены по миру умирающие языки, можно на специальной интерактивной карте. А если вы подумываете выучить новый язык, но ещё не решили какой, посмотрите статистику самых распространённых языков мира. Почему бы и не взяться за хинди?

Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. И такое найдётся. Для каждой из 142 языковых семей. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.

Всяк язык знай своё место

У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.

Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.

На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS. Таким образом, самые распространённые и сильные языки будут располагаться в верхнем левом углу, а малые языки, находящиеся под угрозой вымирания, — в правом нижнем. Вот так, например, выглядит график для русского языка:

А так, для терско-саамского, распространённого на северо-востоке Кольского полуострова (8b — язык на грани вымирания):

Такая исчерпывающая информация помогает лингвистам в исследованиях. Например, рассмотрев несколько языков, находящихся на грани вымирания, можно выявить, какие лингвистические и экстралингвистические черты их объединяют. И, может, тогда получится ответить на животрепещущий вопрос: почему языки исчезают?

Языковая ситуация в стране

Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются:

  • население,
  • основной язык,
  • уровень грамотности,
  • языки мигрантов,
  • количество глухих среди населения,
  • количество языков, распространённых на территории страны (и информация о каждом из них).

Каждый показатель сопровождается ссылкой на источник и/или подробным комментарием, в котором объясняется, откуда и как был получена такая цифра. Среди источников можно встретить ссылки на ЮНЕСКО, Статистический отдел ООН и даже Всемирную книгу фактов ЦРУ (вы знали о такой?).

Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков. Вот так, например, выглядит лингвистический портрет Индии:

Первое, что бросается в глаза, — это зашкаливающее количество языков: в сумме более 460! А ещё можно заметить, что распределение языков в Индии повторяет общемировую тенденцию (см. предыдущие графики): больше всего таких языков, которые находятся на среднем уровне развития. Цифра 5 соответствует статусу «развивающийся», то есть язык широко используется и даже есть попытки создавать литературу на нём, но пока он не получил достаточного распространения.

А вот совсем другая языковая ситуация. Сможете ли вы угадать государство по его лингвистическому портрету? Подсказка: индекс 1 соответствует статусу «национальный язык», индекс 9 — статусу «спящий», то есть язык уже вымер, но имеет символическое значение и используется в сообществе для сохранения культурного наследия.

По количеству языков можно понять, что государство это о-о-очень маленькое. А в каком о-о-очень маленьком государстве, кроме государственного, используется ещё и вымерший, но важный для культурной идентичности язык? Не трудно догадаться, что речь идёт о Ватикане, а языки эти — это итальянский и латынь.

Кому это нужно?

Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.

Источник: Этнолог — самый крупный онлайн-справочник о языках

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026