Читать нас в Telegram
k-pop
Иллюстрация: Анастасия Феофанова

Как появилась идея цифрового исследования K-pop песен

Корейская поп-музыка набирает популярность по всему миру. Выход на глобальный рынок отражается и на текстах песен, которые нужно адаптировать для международной аудитории. Мы провели исследование, чтобы ответить на два вопроса:

  • как артисты включают в свои песни английскую лексику;
  • как различается использование отдельных слов в текстах мужских и женских групп?

Проектом руководила Ульяна Стрижак, академический руководитель образовательной программы «Востоковедение» в НИУ ВШЭ. По её словам, идея проекта возникла на международной научно-практической конференции «Лингвистика языков Китая, Кореи и Японии», организованной в РГГУ в ноябре-декабре 2023 г., где обсуждались проблемы и задачи корпусной лингвистики на материале восточных языков.

На заседании секции я познакомилась со студентами Школы лингвистики НИУ ВШЭ, которые рассказывали о работе своей проектной группы по созданию, аннотированию и анализу корпуса корейских песен K-pop под руководством Дмитрия Сичинавы. Я подумала о создании совместного проекта востоковедов и лингвистов, в рамках которого можно было бы эффективно применять навыки этих близких по своей методологии научных областей. В результате сложилось отличное сотрудничество двух коллективов, а студенты-кореисты третьего курса образовательной программы «Востоковедение» смогли провести исследование с использованием методов анализа данных в рамках совместного экспериментального трека по Data Science двух факультетов НИУ ВШЭ — факультета мировой экономики и мировой политики и факультета компьютерных наук. Благодарю наших кореистов за научную смелость: их опыт использования методов цифрового анализа восточных текстов станет примером профессионального роста для следующих поколений молодых востоковедов

Данные и методика исследования 

Исследование было выполнено с помощью языка программирования Python. Мы работали с датасетами, которые включали в себя тексты песен мужских и женских корейских групп. В таблице meta_data.tsv содержались метаданные — названия песен, имена и гендеры исполнителей, даты выхода песен. Каждая строка таблицы соответствовала песне:

Фрагмент таблицы метаданных

В таблице orig_text_data.tsv хранились тексты песен построчно, т. е. каждая строка таблицы соответствовала строке песни:

Фрагмент построчной таблицы

Наконец, в третьей, самой подробной, таблице тексты были разделены до уровня отдельных слов. Каждая строка таблицы соответствовала отдельному слову в отдельной строке отдельной песни и содержала лингвистическую информацию, приписанную к слову, а также ID строки и песни:

Фрагмент пословной таблицы

В общей сложности в корпусе содержалось 290 песен от 77 исполнителей/групп, выпущенных в период с 2010 по 2023 годы.

Мы исследовали, как со временем менялось соотношение английских и корейских слов в конце строк, а также сравнили частоту использования отдельных слов в текстах исполнителей разных полов.

Как меняется язык корейской поп-музыки?

Начиная с 2017 года, в песнях корейских поп-групп появляется всё больше английских слов и выражений. Это объясняется тем, что как раз в 2017 году южнокорейская группа BTS первые выступила на American Music Awards, что сразу сделало её популярной в США. В том же году коллектив стал первой K-pop группой, получившей престижную премию в области музыки Billboard Music Award. 

Вслед за этим успехом всё больше корейских групп стало выходить на международных уровень. Мы решили проверить гипотезу, появилось ли в их песнях больше английских слов. Для этого мы подсчитали, какая доля строк в песнях из нашего датасета завершалась английским, а какая корейским словом. Оказалось, что целых 43,2% строк в корпусе завершаются английским словом. Примеры мы привели в таблице:

ГруппаФразаПеревод
Enhypenjust the two of us 깊어져 가는 Moonstruckтолько мы вдвоём впадаем всё глубже во власть луны
TXT마침내 찾은 Answer
наконец-то найденный ответ

Как правило, английское слово в конце строки оказывалось определением или сказуемым. Это объясняется грамматической структурой корейского предложения.

Процент английских (en, синий) и корейских (kor, оранжевый) слов в конце песенных строк

Чтобы проследить динамику использования английской лексики, мы провели анализ текстов песен, разделив их по годам выпуска. Стало понятно, что английского в конце строк становится особенно много с 2020 года, а в 2022 году он впервые обходит корейский в процентном соотношении. Тренд сохраняется и в 2023 году: 53% строк в песнях 2023-го заканчивается английским словом, и лишь 47% — корейским. Ниже представлен график процентного соотношения английских (синим) и корейских (оранжевым) слов в конце песенных строк:

Язык последнего слова в каждой строке, суммарные процентные соотношения английского (синим) и корейского (оранжевым)

Любовь в K-pop: различия между мужчинами и женщинами

Корейские музыкальные группы чаще всего можно разделить на мужские и женские, редко они бывают смешанными. При помощи корпуса корейских песен мы изучили некоторые гендерные различия в текстах. Всего в нашем корпусе есть 161 песня, принадлежащая исполнительнице-женщине или женскому коллективу, 129 песен от исполнителей-мужчин или мужских групп, а также одна от смешанного коллектива. 

Подсчёт упоминаний слов boy и girl показал, что общее количество упоминаний слова boy составляет 105 раз, а girl — 102 раза. Оказалось, что слово boy чаще встречается в текстах женских групп (86 раз), в то время как girl преобладает в песнях мужских коллективов (68 раз).

Мы исследовали, как употребляются слова love и 사랑 (что означает «любовь» на корейском языке) в текстах женских и мужских групп.

Количество употреблений слов love и 사랑 в текстах женских и мужских групп

Можно увидеть, что в мужских песнях при выборе между корейским и английским словом отдаётся более сильное предпочтение английскому (почти в три раза). В текстах женских групп и исполнителей английский вариант также преобладает, однако его доминирование не такое сильное (всего в 1,5 раза).