Как появилась идея цифрового исследования K-pop песен
Корейская поп-музыка набирает популярность по всему миру. Выход на глобальный рынок отражается и на текстах песен, которые нужно адаптировать для международной аудитории. Мы провели исследование, чтобы ответить на два вопроса:
- как артисты включают в свои песни английскую лексику;
- как различается использование отдельных слов в текстах мужских и женских групп?
Проектом руководила Ульяна Стрижак, академический руководитель образовательной программы «Востоковедение» в НИУ ВШЭ. По её словам, идея проекта возникла на международной научно-практической конференции «Лингвистика языков Китая, Кореи и Японии», организованной в РГГУ в ноябре-декабре 2023 г., где обсуждались проблемы и задачи корпусной лингвистики на материале восточных языков.
На заседании секции я познакомилась со студентами Школы лингвистики НИУ ВШЭ, которые рассказывали о работе своей проектной группы по созданию, аннотированию и анализу корпуса корейских песен K-pop под руководством Дмитрия Сичинавы. Я подумала о создании совместного проекта востоковедов и лингвистов, в рамках которого можно было бы эффективно применять навыки этих близких по своей методологии научных областей. В результате сложилось отличное сотрудничество двух коллективов, а студенты-кореисты третьего курса образовательной программы «Востоковедение» смогли провести исследование с использованием методов анализа данных в рамках совместного экспериментального трека по Data Science двух факультетов НИУ ВШЭ — факультета мировой экономики и мировой политики и факультета компьютерных наук. Благодарю наших кореистов за научную смелость: их опыт использования методов цифрового анализа восточных текстов станет примером профессионального роста для следующих поколений молодых востоковедов
Данные и методика исследования
Исследование было выполнено с помощью языка программирования Python. Мы работали с датасетами, которые включали в себя тексты песен мужских и женских корейских групп. В таблице meta_data.tsv содержались метаданные — названия песен, имена и гендеры исполнителей, даты выхода песен. Каждая строка таблицы соответствовала песне:
Фрагмент таблицы метаданных
В таблице orig_text_data.tsv хранились тексты песен построчно, т. е. каждая строка таблицы соответствовала строке песни:
Фрагмент построчной таблицы
Наконец, в третьей, самой подробной, таблице тексты были разделены до уровня отдельных слов. Каждая строка таблицы соответствовала отдельному слову в отдельной строке отдельной песни и содержала лингвистическую информацию, приписанную к слову, а также ID строки и песни:
Фрагмент пословной таблицы
В общей сложности в корпусе содержалось 290 песен от 77 исполнителей/групп, выпущенных в период с 2010 по 2023 годы.
Мы исследовали, как со временем менялось соотношение английских и корейских слов в конце строк, а также сравнили частоту использования отдельных слов в текстах исполнителей разных полов.
Как меняется язык корейской поп-музыки?
Начиная с 2017 года, в песнях корейских поп-групп появляется всё больше английских слов и выражений. Это объясняется тем, что как раз в 2017 году южнокорейская группа BTS первые выступила на American Music Awards, что сразу сделало её популярной в США. В том же году коллектив стал первой K-pop группой, получившей престижную премию в области музыки Billboard Music Award.
Вслед за этим успехом всё больше корейских групп стало выходить на международных уровень. Мы решили проверить гипотезу, появилось ли в их песнях больше английских слов. Для этого мы подсчитали, какая доля строк в песнях из нашего датасета завершалась английским, а какая корейским словом. Оказалось, что целых 43,2% строк в корпусе завершаются английским словом. Примеры мы привели в таблице:
Группа | Фраза | Перевод |
Enhypen | just the two of us 깊어져 가는 Moonstruck | только мы вдвоём впадаем всё глубже во власть луны |
TXT | 마침내 찾은 Answer | наконец-то найденный ответ |
Как правило, английское слово в конце строки оказывалось определением или сказуемым. Это объясняется грамматической структурой корейского предложения.
Процент английских (en, синий) и корейских (kor, оранжевый) слов в конце песенных строк
Чтобы проследить динамику использования английской лексики, мы провели анализ текстов песен, разделив их по годам выпуска. Стало понятно, что английского в конце строк становится особенно много с 2020 года, а в 2022 году он впервые обходит корейский в процентном соотношении. Тренд сохраняется и в 2023 году: 53% строк в песнях 2023-го заканчивается английским словом, и лишь 47% — корейским. Ниже представлен график процентного соотношения английских (синим) и корейских (оранжевым) слов в конце песенных строк:
Язык последнего слова в каждой строке, суммарные процентные соотношения английского (синим) и корейского (оранжевым)
Любовь в K-pop: различия между мужчинами и женщинами
Корейские музыкальные группы чаще всего можно разделить на мужские и женские, редко они бывают смешанными. При помощи корпуса корейских песен мы изучили некоторые гендерные различия в текстах. Всего в нашем корпусе есть 161 песня, принадлежащая исполнительнице-женщине или женскому коллективу, 129 песен от исполнителей-мужчин или мужских групп, а также одна от смешанного коллектива.
Подсчёт упоминаний слов boy и girl показал, что общее количество упоминаний слова boy составляет 105 раз, а girl — 102 раза. Оказалось, что слово boy чаще встречается в текстах женских групп (86 раз), в то время как girl преобладает в песнях мужских коллективов (68 раз).
Мы исследовали, как употребляются слова love и 사랑 (что означает «любовь» на корейском языке) в текстах женских и мужских групп.
Количество употреблений слов love и 사랑 в текстах женских и мужских групп
Можно увидеть, что в мужских песнях при выборе между корейским и английским словом отдаётся более сильное предпочтение английскому (почти в три раза). В текстах женских групп и исполнителей английский вариант также преобладает, однако его доминирование не такое сильное (всего в 1,5 раза).