Наблюдать за появлением нового языка в двадцать первом веке — редкая возможность, и у нас она есть! В октябре 2011 года Apple добавила emoji как международную клавиатуру. С тех пор цифровой язык развился настолько, что сейчас половина комментариев и хэштегов в Instagram содержат эмодзи. А если у смайликов есть своя клавиатура, значит это фактически новый искусственный язык, и применяя методы машинного обучения и обработки естественного языка, можно обнаружить его скрытую семантику. 🎉

📈Эмодзи в Instagram

В 2011-2013 emoji стала самой используемой клавиатурой, и уже через месяц после ее появления в iOS, 10% текста в Instagram составляли эмодзи. Рост употребления смайликов увеличился после того Android тоже получили нативную поддержку emoji в 2013.


Употребление эмодзи продолжало расти, и к 2015 году уже почти половина текста в Instagram содержала смайлики. Тенденция кажется очевидной, но все не так однозначно. Если посмотреть на график употребления emoji в разных странах, то мы увидим, что пользователи из Финляндии используют их более чем в 60% текста , а в Танзании эмодзи содержит только 10% текста. 🗺️

Sorry, i don’t speak Emoji

Чтобы разрабатывать и изучать язык эмодзи, нужно научиться понимать их значение. В области обработки естественного языка для этого существует распределительная гипотеза: похожие слова могут быть интуитивно-заменяемы. Например, мы можем сказать, что собака и кошка — это похожие слова, потому что их можно использовать в таком предложении, как: «зоомагазин продает еду для _». Эта интуиция может быть применена и к смайликам. 📖

В режиме пропуска инструмент word2vec считывает текст и предсказывает контекст вокруг заданного слова или эмодзи:

Emoji и интернет-сленг

Узнав контекст употребления конкретного эмодзи, мы можем начать искать семантически похожие слова, вычисляя «угол» (косинусную близость) между emoji и другими словами. Оказывается, что многие популярные смайлики соответствуют раннему интернет-сленгу:
😂 (№ 1 по частоте использования ): lolol, lmao, lololol, lmaoo, lol, ahahah, ahahha, loll, ahaha, ahah
😍 (№ 2 ): beautifull, gorgeous, perfff, hottt, cuteeee, beautifullll, baeeeee, hotttt, babeee, sexyyyy, hawttt
❤️ (№ 3): xoxoxox, xoxo, oxox, babycakes, muahhhh, babe, loveyou, bunches, muahh, xoxox
👍(№ 9): awesome, good, #keepitup, #fingerscrossed, aswell, haha, #impressed, #yourock, lol, #greatjob, bud, #goodjob, #muchlove, #proudofyou, job, #goodluck
😭(№ 11): omgg, omf, lololol, whyyy, ughhh, ugh, lolol, wahhhh, oml, uhg, agh, xc, tooo

Изменение словарного запаса

Самые популярные эмодзи семантически очень близки к словам из интернет-сленга «lol/hehe» (😂), «xoxo» (❤️) и «omg» (😱), но могут ли они их полностью заменить?
Чтобы контролировать изменения в языке Instagram, ученые отобрали четыре репрезентативных группы: те, кто присоединился к Instagram в первую неделю июля 2012, января 2013, июля 2013 и января 2014. Каждая из групп содержит миллионы пользователей, и самые часто употребляемые ими слэнговые выражения: лол, xoxo, ОМГ, muah, babe, bae, ха-ха и хе-хе можно преобразовать в регулярное выражение:
(?:\b|#)((?:xo)+|omg+|muah+|babe+|bae+|lol+|(?:ha|he)+h?)(\b|.|!|\?)

На диаграмме ниже видно, что все группы демонстрируют схожую картину в росте употребления эмодзи (~ 45%) и снижении использования интернет-сленга (~ 5%) с одинаковым значением.

💙💚💛(Сердечко)💜💖💗💌

word2vec допускает алгебраические операции в семантическом пространстве, за счет которых семантический анализ может творить чудеса. Например, дифференцировать смайлики-сердечки по цветам, находя другие понятия, слова и символы примерно соответствующие цвету.
💙  ~= #goblue, #letsgoduke, #bleedblue, #ibleedblue, #worldautismawarenessday, #goduke, #beatduke, #autismspeaks, #autismawarenessday, #gobroncos, duke
💚  ~= #gogreen, loyals, #herballife, #happysaintpatricksday, 🍏, #stpats, 🍀, #jointhemovement, green, #hairskinnails, #happystpatricksday
💛  ~= 🌱 ,🍊 ,#springhassprung ,🔆 ,#springiscoming ,#springishere, #aprilshowers, #thinkspring, #hellospring, 🌻, #wildflower, #happyearthday
💜~= ✨, 🌀, 🔮, 🌟, 💄, 🎀, faldc, 💎, brassy, topaz, peachy ,purple, #thinkpink,☁, sparkle, 🌿, shimmer, sparkles, kaleidoscope, periwinkle, 🍄, greenish
💖 ~= gorl, 💮, cwd, s4s, aynmalik, spvm, ulee, 💧, 🈹, yulema, sfs, bvby, ɑnd, indirect, priv
💗 ~= ulitzer, 🎀, peachy, february’s, tulle, mackz, kendall’s, curvy, faldc, #dancewear, strapless, 👗, ◽, floral
💌  ~= 📫, ℹ, 📬, 📮, ✉, 📩, 💳, 💻, 📦, paypal, 📧, item, ⏬, 📱, inquire, orders, payment, 📄, 📋, 📲, deposit

Семантическая карта

Эмодзи становятся универсальным методом выражения эмоций. Чтобы увидеть отношения между ними, 100-мерное пространство, в котором находятся символы, можно при помощи алгоритма t-SNE превратить в двухмерное, где все эмодзи будут расположены по принципу смежности.

На карте появляются отдельные кластеры: «еда» (слева), «работа» (напротив, справа). «Обувь» (внизу справа) тесно связана с сумочками, в то время как купальники находятся ближе к воде и морским животным (вверху слева). Улитка оказывается рядом с «космосом» (вверху в центре), алкогольные напитки группируются вместе с боулингом (внизу слева). В центре мы видим толпу эмоций: «шок», «скука», «слезы», -среди которых почему-то оказывается лягушка. Интересно, что двигаясь вниз от центра, эмоции становятся добрее. Веселье ведет к счастью, счастье к любви, семье и свадьбе. (вывод: осторожнее с весельем).

Источник Emojineering Part 1: Machine Learning for Emoji Trends