Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696
Иллюстратор: Женя Родикова
В цифровой библиотеке Google Books хранятся миллионы книг. С помощью сервиса Google Ngram Viewer можно исследовать статистику употребления слов в корпусах на разных языках: например, сравнить формы английских глаголов или популярность устойчивых выражений.
Тренд ТикТока с Google Ngram Viewer описывает ситуацию, когда пользователь ищет в корпусе, казалось бы, современные понятия, а находит их упоминание в книгах XVIII века. Причин тому много: от банальной многозначности слов до проблем в самом корпусе — например, некорректном распознавании текста. Ниже можно увидеть примеры из ТикТоК и наши комментарии к ним.
Несмотря на то, что тексты в корпусе относятся к английскому языку, это не значит, что они полностью написаны на английском. Там есть и учебники латыни, где “emo” означает «покупаю». Кроме того, в некоторых текстах неверно распознаны переносы слов, например “emo-llient”, т.е. «смягчающий».
Шутка удалась: некоторые из комментаторов всерьёз пытались объяснить автору ТикТока, что Тесла — это не только электромобиль, но и физик. Машина, впрочем, на фото смотрится эффектно.
ТикТок тренды на тему «современная массовая культура двести лет назад» — отдельный вид искусства. Просто взгляните на Росомаху с этим воротником.
Всё просто — слово “marvel” переводится как «чудо» и часто встречается, например, в религиозных текстах.
В 1696 год случайно попала книга 2009 года — бывает и такое.
Другой пример “star wars” в корпусе связан с проблемами оцифровки: выше скриншот с этим словосочетанием в тексте 1681 года. Разобрать почти невозможно.
Здесь опять проблема распознавания текста. Например, через GTA пишется слово “octavo” в каталоге 1743 года.
Поэкспериментировать самим можно на сайте Google Ngram Viewer. Например, если в поиске среди русских книг ввести слово «эмо» виден пик в 1820-х — и это не из-за распространения романтизма, а всего лишь частые проблемы с оцифровкой.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…