Читать нас в Telegram
Иллюстратор: Женя Родикова

Что такое Google Ngram Viewer

В цифровой библиотеке Google Books хранятся миллионы книг. С помощью сервиса Google Ngram Viewer можно исследовать статистику употребления слов в корпусах на разных языках: например, сравнить формы английских глаголов или популярность устойчивых выражений

Тренд ТикТока с Google Ngram Viewer описывает ситуацию, когда пользователь ищет в корпусе, казалось бы, современные понятия, а находит их упоминание в книгах XVIII века. Причин тому много: от банальной многозначности слов до проблем в самом корпусе — например, некорректном распознавании текста. Ниже можно увидеть примеры из ТикТоК и наши комментарии к ним.

Emo: цитаты из латыни и опечатки

 

Источник: https://www.tiktok.com/@.milky.noodles/video/7022414722095942918?sender_device=pc&sender_web_id=7020689743228093953&is_from_webapp=v1&is_copy_url=0

Несмотря на то, что тексты в корпусе относятся к английскому языку, это не значит, что они полностью написаны на английском. Там есть и учебники латыни, где “emo” означает «покупаю». Кроме того, в некоторых текстах неверно распознаны переносы слов, например “emo-llient”, т.е. «смягчающий».

Tesla: многозначность

Источник: https://vm.tiktok.com/ZSeBjcqAc/

Шутка удалась: некоторые из комментаторов всерьёз пытались объяснить автору ТикТока, что Тесла — это не только электромобиль, но и физик. Машина, впрочем, на фото смотрится эффектно.

Популярная культура в истории

ТикТок тренды на тему «современная массовая культура двести лет назад» — отдельный вид искусства. Просто взгляните на Росомаху с этим воротником.

Источник: https://vm.tiktok.com/ZSeBj4FHe/

Всё просто — слово “marvel” переводится как «чудо» и часто встречается, например, в религиозных текстах.

Источник: https://vm.tiktok.com/ZSeBjp8Ly/ 

В 1696 год случайно попала книга 2009 года — бывает и такое.

Другой пример “star wars” в корпусе связан с проблемами оцифровки: выше скриншот с этим словосочетанием в тексте 1681 года. Разобрать почти невозможно.

Источник: https://vm.tiktok.com/ZSeBj4sbT/

Здесь опять проблема распознавания текста. Например, через GTA пишется слово “octavo” в каталоге 1743 года.

Поэкспериментировать самим можно на сайте Google Ngram Viewer. Например, если в поиске среди русских книг ввести слово «эмо» виден пик в 1820-х — и это не из-за распространения романтизма, а всего лишь частые проблемы с оцифровкой.

Что ещё почитать на тему