Что такое Google Ngram Viewer
В цифровой библиотеке Google Books хранятся миллионы книг. С помощью сервиса Google Ngram Viewer можно исследовать статистику употребления слов в корпусах на разных языках: например, сравнить формы английских глаголов или популярность устойчивых выражений.
Тренд ТикТока с Google Ngram Viewer описывает ситуацию, когда пользователь ищет в корпусе, казалось бы, современные понятия, а находит их упоминание в книгах XVIII века. Причин тому много: от банальной многозначности слов до проблем в самом корпусе — например, некорректном распознавании текста. Ниже можно увидеть примеры из ТикТоК и наши комментарии к ним.
Emo: цитаты из латыни и опечатки
Несмотря на то, что тексты в корпусе относятся к английскому языку, это не значит, что они полностью написаны на английском. Там есть и учебники латыни, где “emo” означает «покупаю». Кроме того, в некоторых текстах неверно распознаны переносы слов, например “emo-llient”, т.е. «смягчающий».
Tesla: многозначность
Шутка удалась: некоторые из комментаторов всерьёз пытались объяснить автору ТикТока, что Тесла — это не только электромобиль, но и физик. Машина, впрочем, на фото смотрится эффектно.
Популярная культура в истории
ТикТок тренды на тему «современная массовая культура двести лет назад» — отдельный вид искусства. Просто взгляните на Росомаху с этим воротником.
Всё просто — слово “marvel” переводится как «чудо» и часто встречается, например, в религиозных текстах.
В 1696 год случайно попала книга 2009 года — бывает и такое.
Другой пример “star wars” в корпусе связан с проблемами оцифровки: выше скриншот с этим словосочетанием в тексте 1681 года. Разобрать почти невозможно.
Здесь опять проблема распознавания текста. Например, через GTA пишется слово “octavo” в каталоге 1743 года.
Поэкспериментировать самим можно на сайте Google Ngram Viewer. Например, если в поиске среди русских книг ввести слово «эмо» виден пик в 1820-х — и это не из-за распространения романтизма, а всего лишь частые проблемы с оцифровкой.
Что ещё почитать на тему
- Ленин против Сталина: зигзаги советской пропаганды — Google Ngram Viewer на материале советских текстов,
- Из пикселей — в буквы: как работает распознавание текста — о сложностях распознавания текста,
- Обзор компьютерных технологий для гуманитариев