Маленькие дети радуются, когда удается прочитать вывеску на улице. Нейросети тоже читают вывески, а некоторые еще и шрифт определяют. И если по почерку человека можно узнать его характер, то какую информацию о жителях городского района позволяет получить почерк улицы?
Иллюстратор: Александра Комарова
Сотрудники лаборатории Senseable City Lab Массачусетского технологического института решили выяснить, какие шрифты чаще всего используются на улицах Лондона. Таких шрифтов оказалось около 900, включая Helvetica, Gill Sans и всем известный Times New Roman. Для удобства шрифты объединены в классы: с засечками, без засечек, рукописные и т.д.
Для распознавания текста использовались наработки в сверточных нейронных сетях (convolutional neural network, CNN). Было загружено более 700 тысяч изображений из Google Street View, на которых нейросеть распознала почти 60 тысяч шрифтов. Не всегда удается верно определить название заведения: например, нейросеть прочитала вывеску как «Burberr» и не нашла соответствий. Такая проблема решается сопоставлением полученных результатов с данными API Google Places: если известно, что в пределах 50 метров от точки геопривязки изображения находится объект под названием «Burberry», то все определяется верно.
В исследовании для Лондона компания Senseable City Lab рассматривает, насколько тот или иной шрифт коррелирует с определенным типом предприятий сферы услуг. Так, среди банков распространены шрифты Serif (с засечками) и Sans-Serif (без засечек), поскольку они облегчают восприятие текста и ассоциируются с серьезными организациями.
Для большинства типов предприятий наиболее часто используемым оказался шрифт Serif, однако для ночных клубов он совсем не характерен. Развлекательные заведения стремятся привлечь определенную аудиторию, поэтому делают выбор в пользу декоративных и рукописных шрифтов. Они зачастую не способствуют читаемости текста, однако здесь главное не содержание, а привлекательность внешней формы.
Авторы решили проверить взаимосвязь между коэффициентом встречаемости определенных типов шрифтов и уровнем доходов населения по районам Лондона. Коэффициент встречаемости рассчитан как отношение числа шрифтов определенного типа к общему количеству распознанных шрифтов для рассматриваемого района.
Больше всего с доходами населения коррелируют шрифты с засечками и рукописные шрифты. Получается, что в районах Лондона, в которых преобладает обеспеченное население, встречается наибольшее число вывесок, где используются шрифты Serif и Script. Таким образом, авторы предлагают использовать шрифт как альтернативную метрику для оценки экономического и социального статуса региона.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…