Читать нас в Telegram
Иллюстратор: Анна Руденко

В 2020 году в нашей повседневности многое изменилось. Казавшееся незаменимым — исчезло, а прежде незаметное — вышло на первый план. Чтобы лучше понять, что происходило с обществом, провалившимся в онлайн во время пандемии, «Системный Блокъ» решил обратиться к специалисту по цифровым социальным исследованиям. Дарья Радченко, заместитель руководителя Центра городской антропологии КБ «Стрелка», рассказала о масштабном исследовании цифровых следов россиян в соцсетях (Инстаграм, VK и другие) во время локдауна и провела экскурсию по миру цифровой антропологии.

Самоизоляция в Instagram

В марте 2020 года вместе с командой аналитиков из КБ «Стрелка» мы задались вопросом о том, как город меняется во время карантина. Мы решили исследовать это при помощи анализа данных из Инстаграма и других социальных сетей. К этому моменту уже появился, например, «Индекс самоизоляции» Яндекса, но нам был интересен немного иной ракурс. 

Материалы, с которым мы как антропологи имеем дело (в данном случае — фотографии из Инстаграма, Вконтакте и т.п.), ― не зеркало того, что происходит на самом деле. Фотографии из соцсетей ― это некоторое отражение того, что люди считают важным показать друг другу. Наше исследование не просто позволило зафиксировать то, где находятся люди и что они там делают, но и то, что они хотят друг другу рассказать о себе с помощью фото. Хотя, конечно, некоторая связь между количеством людей на улице и фотографиями есть.

Плотность фотографий с геопривязкой на улицах Москвы весной 2019 (слева) и 2020 (справа), фрагменты карт КБ «Стрелка»

Как мы организовали исследование? Взяли 15 российских городов-миллионников и еще добавили к ним Сочи — в самом начале карантина много писали о том, что туда рванули москвичи. Начало «нерабочего периода» совпало со стартом нашего исследования, поэтому мы выгрузили из соцсетей фото, сделанные в первые 14 дней самоизоляции и за аналогичные календарные даты 2019 года, чтобы иметь возможность сравнивать. У нас получился довольно большой массив данных.

Лучше всего самоизолировались города, в которых быстро ввели драконовские меры

В чем суть этой работы? В том, что мы собрали геолоцированные цифровые следы пользователей, анонимизировали их и нанесли на карту. Именно благодаря геопривязке можно увидеть некоторые пространственные портреты города ― в «мирное» время, и в экстремальной ситуации.

Плотность фотографий с геопривязкой на улицах Санкт-Петербурга весной 2019 и 2020 гг. Фрагменты карт КБ «Стрелка»

Самый первый и неприятный лично для меня вывод заключается в том, что наиболее действенными оказываются самые строгие меры. Это такая печальная история для моей либеральной души, но из песни слов не выкинешь. Лучше всего и быстрее самоизолировались ровно те города, в которых быстро вводились драконовские меры. Лидер здесь, например, ― Казань, в которой весной моментально ввели смс-пропуска. Улицы там опустели сразу же.

Плотность фотографий на улицах Казани весной 2019 и 2020 гг. Фрагменты карт КБ «Стрелка». В центре города заметно снижение активности на мосту (Кремлевская транспортная дамба, известная в Казани как Ленинская), связывающем центр города и часть спальных районов, а также общее снижение активности в центре города.

Новая локальность карантина: как «спальники» заменили нам центр

Второй момент, который мне тоже показался очень важным, ― люди на карантине стали исследовать свои собственные районы. В целом это объяснимо: раз уж нас ограничили километром или сотней метров в радиусе от собственного дома, или ближайшим магазином, то мы будем более внимательно относиться к тем местам, в которых живем.

На построенных картах мы увидели, как центры городов пустеют (причем даже тех из них, в которых никакие суровые карантинные меры не принимались).

Плотность фотографий с геопривязкой на улицах Москвы весной 2019 и 2020 гг. Фрагменты карт КБ «Стрелка»

Внезапно обнаружилось: когда вы сидите на карантине и никуда не можете поехать, свой жилой район оказывается не таким уж бессмысленным. В нем вполне можно находиться, даже делать фотографии своих свежих луков в обновках с AliExpress.

Люди на карантине стали исследовать свои собственные районы

В сущности, нам удалось пронаблюдать пробуждение интереса к собственным районам. К чему это нас приведет ― большой вопрос. Есть вероятность, что после того, как все карантинные меры будут сняты, все вернется на круги своя, и никакого следа пандемии в жизни наших городов не останется.

Вирус как агент децентрализации

Мне хочется верить, что по крайней мере некоторые обратят внимание на свои районы, начнут выступать с собственными инициативами. Посмотрим, практика покажет. Но интересно, что, как можно заметить по данным, карантин оказался средством, помогающим поддержать тренд на децентрализацию городов, который наметился и в России. В Москве мы наблюдаем это уже довольно давно, в других городах это происходит с меньшей интенсивностью. Но это заметный тренд: рост интереса к локальным точкам притяжения. 

Куда деваться, когда у вас закрыт центральный парк? Надо же где-то выгуливать детей, собак, себя в конце концов. Тут становится понятно, насколько ценны местные небольшие парки, которые не закрываются, зеленые насаждения, набережные рек, озер и прочих городских водоемов. Такие места становятся не просто точками притяжения, горожане хотят показывать их друг другу, рассказывать о них.

Куда деваться, когда закрыт центральный парк? 

Наше исследование проявило еще много всяких прекрасных мелочей. Например,  история с туристическими потоками, «разносящими заразу». С одной стороны, для некоторых городов подобный сценарий действительно работает (куда-то люди устремились достаточно активно в начале карантина), а с другой ― стало видно, насколько сильно замедлился обмен между городами внутри агломерации. Мы могли видеть, как карантин ударил не только по ежедневной маятниковой миграции, но и по рекреационной миграции из ближайших городов.

Ноготочки, ностальгия и гражданский активизм: локальные городские паблики

Локальные онлайн-сообщества — это бесценный источник информации. Но городские паблики бывают разные. Некоторые заточены просто на соседское взаимодействие. Они интересны, но, как правило, заполнены разнообразными рекламными сообщениями: «Девочки, записывайтесь на ноготочки», «Продаю комбинезон» и так далее. 

Есть паблики, которые нацелены на формирование локальной идентичности. Публикуется «фотография нашего местного кинотеатра в 1960-е годы» и начинаются комментарии: «а я тут встретил свою жену», «а я катался на роликах», «а вот здесь у меня отжали мобильник».

Локальные онлайн-сообщества — это бесценный источник информации

И есть паблики, которые скорее нацелены на формирование «сообщества активистов». Сформировавшаяся в таком сообществе группа становится актором  городской жизни, например, протестует против чего-нибудь. 

Это три совершенно разные формы. И те данные, которые мы можем из них получить, тоже разные. В пабликах третьего типа («сообщество активистов») мы увидим какие-то проблемы и болевые точки этой территории и этого сообщества. А в «ностальгических» пабликах второго типа мы увидим истории, связанные с локальной идентичностью, но про местные проблемы можем и не узнать.

Переход локальных сообществ в мессенджеры

Сейчас такая соседская деятельность из публичного пространства  социальных сетей переходит в мессенджеры. Это тоже можно изучать, но уже другими методами.  Вы не можете остаться «невключенным» наблюдателем, не можете просто прийти, взять какие-нибудь данные и уйти. 

Исследователь, которого интересуют такие локальные соседские группы, должен выступать с открытым забралом, хочет он этого или нет. Ему придется налаживать контакты в сообществе, налаживать взаимодействие. Исследователь должен объяснить, зачем он здесь, зачем это нужно и что это даст сообществу. Создать тот самый «взаимный дар» по Марселю Моссу. И это для антрополога абсолютно нормальная и естественная ситуация, если он работает хоть сколько-нибудь этично. Иначе нас не пустят дальше порога — и будут правы.

Исследователь, которого интересуют такие локальные соседские группы, должен выступать с открытым забралом

Человек, привыкший работать с данными, под это обычно не заточен, у него другие компетенции. Поэтому если вы занимаетесь городскими исследованиями и особенно соседской активностью, имеет смысл в команде иметь и data-аналитика, и антрополога, которые умеют делать разные вещи. Заходить в разные двери, работать с разными объемами данным, с разными типами данных, извлекать из них какие-то свои инсайты.

Краткий гид по цифровой антропологии

Цифровая антропология ― это некоторый общий зонтик, под которым собраны разные подходы к изучению «цифрового». Цифровыми антропологами называют себя люди, которые занимаются очень разными вещами. В самом общем виде ― это исследователи, изучающие практики, связанные с цифровым миром. Хотя и само по себе понятие «цифровой мир», по-хорошему, тоже следует проблематизировать. Что такое «цифровое» для нас сейчас? Примерно все. При этом цифровая антропология оперирует самыми разными подходами.

Подход № 1. Исключительно виртуальное

Самый яркий представитель исследовательского подхода, в котором ученый концентрируется только на виртуальном пространстве, ― это американский исследователь Том Белсторф. Он известен своими полевыми исследованиями игры Second Life. [Boellstorff Т. Coming of Age in Second Life: An Anthropologist Explores the Virtually Human. Princeton University Press, 2008.]

Мне всегда нравится показывать студентам скриншоты из этой игры с изображением аватара Тома и говорить: «Вот, видите? Это Белсторф в поле. Вот так тоже может выглядеть поле» (Поле ― полевое исследование у антропологов, обычно представляет собой выезд в исследуемую точку и погружение в изучаемую культуру, сообщество ― прим. редактора).

Фокус-группа Тома Белсторфа, проведенная в игре Second Life // Boellstorff Т. Coming of Age in Second Life: An Anthropologist Explores the Virtually Human, стр. 78

Ключевая позиция Белсторфа заключается в том, что существует онтологическое равенство между физическим миром и виртуальным. Он говорит примерно следующее: «Если мы серьезно подходим к теме нашего исследования, к цифровому миру, то должны понять: происходящее там вполне реально. Оно не менее реально, чем физическое, имеет последствия в том числе и для физического мира. Если вы проиграете деньги в онлайн-казино, у вас этих денег не будет, хотя вы вроде бы сделали это в виртуале, и это какое-то не совсем настоящее казино и какие-то не совсем настоящие деньги. Ничего подобного. Ушли со счета совершенно реальные доллары». 

И дальше Белсторф говорит следующее: «Раз так, меня совершенно не интересует, где физически находится тело человека ― в Германии, США, на Мальдивах, ― который управляет аватаром в виртуальном мире. Я изучаю виртуальную среду, Second Life». Иными словами, речь идет об автономии цифровых миров, а стало быть, их можно изучать без погружения в офлайн-контекст.

Подход № 2. Без границы между онлайном и офлайном

Совершенно иную позицию занимает Дэниел Миллер. «То, что мы делаем в виртуальном пространстве, очень сильно связано с тем, что с нами происходит офлайн, ― говорит он. ― Прежде всего, на наши действия влияют наши установки, ценности, воспитание, ― все то, что мы получили в офлайне».

Например, он приводит миллион вариантов, как люди пользуются в разных странах одним и тем же Facebook. Казалось бы, глобальный сервис, какая разница? У него одни и те же функции, и не важно, где вы находитесь ― в Индии, в Тринидаде, в Южной Африке. Пользуетесь вы одним и тем же. Но нет, ничего подобного.

Пользователи каждого региона, по сути, конструируют свой собственный Facebook на основе одной и той же глобальной платформы. У них всех есть свои культурные особенности, ценности и так далее. Например, индийские женщины не очень любят ставить на аватарку свою фотографию, потому что женщине это как-то не очень прилично делать. Поэтому ставят какую-нибудь хорошенькую картинку. Вряд ли они будут делиться личной информацией о семье и детях, зато будут очень часто постить какие-нибудь мотивирующие картинки с глубокомысленными надписями (например: «Давайте любоваться закатом. Каждый закат может стать последним в нашей жизни»). 

А тринидадцы, в культуре которых  вполне принята некоторая демонстративная саморепрезентация, активно показывают себя в Facebook. Постят свои фотографии ― выкладывают костюмы, машины, часы, чтобы показать, какие они богатые и прекрасные.

Пользователи каждого региона мира конструируют свой собственный Facebook

Что такое цифровой антрополог в такой парадигме? Цифровой антрополог ― это человек, который изучает то, как мы действуем в цифровых средах, но работает при этом в офлайне. Например, команда Дэниела Миллера в известнейшем проекте «Why We Post» провела месяцы в разных точках мира, взаимодействуя с людьми так же, как это бы делал хорошо выученный классический антрополог. Они разговаривали с людьми, изучали их практики пользования онлайн-пространствами, чтобы понять, почему в конкретных точках мира использование одних и тех же платформ происходит по-разному. И это тоже цифровая антропология.

Подход № 3. Гибридные среды

Цифровая антропология может изучать и гибридные среды. Известное исследование Бонни Нарди (она тоже изучала игровые пространства) обращает внимание на человеческое тело, хозяин которого погружен в онлайн-игру. Тело как таковое во время игры никуда не девается, но при этом находится в какой-то непривычной среде. 

Особенно интересно, когда игрок сидит не у себя дома, а, например, в каком-нибудь игровом компьютерном клубе, где возникает некоторая новая социальность. Мы попадаем одновременно в среды офлайн и онлайн, и взаимодействие между ними влияет на происходящее в обоих измерениях. Мы пошли сварить кофе, а в это время нашего аватара кто-то убил. Или наоборот, мы выпили кофе, страшно взбодрились и набрали полные карманы лута . Или наоборот, мы набрали лута полные карманы, и пошли помирились со своей девушкой, потому что настроение хорошее: что же не помириться?

Провести границу между происходящим в цифре и в физическом мире оказывается невозможно

Есть направления исследований, которые разрабатывают именно эту сферу ― взаимодействие между средами или вообще их слияние в некоторую гибридную среду. Провести границу между тем, что происходит в цифре, и тем, что происходит в физическом пространстве, оказывается уже просто невозможно. Существование этой границы и ее свойства — одна из самых проблемных точек цифровой антропологии, и за последние тридцать лет сломано уже немало копий вокруг нее.

Подход № 4. Цифровые следы

Иллюстратор: Анна Руденко

Есть еще один тип цифровых антропологов, которые пристально смотрят все на ту же границу, пролегающую между офлайном и онлайном, но немного другими способами. В частности, это одно их основных направлений моих исследований ― изучение цифровых следов. Этот подход предполагает, что мы изучаем, как наши онлайн-практики отражают то, что мы делаем в офлайне. Само понятие «цифрового следа» намекает на то, что мы видим некоторые отпечатки наших активностей из офлайн-мира.

Но слово «след» подсказывает, что к объектам, которые создаются в цифре благодаря нашим практикам, стоит относиться с осторожностью. Проведем аналогию: следы медведя ― это далеко не весь медведь. Можем ли мы описать медведя, зная его только по следам? Мы знаем маршруты этого медведя, мы можем себе представить примерный размер, расстояние между ногами медведя, может представить себе по глубине отпечатка вес этого медведя. Но нарисовать медведя, видя только его следы, мы не можем. Это провоцирует критику направления: мы работаем с «плоскими данными», и, анализируя эти данные, мы не видим всей глубины того, что происходит.

Следы медведя — это далеко не весь медведь

В рамках этого подхода мы вынуждены работать в двух направлениях сразу. С одной стороны, это по сути стандартный анализ данных: “берем цифровой след”, обычно это большой массив цифровых данных, и начинаем с ним что-то делать ― читать, упорядочивать, что-то считать и пытаться на базе этого сделать какие-то выводы. Но с другой стороны ― эта история не работает без антропологии, потому что мы должны понимать, каким образом эти следы производятся, какие практики на это влияют, как возникновение цифровых следов зависит от аффордансов конкретных платформ, и даже как мы сами как исследователи влияем на данные.

Я очень люблю приводить в пример иллюстрацию 2016 примерно года. На ней ― две карты Саратова, на которых рядом расположены геолоцированные фотографии из ВКонтакте и из Инстаграма.

Саратов в VK
Саратов в Инстаграме

На тот момент в Саратове проникновение Инстаграма как платформы было существенно ниже, чем ВКонтакте (впрочем, последний лидирует и сейчас). В результате мы видим, что цифровые следы, оставленные на разных платформах, оказываются принципиально различными. Причем не только по плотности: «Инстаграм-следов» не только меньше, но они еще и отражаются в других местах. Например, сосредоточены в центре, в каких-то туристических местах, в местах гламурной тусовки ― где классные рестораны, клубы и так далее. А какие-то районные активности оказываются незаметными.

Здесь мы видим, что Инстаграм сначала воспринимался как платформа, куда выкладывают не повседневные фотографии, а классные луки, на которых все очень круто отфильтровано.  Площадка для презентации лучшего образа себя. И только благодаря тому, что мы знаем, как устроено пользование теми или иными платформами (кто ими пользуется, когда, почему именно ими, в каких условиях, для передачи каких сообщений), мы можем сколько-нибудь правильно интерпретировать то, что видим на карте.

Чтобы построить портрет медведя, мы должны найти его в лесу

«Следы» не только не репрезентируют всеобщего поведения, но и не фиксируют всех действий той популяции, которая вовлечена в пользование конкретными платформами. В разное время каждый из нас пользуется одними и теми же вещами по-разному. Нужно учитывать, как это пользование меняется, какие внешние обстоятельства на это влияют. Поэтому цифровая антропология, связанная с изучением digital traces (цифровых следов), нацелена не просто на подсчеты и построение каких-то красивых карт и графиков. Важно еще понять, что за этим стоит, что мы можем сказать о городе по этим цифровым следам.

Возвращаясь к приведенной выше аналогии, чтобы построить портрет медвежьей жизни в целом, мы должны найти хотя бы нескольких медведей в лесу,  посмотреть на них, описать. И только тогда мы можем сказать: «Окей, вот такие звери передвигаются по этому конкретному лесу вот таким образом ―  и мы знаем, почему».

Принятие неполноты «цифровых следов»

Я видела прекрасную карикатуру, на которой показано отличие между данными и знаниями. Данные на ней ― несвязанные друг с другом точки, а связи, прочерченные между этими точками, иллюстрируют знания. А дальше есть то, что на этой карикатуре называется мудростью: между точками проложен кратчайший путь.

Чистым data science’ом этого достичь можно лишь отчасти: мы не обладаем всей полнотой данных. Эта проблема связана не только с цифровым миром: никакой социальный исследователь почти никогда не знает на 100 процентов всего того, что он изучает. Даже если вы приехали что-то изучать в крошечную деревню, в которой живет десять человек, у них всех есть огромная предыстория, и вы должны потратить просто всю жизнь, чтобы понять, почему Иван Иванович не разговаривает с Петром Семеновичем. Потому что корни этого конфликта лежат где-то задолго не то что до вашего приезда, а до вашего рождения.

Мы всегда получаем только некоторую долю знаний, до которых можем «дотянуться». Другое дело, что это за данные и знания. Есть целое направление data-антропологии, изучающее, как производятся данные. Его основной тезис заключается в том, что работа с чужими данными ― работа с черным ящиком. Потому что собираемые на тех или иных платформах данные не предназначены для наших целей. Мы пришли «на готовенькое» и должны мириться с тем, как все устроено. Выбор тех вещей, которые мы можем увидеть, определен интересами не исследования, а платформы, ее рекламодателей. Поэтому первый факт, с которым мы сталкиваемся: данные неполны просто по определению. Даже если мы выкачаем сто процентов всех текстов и фотографий из Инстаграма, Вконтакте или Facebook, они все равно не дадут нам всего,  что нам нужно для нашего исследования.

Данные неполны просто по определению

Еще хуже, что когда мы начинаем собирать какие-то данные, но не знаем, где в них «дыра». И с этой точки зрения владельцы (в широком смысле) той или иной платформы оказываются в привилегированной позиции, потому что только они точно понимают, что собрано в датасете. Для того, чтобы с этими данными дальше работать, крупные корпорации нанимают не только data-аналитиков, но и антропологов, чтоб понять, что делать дальше: «Мы данные получили, посчитали что-то, но теперь из них надо выжать какие-то бизнес-решения». А это уже не так тривиально, потому что связано с предпочтениями пользователей, которые эти данные производят.

Какие есть решения? Здесь можно сделать только два хода. Сказать: «Окей, я не получаю ста процентов данных, поэтому не пойду на компромисс и вообще ухожу из цифрового поля». Ход второй ― принять факт, что мы не получаем данные в полном объеме (в принципе, в науке это так и работает): «Окей, я не вижу всего многообразия, но понимаю, чем ограничен, и работаю таким образом, чтобы мои данные были внутренне консистентны».

Допустим, в какой-то момент я обращаюсь к данным из тех же соцсетей, сравниваю данные этого года с прошлогодними, полученными при помощи одного и того же программного обеспечения. Мое программное обеспечение (или любого лидера рынка) работает более или менее последовательно. Но и тут надо понимать, что за год могло многое измениться: программное обеспечение, сами практики, люди, проникновение социальной сети, например, она могла вообще умереть бесславно или страшно расцвести.

Например, исследования, которые проводились несколько лет назад на данных Flickr, сейчас просто невоспроизводимы, потому что сервис в какой-то момент стал частично платным, им, естественно, стали меньше пользоваться. Поэтому данные разных лет просто несопоставимы, так как производились в разных условиях. Дело не только в популярности платформы, но и в условиях ее работы, которые ограничивают пользователя в том, что он может там делать. Поэтому сейчас вспоминать об этих исследованиях можно только ради археологии науки.

В социальных медиа ограничения должны быть честно проговорены: сначала объяснить себе, потом тем, кто будет знакомиться с результатами исследования. Затем нужно понять, какие плюсы из этого можно извлечь.

Например, в социальных сетях есть сильное искажение социально-демографической структуры. Мы охватываем нерепрезентативное население по умолчанию, даже если считаем, что все аккаунты в социальных сетях ― это люди (что, разумеется, далеко не так): просто потому, что не все хотят или могут пользоваться соцмедиа. Кроме того, мы видим искажение в сторону более молодых возрастных групп, а пожилые люди оказываются недопредставленными. И это, конечно, ужасно со всех точек зрения ― исследователя (он не получает данных), демократических процессов (какая-то группа оказывается лишена права голоса, просто потому что так устроено это направление). Но тогда мы понимаем, что более пристально мы можем сосредоточиться на тех возрастных группах, которые пользуются конкретной платформой на 90%.

Конечно, практики и запросы этих пользователей будут меняться с годами. Например, со временем они могут поменять платформу. Именно поэтому цифровая антропология как раз и нужна: чтобы понимать, где вообще та аудитория, с которой мы хотим работать. Чем она пользуется? С какой интенсивностью?

Команда, методы и инструменты для цифрового антропологического исследования

В идеале каждую задачу должен делать профессионал. Поэтому в КБ Стрелка над проектом, кроме антропологов, обязательно работают GIS-аналитики. Все чаще добавляются data-аналитики, которые работают с большими данными, среди них все больше специалистов по машинному зрению. Это основной круг людей. 

Но когда-то исследования цифровых следов я начинала делать довольно кустарным способом: просто с помощью разведывательного  метода и сбора данных вручную. Когда вы работаете с объемом данных, который не превышает 10000 строк, ― это мелочь, с таким датасетом можно работать без каких-то сложных и дорогих инструментов. Не нужно data-снобизма. Кучу хороших и интересных вещей можно сделать буквально на коленке.

И на самом деле это вполне неплохой ход. Даже когда вы приходите на территорию действительно больших данных, которые невозможно охватить вручную и вы просто вынуждены “скармливать” их сложно построенной нейросети, стоит начать с небольших кусков, сэмплов, с которыми можно работать глазами и руками, чтобы хотя бы понимать, как они устроены и какие модели анализа стоит к ним применять.

Не нужно data-снобизма. Кучу интересных вещей можно сделать на коленке

Когда мы работаем в масштабах города, наверное, какая-то глубина анализа может быть и не нужна: наложили данные на карту, красиво визуализировали, и все — можно анализировать, а уровень ошибки, возникающей при автоматизированной обработке данных, считать незначительным. Но когда вам надо понять не как, а почему происходит тот или иной процесс, совершенно неизбежно приходится погружаться вглубь, понимать, что стоит буквально за каждой точкой на нашей карте. Здесь никакие сложно устроенные механизмы помочь не могут, только детальное качественное исследование.

Когда мы изменяем масштаб, мы должны подстраивать свою методологию. Например, в практике наших городских исследований очень часто бывают ситуации, в которых мы исследуем не город в целом, а улицу или парк. Это небольшие данные, иногда 10000 строк, иногда 500 строк за год. И вот тут цена ошибки возрастает. Та ошибка, которая казалась незначительной на фоне города, оказалась критической при небольшом объеме данных. В результате получается, что некоторые инструменты, дающие ответ без нашего участия, оказываются скорее вредны, чем полезны. Поэтому здесь работают методы, разработанные много лет назад ― статистические, контент-анализ, визуальный анализ.

На небольших данных цена ошибки возрастает

Визуальный анализ можно до какой-то степени автоматизировать, но тоже не совсем. Мы не так давно затеяли любопытное исследование о том, как люди оценивают вид из своего окна на основании цифровых следов. Взяли посты из соцсетей за некоторый период, в которых размещена какая-то фотография, и есть комментарии типа «классный вид из окна», «хороший вид из окна», «интересный вид из окна», и так далее. И выяснилась прекрасная вещь: модель классификации изображений, которая была создана зарубежными разработчиками, просто не распознает озелененных пространств в осенне-весенний период, потому что обучена на данных, в которых деревья ― это что-то с зелеными листьями, а голые ветки ― это нечто для нее совершенно непонятное. Еще она отказывалась классифицировать православные храмы как культовые здания: много металла (на куполах), белые стены ― значит, это индустриальный объект. Иными словами, для работы с данными нужна модель, обученная именно на локальных данных. 

Цифровой антрополог отличается от data scientist’а как раз таким вниманием к деталям. Его задача ― объяснять происходящее. Я заинтересована прежде всего в этом.

Интервью: Даниил Скоринкин, Ольга Ивлиева
Художник: Анна Руденко
Редактор: Даниил Скоринкин