Читать нас в Telegram
дата-журналист
Иллюстратор: Женя Родикова

Что за «дата»: от данных — к информации

Данные (data) — это просто сырые сведения, зафиксированные на каком-то носителе. Например, статистика потребления воды в квартирах Москвы в течение суток. Сырые данные мало что значат для человека.

Сырые данные мало что значат

Чтобы приобрести смысл, данные должны быть обработаны, обобщены и проинтерпретированы. Например, ежемесячная устойчивая корреляция потребления воды и просмотра вечерних телепрограмм по телевизору (если мы убедились, что она неслучайна), может дать нам какое-то новое знание. Особенно если мы посоветовались с экспертами. Обработанные данные, отвечающие на какой-то поставленный вопрос, — это уже информация.

Дата-журналист работает с «датой» (данными) как с исходным материалом. Задача журналиста — как раз преобразование данных в информацию, доступную всем людям.

Пример работы журналистов с данными:

Журналисты «Медиазоны» и «Медузы» получили доступ к закрытой статистике по коронавирусу от Информационного центра по коронавирусу (ИЦК). Файлы, которыми поделился анонимный сотрудник центра, содержали ежедневные данные по каждому из 85 российских регионов о госпитализациях, тяжелых больных, доступности свободных коек в больницах и смертях. После обработки данных оказалось, что смертность от коронавируса по базе ИЦК с апреля по ноябрь 2020-го превышала официальные публичные цифры в 2,5 раза:

Инфографика «Медузы»: отличие официальной и закрытой статистики смертности от коронавируса

Откуда берутся данные?

По происхождению данные можно разделить на два типа:

  • Первый тип — готовый датасет, то есть данные, которые достались журналисту уже в виде таблицы с числами и сразу пригодны для анализа.
  • Второй тип — данные, которые журналист собрал самостоятельно — автоматически, полуавтоматически или вручную. Например, обкачав много страниц какого-нибудь сайта, посчитав на них какие-нибудь упоминания, заполнив какую-то таблицу на основе наблюдений и опросов и т.п.

Теперь подробнее.

Готовые датасеты

Типичный готовый набор данных (датасет) — это табличка из строк и столбцов. Она может быть как в привычном многим формате XLS/XLSX, так и в более простом и универсальном CSV/TSV, но принципиальной разницы между ними нет. Любой современный табличный редактор — Excel, Google Sheets, Libre Office, Numbers — умеет работать и с тем, и с другим.

Чаще всего каждый столбец таблицы представляет собой определенную переменную (скажем, район города), а каждая строка соответствует определенной записи рассматриваемого набора данных (скажем, уровень потребления воды, уровень преступности и т.п.).

Еще популярен формат записи данных JSON — его тоже можно представить в виде таблицы, но исходно идея другая. Каждый объект (скажем, каждый район города) представлен в виде скобочного словаря, в котором записаны параметры и их значения. Примерно так: {«Название»: «Бутырский», «Округ»: «СВАО», «Потребление воды», «9000»} и т.д. А вот так выглядит фрагмент реального json-файла с данными об уличных камерах наблюдения в Москве:

Где искать готовые датасеты?

Поскольку «цифровизация» официально объявлена государственным приоритетом, многие госорганы стараются публиковать свои данные или предоставлять к ним доступ через API. Правда, качество и полезность таких данных бывают разными. Часто под видом «открытых данных» публикуют бессмысленные бюрократические документы в форматах doc или pdf.

Из тех, кто публикует данные давно и в приличном качестве, стоит отметить правительство Москвы. На data.mos.ru есть 1138 датасетов, доступных для скачивания в XLS, CSV или JSON. Среди них можно найти и информацию о камерах дворового и подъездного видеонаблюдения (со скриншотами с камер!), и статистику московских пенсий, и карты городского Wi Fi, и средние результаты ЕГЭ у московских школьников и даже информацию о пейнтбольных площадках в столице.

Реестр данных дворового видеонаблюдения

Есть интересные открытые данные и у Правительства РФ — «Системный Блокъ» уже однажды рассказывал об их использовании. Стоит заглянуть и на портал открытых данных Министерства культуры РФ. Например, здесь можно скачать данные обо всех объектах культурного наследия России — в этой таблице на 3 марта больше 146 строк. А еще здесь можно скачать данные Госкаталога РФ — это главный оцифровочный центр российских музеев.

Говоря о публикации государственных открытых данных, нельзя не вспомнить Росстат — главный орган по сбору статистики в стране. К сожалению, Росстат нельзя назвать передовиком открытости, а главное — качество сбора статистики Росстатом вызывает у многих экспертов большие вопросы. Однако кое-какие полезные данные вы на «витрине статистических данных» Росстата найдете.

За тем, как госведомства публикуют открытые данные, следит «Инфокультура» — некоммерческая организация, которая занимается развитием идеи открытого государства и поддерживает разные data-инициативы. Если вам интересна проблема открытости государственных данных, вам точно стоит следить за тем, что делает и пишет «Инфокультура».

Пример использования государственных данных журналистами

В 2019 году журналисты РБК решили выяснить, в каких регионах России больше пьют — и где чаще умирают от алкоголизма. На основе данных Минздрава и Росстата были построены три инфографики: потребление алкоголя, официально учтенные случаи алкоголизма и смертность от алкоголизма. Как видно на карте, эти три статистики коррелируют:

Еще один пример. «Системный Блокъ» использовал официальные данные ФСИН России, чтобы сравнить число осужденных за разные типы преступлений с 2005 года. Выяснилось, что единственная категория преступлений, по которой количество осужденных растёт — это преступления, «связанные с распространением наркотиков» (формулировка ФСИН). С 2005 года их стало больше в 2,5 раза.

В этот же период практически перестали сажать в тюрьму за хулиганство — падение почти 100%. Число осужденных за изнасилования, кражи, вымогательство, грабежи и разбой упало более чем вдвое.

На этом фоне рост наркопреступлений заставляет задуматься: действительно ли на общем фоне снижения преступности полиция стала ловить в 2,5 раза больше наркоторговцев? Или это просто след «палочной» системы МВД, когда за отчетный период необходимо раскрыть плановое количество преступлений. Ведь ловить наркозависимых полицейским обычно проще всего. Часто это делается в режиме «контрольной закупки», которая по сути представляет собой полицейскую провокацию: наркозависимому предлагают купить наркотик и затем задерживают при покупке.

Не только государство

Данные собирает не только государство. Есть и независимые общественные инициативы, которые помогают журналистам, аналитикам и исследователям получать нужные данные. Например сайт «Если быть точным» — платформа с данными по социальным проблемам России: преступность, ВИЧ, болезни, сиротство и др.

Сайт проекта «Если быть точным»

Вспомним и недавно открытый проект «Достоевский» от ОВД-Инфо, где собрана судебная статистика по уголовным делам. Источник статистики — государство в лице Судебного департамента при Верховном суде РФ. Однако эксперты ОВД-Инфо собрали данные с 2009 года в одном месте, очистили их, унифицировали и сделали легко доступными для обработки.

Кстати, это не первый датасет, которым ОВД-Инфо делится с обществом. Ранее «Системный Блокъ» уже использовал данные ОВД-Инфо для анализа информации о преследованиях митингующих с использованием статьи 20.2 Кодекса об административных правонарушениях. ОВД-Инфо собрали датасет по применению статьи 20.2 с 2004 года.

Если готового датасета нет

Довольно часто случается, что никакого готового набора данных в табличном виде по интересующей вас теме никто не выложил. Возможно, его вообще нет. Но есть способ его собрать. Например, российские суды и ФСИН не предоставляют данных о том, сколько сотрудников силовых структур были осуждены за последние годы за насилие. Но дата-отдел «Новой газеты» собрал все доступные онлайн-приговоры в сети и извлек оттуда нужные данные. Эти данные легли в основу материала о пытках людей в полиции, тюрьмах и армии.

Инфографика из расследования дата-отдела «Новой газеты»

Чаще всего для сбора данных в интернете пригождаются инструменты веб-скрейпинга (scraping). Это когда мы не ходим по тысячам страничкам сайта (или сайтов) сами, а автоматизируем этот процесс. В последние годы для этого появилось много готовых инструментов — обычно в виде расширения для браузера. Например:

Правда, эти инструменты помогают только в самых простых случаях. Далеко не всеми можно распарсить тысячестраничный сайт, например. Лучше освоить хотя бы чуточку программирования. Тогда вы сможете сами автоматизировать обкачивание сайт при помощи библиотек для работы с сетевыми запросами в Python, R или еще каком-нибудь языке программирования. Мы рассказывали о том, как парсить сайты, вот тут.

Правда, в сложных случаях — например, если сайт требует авторизации или его контент лежит не внутри— все равно придется использовать специальные дополнительные инструменты, способные логиниться и имитировать действия человека на сайте (в этой роли популярен Selenium).

Очень много технологий… Дата-журналистика — это для компьютерных гиков?

Есть одна самая главная вещь, которая роднит дата-журналистов со всеми остальными журналистами:

Это. Про. Людей.

Дата-журналисты работают с данными, многие (хотя и далеко не все) умеют программировать или владеют продвинутыми методами анализа/визуализации данных. Но их конечная цель — не технологии ради технологий. Дата-журналистика нужна, чтобы рассказать людям что-то важное про них самих. Или про других людей. Поэтому кроме умений обработки данных здесь все еще важны эмпатия, нюх на инфоповоды и умение рассказать важную историю. Как последний пример — работа журналистов беларусской «Медиазоны». Они изучили данные об избиениях и пытках участников протестов в Беларуси — и визуализировали данные прямо «на людях».

Кажется, это тот случай, когда принцип «не показывать на себе» соблюдать не стоит. Именно примерив травмы на себя, читатель испытывает эмпатию к тысячам пострадавших.