Дата-журналистика: точка входа

дата-журналист
Иллюстратор: Женя Родикова

Что такое дата-журналистика?

Дата-журналистика — это направление журналистики, которое рассказывает истории на основе больших данных. Дата-журналисты анализируют и визуализируют массивы данных, чтобы выявить в них закономерности, обнаружить не видимые на первый взгляд проблемы, а потом представляют это в виде расследований, статей, мультимедийных проектов или инфографики.

Как работает дата-журналист?

Дата-журналистское исследование должно быть интересным для читателя. Создание истории на основе массива данных — это трудоёмкий процесс. Понимание того, из каких частей строится работа дата-журналиста, важно, ведь все этапы создания дата-истории тесно связаны между собой, будь то поиск и тщательная подготовка данных, проверка выдвинутых гипотез, визуализация, подготовка текста.

Выбор темы

Тема дата-журналистского исследования определяется интересом читателя. Она должна быть общественно значимой, ценной или полезной для аудитории. Наиболее простые пути узнать интересы целевой группы – изучить социологические опросы, обратить внимание на потенциально популярные, виральные или острые темы, провести анализ поисковых запросов. Перед тем как браться за дело, необходимо также задаться вопросом о том, что нового может привнести это исследование. 

Постановка гипотез

Когда тема сформулирована, важно выдвинуть несколько гипотез, которые вы будете проверять впоследствии. Гипотезы должны быть описаны формально и быть опровергаемой. 

Иногда направление работы подсказывают данные. Но что делать, когда данные только предстоит найти в соответствии с выбранной темой и гипотезами?

Сбор данных

В гигантском потоке данных легко потеряться, особенно начинающему дата-журналисту. Получить данные можно разными способами, например:

  • Скачать из открытых источников. Наиболее вероятно, что такие данные уже были исследованы неоднократно ранее, поэтому стоит удостовериться, что вы собираетесь показать на них что-то новое.
  • Собрать самостоятельно. Это можно сделать с помощью опроса или изучения документов.
  • Спарсить с нужных сайтов. Можно воспользоваться специальным программным обеспечением для парсинга, либо написать парсер самому.
  • Попросить у операторов данных. Некоторые компании положительно отвечают на запрос о предоставлении баз данных при подробном описании целей их использования.
  • Легально получить доступ к закрытым данным.

Главные критерии при выборе источников данных – это  достоверность и актуальность. Если данные собирали не вы, важно понимать, кем и как они получены. Вопросы о том, кто собрал данные, когда, где, при каких обстоятельствах и с какой целью, позволяют полноценно понять их специфику, дают возможность избежать неверных трактовок.

Иногда необходимо возобновлять отбор данных, так как ход работы показывает, что на основе имеющихся невозможно сделать выводы, что они нерепрезентативны.

Предобработка данных

После того, как данные найдены, можно переходить к их подготовке для дальнейшего изучения. Для этого в них нужно удалить ошибки, пропуски и дубли, отбросить лишнюю информацию. Также нужно привести данные к формату, удобному для интерпретации. 

Переработка большого объема информации занимает немало времени, но только так возможно получить “чистый” датасет и уверенно перейти к следующим этапам работы.

Анализ данных

После подготовительной части исследования наступает момент истины – проверка выдвинутых гипотез. Для этого дата-журналисту потребуется много анализировать, чтобы прийти к какому-либо значимому результату: структурировать и обобщать, искать закономерности, привносить новые идеи и избавляться от неработающих предположений. Зачастую развивать приходится не одну идею, а несколько, чтобы получить цельный и занимательный нарратив.

Полезно обращаться к работам других дата-жур, близким по темам: сравнивать, находить расхождения, ошибки, точки роста.

Визуализация данных

Когда на основе анализа данных удалось сделать значимые выводы,  можно приступать к выбору наиболее подходящих способов представления полученных результатов. Инструментами визуализации выступают графики, карты, схемы. Они помогают читателю увидеть, к чему вы пришли, и убедить его в достоверности ваших выводов.

Подготовка материала

Именно создание законченной журналистской истории является целью всех предшествующих этапов. Без текста, который объясняет суть изучаемой проблемы и собирает воедино жизненные ситуации, данные, визуализацию, ваши выводы, работа дата-журналиста не имеет смысла. Хорошо, когда в материале, кроме вашего исследования, есть комментарии экспертов и опыт героев, столкнувшихся с проблемой на практике.

Публикация исследования

Прежде, чем выйти в свет, дата-история проходит испытание фактчекингом и проверяется редактором. Только после этого получившееся журналистское исследование, опирающееся на данные, может быть опубликовано.

Какими инструментами пользуется дата-журналист?

Во время всей работы над материалом дата-журналисты используют разные инструменты. С их помощью журналисты собирают и чистят данные, обрабатывают их, чтобы получить выводы, готовят визуализации. В большинстве своем они бесплатные, или бесплатной версии программы достаточно для работы даже небольшой команды. Также дата-журналисты учатся программировать, так как с помощью кода некоторые задачи решаются быстрее.  

Сбор данных

Парсинг

Иногда данные нельзя скачать в виде таблицы или другого готового файла. При этом видно, что данные есть, например, каталог онлайн-магазина или пресс-релизы МЧС. Такие данные можно спарсить, написав код на Python. Некоторые сайты предоставляют API для более легкого доступа к данным.

Плагины для парсинга

Данные с простых сайтов можно собирать с помощью плагинов для браузера. Тогда вам не потребуется программирование. Например, можно использовать WebScraper.

Очистка и анализ данных

Excel / Google Sheets

Подходит для первичного анализа данных, можно убрать дубликаты, посмотреть число пропусков, а с помощью сводных таблиц сгруппировать данные по нужным категориям. Также можно построить первые графики. 

Минусы: не откроет большие файлы

OpenRefine

Инструмент для очистки данных, подойдет, когда есть много однотипных строк, например, адресов, и их нужно привести к одному виду.

AntConc

Приложение для текстового анализа, в котором можно создавать облака слов.

Gephi

Пригодится, если вы работаете с сетевыми данными, например, пользователями социальной сети. Можно визуализировать граф, выделить главные узлы – участников сети.

VSCode

Редактор кода. Даже если вы сами не пишите код, вполне возможно, что вам пришлют его коллеги и скажут “просто запустить”. В редакторе кода это будет сделать проще.

Визуализация данных

Datawrapper

Онлайн-инструмент для создания графиков и карт. Есть шаблоны для всех основных типов графиков, много можно кастомизировать с помощью подписей и верстки в них. Или же можно выгрузить график как SVG и довести его до идеала в редакторе. 

Готовые графики можно легко встроить на ваш сайт. 

Flourish

Еще один онлайн-инструмент. Как и в DW, есть шаблоны, здесь их даже больше. В отличие от Datawrapper упор идет на интерактивность, также доступно больше настроек внешнего вида. Визуализации в Flourish можно объединить в одну историю и встроить на сайт единым слайдшоу.

Минусы: не работает без VPN в России.

RAWgraphs

Конструктор визуализаций, подходит для создания черновых заготовок графиков.

Figma

Графический редактор, в котором можно довести до финального вида ваши визуализации, если вам не хватает функциональности готовых инструментов.

Также можно использовать другие редакторы: Photoshop, Adobe Illustrator, Krita, InkSpace и пр.

QGIS

Для работы с картами, на случай, если не получается сделать карту в Datawrapper.

NodeBox

Нодовый редактор, позволяет делать сложные визуализации и анимировать их.

Выпуск материала

Tilda

Конструктор сайтов, на котором вы можете создать страницу своего материала и с помощью блоков собрать на ней текст и графики.

Readymag

Еще один конструктор, с большими возможностями для создания анимаций, привязанных к скроллу.

Notion

Менеджер заметок, в котором можно создавать веб-страницы.

Минусы: не работает в России.

GitHub Pages

Если вы уже положили ваш код в гит-репозиторий, то там же можно сверстать ваш материал.

WordPress и другие CMS

Если вы планируете полноценную работу редакции и постоянный выпуск материалов, можно посмотреть в сторону различных CMS. Самой популярной остается WordPress, к ней можно найти множество шаблонов и плагинов, которые решают основные задачи при создании сайта (настройка аналитики, оптимизация контента и пр).

Нейросети в работе журналиста

Даже если вы не умеете кодить, а особенно если умеете, вашу работу могут облегчить нейросети. С их помощью легко разделить тексты по темам или собрать из них краткие содержания по нужному шаблону. Также можно вычленить текст на картинках или проводить более сложную работу с изображениями. 

Начать можно с промптов к ChatGPT или, если вы умеете программировать, посмотреть доступные модели.

Какие примеры дата-журналистских материалов стоит посмотреть, чтобы вдохновиться?

«Как российские регионы борются с ВИЧ и где ситуация хуже всего: рейтинг “Если быть точным”»

Авторы исследуют борьба с ВИЧ в России и составляют рейтинг наиболее и наименее благополучных регионов.

 «В погоне за “Оскаром”»

Проект РИА Новостей о фильмах, которые созданы с целью получить «Оскар» за самые престижные номинации фестиваля.

«От Слоновой до Мухинской: животные в названиях российских улиц»

Исследование на материале данных Яндекс.Карт об особенностях упоминаний животных в названиях российских улиц.

«Как месяц рождения влияет на успехи в спорте»

Материал Т—Ж об эффекте относительного возраста – феномене, при котором дети, рождённые в начале года, могут иметь преимущество в спорте по сравнению с одногодками, рождёнными позже позже.

Книги для дата-журналиста

Книги по дата-журналистике помогут начинающим исследователям освоить ключевые принципы работы с данными, методы их визуализации и эффективные подходы к рассказу историй.

Где учат

Представляем подборку образовательных программ в российских вузах, где можно обучаться дата-журналистике.

Бакалаврские программы

Подборка каналов о данных и их визуализации

  • @rationalnumbers — Рациональные числа
    Световое загрязнение и неравенство в мире, самые популярные топонимы и статистика по ДТП в России, обнуления политических лидеров, частота использования букв алфавита в русском языке — в канале можно найти исследования и примеры интересных визуализаций данных. Материалы сгруппированы тематически, охватывают все сферы жизни на Земле и даже выходят на орбиту.
  • @designing_numbers — Designing Numbers
    Канал ведет Надя Андрианова — победительница Всероссийской премии по визуализации данных и дата-арту Moscow Datavis Awards и призерка международных премий Malofiej и Information is Beautiful Awards. В своем канале она не только любуется оригинальными решениями, но и рассказывает о том, как устроен дата-арт. Тут много референсов для тех, кто работает с данными, и вдохновения — для тех, кто создает цифровое искусство.
  • @nastengraph — Настенька и графики
    Настя настолько любит инфографику, что замечает барчарты даже в рядом стоящих скалах. Здесь вы найдете советы по BI-разработке, дашборды, интересные графики и лайфхаки визуализации данных. Профессионалы могут следить за новостями из мира датавиза, новички — вдохновляться и осваивать современные инструменты.
  • @chartomojka — Чартомойка
    Как и следует из названия, здесь происходит что-то вроде «бизнес-линча» над визуализациям Автор разбирает конкретные кейсы визуализации данных, анализирует ошибки и сильные стороны, даёт конкретные советы не только по матчасти, но и организации рабочего времени аналитика. Если вы только начали свой путь в датавизе и дата-сторителлинге, можно использовать канал как учебное пособие. Канал ведет автор книги «Графики, которые убеждают всех».
  • @data_csv — data.csv
    Канал о журналистике данных и дата-сторителлинге, который ведут аналитик Алексей Смагин и редактор дата-отдела независимого медиа Алеся Мароховская. Здесь можно найти интересные и впечатляющие дата-журналистские работы, красивую визуализацию данных и критические разборы действительно ужасных графиков. Выбор тем, как и предполагает жанр канала, авторский, а вкусу авторов блога можно доверять.
  • @data_publication — Дата-сторителлинг
    Эксперт по анализу и визуализации данных Андрей Дорожный рассказывает в канале о том, как работает дата-сторителлинг даже там, где вообще нет графиков. Увлекательно разбирает удачные нарративы, показывает, как устроена манипуляция данными (например, как англичане занижали рост Наполеона в газетах), рассказывает об инструментах работы с данными, которые можно применять без программирования.
  • @tochno_st — Если быть точным
    Команда собирает данные о социальных проблемах в России и делится своими исследованиями и датасетами. Миграционный кризис, статистика по абортам, данные по онкологии, исследования преступности и экологических проблем — «Если быть точным» показывает, как много об общественных процессах могут рассказать данные, и даёт пример их профессиональной обработки и визуализации.
  • @awfulcharts — Отвратительные графики
    Индекс Деда Мороза, продажи автобусов по регионам, обращение детей с деньгами — на слух трудно понять, что объединяет эти визуализации данных, но одного взгляда на них достаточно, чтобы убедиться: все они отвратительныеЭтот канал — сборник вредных советов для тех, кто начинает работать с визуализацией, и умора для профессионалов.
  • @sysblok — Системный Блокъ
    Анализ и визуализация данных в культурных и общественных сюжетах. О чём писали в дневниках 1917 года? На какие «запрещенные» произведения вырос спрос последние годы? Сколько камер приходится на квадратный километр в Москве? Как выросло потребление алкоголя за последние 5 лет? «Системный Блокъ» станет вашим Вергилием в 9 кругах Big Data.

Авторы: Дарья Половникова, Полина Налобина, София Лекомцева, Ксения Тихомирова

Редактор: Дарья Устюжанина

Статьи по теме