Читать нас в Telegram

Автоматизированная журналистика применяется там, где есть большое количество данных в структурированных форматах или возможность их быстрого получения, а также большой интерес аудитории. Это прогнозы погоды, финансовые сводки, новости спорта и результаты выборов.

При освещении выборов алгоритмы позволяют сводить вместе множество данных и эффективно выявлять отклонения и нарушения на отдельных участках. Кроме того, эксперты могут воспользоваться полученной информацией для составления расширенных журналистских материалов.

Автоматизированная журналистика применяется в освещении избирательных кампаний в США, Великобритании, Финляндии и других странах. Для генерации текстов используются разные системы:

  • Простые (так называемые «жесткие») шаблоны;
  • Простая система генерации текстов или Natural language generation (NLG), в которой используются шаблоны и лингвистические алгоритмы (rule-based подход);
  • Cистема NLG с частичным использованием машинного обучения, с помощью которого определяется, что именно войдет в статью. Информационные агентства с большим архивом статей могут использовать свои материалы для обучения систем NLG.
  • Автоматизированные системы, полностью основанные на искусственном интеллекте, при котором влияние человека сведено к минимуму, но не исключено полностью.

Эти методы могут комбинироваться в разных пропорциях в рамках одной рабочей системы.

Как работает алгоритм?

Работу стандартного алгоритма в системах первых трех видов можно описать следующим образом:

  • Программа собирает данные из различных источников и при необходимости приводит их к машиночитаемому формату;
  • Данные анализируются, выявляются наиболее важные компоненты;
  • Создается текст на основе шаблона и (или) с использованием предобученных моделей машинного обучения;
  • При необходимости тексты проверяются редактором или контент-менеджером и после этого публикуются.

Рассмотрим, как алгоритмы генерации новостей о выборах реализованы в разных странах.

США

Автоматические алгоритмы освещения новостей о выборах впервые применили в издании Washington Post во время президентской кампании 2016 года. Алгоритм Heliograf, который прежде использовался для освещения Олимпийских игр в Рио и других спортивных мероприятий, сумел рассказать о выборах во всех штатах, включая выборы в Палату представителей США и 12 губернаторских гонок, таким образом резко увеличив охват аудитории.

Издание поручило сотрудникам следить за некоторыми новостными материалами через VPN, чтобы имитировать загрузку историй из разных мест и проследить, как адаптируются статьи под локальную аудиторию[1].

К выборам президента и сенаторов 2020 года Washington Post открыл лабораторию компьютерной журналистики и запустил специальную систему LeadLocator. Она использует визуализацию и автоматически сгенерированный текст по результатам выборов в каждом из округов.

Пример сгенерированной статьи на сайте Washington Post

Любой желающий может посмотреть информацию о том, как проходит праймериз на выборах в США в его избирательном округе. Информация о выборной кампании обновляется ежедневно. [2]

Великобритания

ВВС использовало автоматизированную журналистику для освещения выборов в парламент в 2019 году. Компания создала проект, в котором соединила визуализацию данных с помощью карт и графиков с небольшими заметками, которые генерировались алгоритмом на основе шаблонов.

Сразу после появления результатов выборов с помощью автоматизации было написано 649 статей на английском и 40 на валлийском языках. «Системный Блокъ» писал об этом проекте в материале «Журналисты VS роботы: неравный бой».

Интерактивная визуализация проекта BBC

На сайте можно отдельно смотреть результаты для Англии, Шотландии, Уэльса и Северной Ирландии, а также избирательных округов и сравнить их с результатами предыдущих выборов. Читатель выбирает регион на карте Великобритании и узнает, кто одержал победу в его округе.

Ниже представлена лента новостей о событиях на выборах в данном округе, среди которых есть автоматически сгенерированные тексты о результатах, материалы журналистов и лучшие посты из социальных сетей. После каждой заметки, написанной с использованием алгоритма, стоит сноска о том, что «история была создана при помощи автоматизации».

Финляндия

Пожалуй, самый масштабный проект по автоматическому освещению выборов был осуществлен в Финляндии. При участии сотрудников Хельсинского университета к муниципальным выборам 2017 года создали алгоритм Valtteri, который писал короткие новости на основе фактов и шаблонов.

В этом проекте компания Immersive Automation «использовала фразы-шаблоны, агрегацию фраз и генерацию ссылочных выражений, а также автоматическое планирование документов на основе обнаружения и ранжирования достоверности фактов, включаемых в историю» [4].

Исследователи разработали модель, которая определяла структуру текста, учитывая такие параметры, как важность новости и ее интерес для аудитории. Нейросеть собирала текст из готовых микрошаблонов, состоящих из отдельных фраз по 6-8 слов.

В 2019 году всемирная газетная ассоциация WAN-IFRA представила доклад о роботизированной журналистике, где были обозначены преимущества финского алгоритма: «возможность искать и находить новости по географическим параметрам, партии или интересующего кандидата; числовые данные в доступном широкой публике формате; прозрачный механизм работы сервиса».[5]

За два года работы Valtteri сгенерировал более двух миллионов новостных заметок. Отношение читателей к полученным материалам оказалось неоднозначным. Они их назвали менее достоверными, качественными и релевантными по сравнению со статьями, написанными журналистами. Возможно, это связано с использованием сразу трех языков (финского, шведского и английского) и огромного числа вариантов для генерации.

А что в России?

В России до настоящего времени не было ни одного проекта автоматизированной журналистики в области освещения выборов. Активисты создавали алгоритмы, которые позволяли анализировать результаты выборов, однако они касались лишь выкачивания, анализа и визуализации полученных данных. Результаты выборов (особенно всероссийских) в силу определенных причин не вызывает такого масштабного общественного интереса, как это происходит, например, в Европе.

Несмотря на это, автор этого текста занялся работой по проектированию алгоритма. В настоящее время есть парсер и простой генератор на основе шаблонов с элементами лингвистической модели с использованием библиотеки pymorphy2.

В ходе работы я столкнулся со стандартными сложностями, которые характерны для генерации текстов на русском языке — наличие большого числа форм того или иного слова, а также исключений из норм словообразования. Ограниченное число шаблонов не дает создавать вариативные тексты. Эти сложности могут быть решены при помощи большего числа шаблонов, а также использования машинного обучения.

Учитывая успех редакционных проектов в крупных медиакомпаниях, можно сказать, что в будущем роботизированная журналистика может выступать составной частью больших спецпроектов о выборах в СМИ. Подход, в котором сочетаются визуализация и автоматизированная журналистика, может быть применен и к другим темам, где важна оперативная информация по регионам или отдельным населенным пунктам.

Источники

  1. Diakopoulos Nicholas. Automating the News. How Algorithms Are Rewriting the Media. Harvard University Press, 2019.
  2. Live results: July 7 primaries | The Washington Post 
  3. Chris Fox. General Election 2019: How computers wrote BBC election result stories
  4. Leppänen Leo. Finding and Expressing News From Structured Data 
  5. News Automation – The rewards, risks and realities of ‘machine journalism’