Автоматизированная журналистика применяется там, где есть большое количество данных в структурированных форматах или возможность их быстрого получения, а также большой интерес аудитории. Это прогнозы погоды, финансовые сводки, новости спорта и результаты выборов.
При освещении выборов алгоритмы позволяют сводить вместе множество данных и эффективно выявлять отклонения и нарушения на отдельных участках. Кроме того, эксперты могут воспользоваться полученной информацией для составления расширенных журналистских материалов.
Автоматизированная журналистика применяется в освещении избирательных кампаний в США, Великобритании, Финляндии и других странах. Для генерации текстов используются разные системы:
- Простые (так называемые «жесткие») шаблоны;
- Простая система генерации текстов или Natural language generation (NLG), в которой используются шаблоны и лингвистические алгоритмы (rule-based подход);
- Cистема NLG с частичным использованием машинного обучения, с помощью которого определяется, что именно войдет в статью. Информационные агентства с большим архивом статей могут использовать свои материалы для обучения систем NLG.
- Автоматизированные системы, полностью основанные на искусственном интеллекте, при котором влияние человека сведено к минимуму, но не исключено полностью.
Эти методы могут комбинироваться в разных пропорциях в рамках одной рабочей системы.
Как работает алгоритм?
Работу стандартного алгоритма в системах первых трех видов можно описать следующим образом:
- Программа собирает данные из различных источников и при необходимости приводит их к машиночитаемому формату;
- Данные анализируются, выявляются наиболее важные компоненты;
- Создается текст на основе шаблона и (или) с использованием предобученных моделей машинного обучения;
- При необходимости тексты проверяются редактором или контент-менеджером и после этого публикуются.
Рассмотрим, как алгоритмы генерации новостей о выборах реализованы в разных странах.
США
Автоматические алгоритмы освещения новостей о выборах впервые применили в издании Washington Post во время президентской кампании 2016 года. Алгоритм Heliograf, который прежде использовался для освещения Олимпийских игр в Рио и других спортивных мероприятий, сумел рассказать о выборах во всех штатах, включая выборы в Палату представителей США и 12 губернаторских гонок, таким образом резко увеличив охват аудитории.
Издание поручило сотрудникам следить за некоторыми новостными материалами через VPN, чтобы имитировать загрузку историй из разных мест и проследить, как адаптируются статьи под локальную аудиторию[1].
К выборам президента и сенаторов 2020 года Washington Post открыл лабораторию компьютерной журналистики и запустил специальную систему LeadLocator. Она использует визуализацию и автоматически сгенерированный текст по результатам выборов в каждом из округов.
Любой желающий может посмотреть информацию о том, как проходит праймериз на выборах в США в его избирательном округе. Информация о выборной кампании обновляется ежедневно. [2]
Великобритания
ВВС использовало автоматизированную журналистику для освещения выборов в парламент в 2019 году. Компания создала проект, в котором соединила визуализацию данных с помощью карт и графиков с небольшими заметками, которые генерировались алгоритмом на основе шаблонов.
Сразу после появления результатов выборов с помощью автоматизации было написано 649 статей на английском и 40 на валлийском языках. «Системный Блокъ» писал об этом проекте в материале «Журналисты VS роботы: неравный бой».
На сайте можно отдельно смотреть результаты для Англии, Шотландии, Уэльса и Северной Ирландии, а также избирательных округов и сравнить их с результатами предыдущих выборов. Читатель выбирает регион на карте Великобритании и узнает, кто одержал победу в его округе.
Ниже представлена лента новостей о событиях на выборах в данном округе, среди которых есть автоматически сгенерированные тексты о результатах, материалы журналистов и лучшие посты из социальных сетей. После каждой заметки, написанной с использованием алгоритма, стоит сноска о том, что «история была создана при помощи автоматизации».
Финляндия
Пожалуй, самый масштабный проект по автоматическому освещению выборов был осуществлен в Финляндии. При участии сотрудников Хельсинского университета к муниципальным выборам 2017 года создали алгоритм Valtteri, который писал короткие новости на основе фактов и шаблонов.
В этом проекте компания Immersive Automation «использовала фразы-шаблоны, агрегацию фраз и генерацию ссылочных выражений, а также автоматическое планирование документов на основе обнаружения и ранжирования достоверности фактов, включаемых в историю» [4].
Исследователи разработали модель, которая определяла структуру текста, учитывая такие параметры, как важность новости и ее интерес для аудитории. Нейросеть собирала текст из готовых микрошаблонов, состоящих из отдельных фраз по 6-8 слов.
В 2019 году всемирная газетная ассоциация WAN-IFRA представила доклад о роботизированной журналистике, где были обозначены преимущества финского алгоритма: «возможность искать и находить новости по географическим параметрам, партии или интересующего кандидата; числовые данные в доступном широкой публике формате; прозрачный механизм работы сервиса».[5]
За два года работы Valtteri сгенерировал более двух миллионов новостных заметок. Отношение читателей к полученным материалам оказалось неоднозначным. Они их назвали менее достоверными, качественными и релевантными по сравнению со статьями, написанными журналистами. Возможно, это связано с использованием сразу трех языков (финского, шведского и английского) и огромного числа вариантов для генерации.
А что в России?
В России до настоящего времени не было ни одного проекта автоматизированной журналистики в области освещения выборов. Активисты создавали алгоритмы, которые позволяли анализировать результаты выборов, однако они касались лишь выкачивания, анализа и визуализации полученных данных. Результаты выборов (особенно всероссийских) в силу определенных причин не вызывает такого масштабного общественного интереса, как это происходит, например, в Европе.
Несмотря на это, автор этого текста занялся работой по проектированию алгоритма. В настоящее время есть парсер и простой генератор на основе шаблонов с элементами лингвистической модели с использованием библиотеки pymorphy2.
В ходе работы я столкнулся со стандартными сложностями, которые характерны для генерации текстов на русском языке — наличие большого числа форм того или иного слова, а также исключений из норм словообразования. Ограниченное число шаблонов не дает создавать вариативные тексты. Эти сложности могут быть решены при помощи большего числа шаблонов, а также использования машинного обучения.
Учитывая успех редакционных проектов в крупных медиакомпаниях, можно сказать, что в будущем роботизированная журналистика может выступать составной частью больших спецпроектов о выборах в СМИ. Подход, в котором сочетаются визуализация и автоматизированная журналистика, может быть применен и к другим темам, где важна оперативная информация по регионам или отдельным населенным пунктам.
Источники
- Diakopoulos Nicholas. Automating the News. How Algorithms Are Rewriting the Media. Harvard University Press, 2019.
- Live results: July 7 primaries | The Washington Post
- Chris Fox. General Election 2019: How computers wrote BBC election result stories
- Leppänen Leo. Finding and Expressing News From Structured Data
- News Automation – The rewards, risks and realities of ‘machine journalism’