«Системный Блокъ» уже рассказывал о том, как алгоритмы заменяют людей на рутинной журналистской работе. Теперь изучаем системы автоматизированной генерации новостей на примере освещения предвыборных кампаний
Автоматизированная журналистика применяется там, где есть большое количество данных в структурированных форматах или возможность их быстрого получения, а также большой интерес аудитории. Это прогнозы погоды, финансовые сводки, новости спорта и результаты выборов.
При освещении выборов алгоритмы позволяют сводить вместе множество данных и эффективно выявлять отклонения и нарушения на отдельных участках. Кроме того, эксперты могут воспользоваться полученной информацией для составления расширенных журналистских материалов.
Автоматизированная журналистика применяется в освещении избирательных кампаний в США, Великобритании, Финляндии и других странах. Для генерации текстов используются разные системы:
Эти методы могут комбинироваться в разных пропорциях в рамках одной рабочей системы.
Работу стандартного алгоритма в системах первых трех видов можно описать следующим образом:
Рассмотрим, как алгоритмы генерации новостей о выборах реализованы в разных странах.
Автоматические алгоритмы освещения новостей о выборах впервые применили в издании Washington Post во время президентской кампании 2016 года. Алгоритм Heliograf, который прежде использовался для освещения Олимпийских игр в Рио и других спортивных мероприятий, сумел рассказать о выборах во всех штатах, включая выборы в Палату представителей США и 12 губернаторских гонок, таким образом резко увеличив охват аудитории.
Издание поручило сотрудникам следить за некоторыми новостными материалами через VPN, чтобы имитировать загрузку историй из разных мест и проследить, как адаптируются статьи под локальную аудиторию[1].
К выборам президента и сенаторов 2020 года Washington Post открыл лабораторию компьютерной журналистики и запустил специальную систему LeadLocator. Она использует визуализацию и автоматически сгенерированный текст по результатам выборов в каждом из округов.
Любой желающий может посмотреть информацию о том, как проходит праймериз на выборах в США в его избирательном округе. Информация о выборной кампании обновляется ежедневно. [2]
ВВС использовало автоматизированную журналистику для освещения выборов в парламент в 2019 году. Компания создала проект, в котором соединила визуализацию данных с помощью карт и графиков с небольшими заметками, которые генерировались алгоритмом на основе шаблонов.
Сразу после появления результатов выборов с помощью автоматизации было написано 649 статей на английском и 40 на валлийском языках. «Системный Блокъ» писал об этом проекте в материале «Журналисты VS роботы: неравный бой».
На сайте можно отдельно смотреть результаты для Англии, Шотландии, Уэльса и Северной Ирландии, а также избирательных округов и сравнить их с результатами предыдущих выборов. Читатель выбирает регион на карте Великобритании и узнает, кто одержал победу в его округе.
Ниже представлена лента новостей о событиях на выборах в данном округе, среди которых есть автоматически сгенерированные тексты о результатах, материалы журналистов и лучшие посты из социальных сетей. После каждой заметки, написанной с использованием алгоритма, стоит сноска о том, что «история была создана при помощи автоматизации».
Пожалуй, самый масштабный проект по автоматическому освещению выборов был осуществлен в Финляндии. При участии сотрудников Хельсинского университета к муниципальным выборам 2017 года создали алгоритм Valtteri, который писал короткие новости на основе фактов и шаблонов.
В этом проекте компания Immersive Automation «использовала фразы-шаблоны, агрегацию фраз и генерацию ссылочных выражений, а также автоматическое планирование документов на основе обнаружения и ранжирования достоверности фактов, включаемых в историю» [4].
Исследователи разработали модель, которая определяла структуру текста, учитывая такие параметры, как важность новости и ее интерес для аудитории. Нейросеть собирала текст из готовых микрошаблонов, состоящих из отдельных фраз по 6-8 слов.
В 2019 году всемирная газетная ассоциация WAN-IFRA представила доклад о роботизированной журналистике, где были обозначены преимущества финского алгоритма: «возможность искать и находить новости по географическим параметрам, партии или интересующего кандидата; числовые данные в доступном широкой публике формате; прозрачный механизм работы сервиса».[5]
За два года работы Valtteri сгенерировал более двух миллионов новостных заметок. Отношение читателей к полученным материалам оказалось неоднозначным. Они их назвали менее достоверными, качественными и релевантными по сравнению со статьями, написанными журналистами. Возможно, это связано с использованием сразу трех языков (финского, шведского и английского) и огромного числа вариантов для генерации.
В России до настоящего времени не было ни одного проекта автоматизированной журналистики в области освещения выборов. Активисты создавали алгоритмы, которые позволяли анализировать результаты выборов, однако они касались лишь выкачивания, анализа и визуализации полученных данных. Результаты выборов (особенно всероссийских) в силу определенных причин не вызывает такого масштабного общественного интереса, как это происходит, например, в Европе.
Несмотря на это, автор этого текста занялся работой по проектированию алгоритма. В настоящее время есть парсер и простой генератор на основе шаблонов с элементами лингвистической модели с использованием библиотеки pymorphy2.
В ходе работы я столкнулся со стандартными сложностями, которые характерны для генерации текстов на русском языке — наличие большого числа форм того или иного слова, а также исключений из норм словообразования. Ограниченное число шаблонов не дает создавать вариативные тексты. Эти сложности могут быть решены при помощи большего числа шаблонов, а также использования машинного обучения.
Учитывая успех редакционных проектов в крупных медиакомпаниях, можно сказать, что в будущем роботизированная журналистика может выступать составной частью больших спецпроектов о выборах в СМИ. Подход, в котором сочетаются визуализация и автоматизированная журналистика, может быть применен и к другим темам, где важна оперативная информация по регионам или отдельным населенным пунктам.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…