Журналисты VS роботы: неравный бой

Профессию журналиста начали хоронить еще в 2015 году. Тогда в Америке говорили, что компьютер получит Пулитцеровскую премию в течение пяти лет, а к 2030 году 90% журналистских материалов будут создавать роботы. [1]

Не спорим, алгоритмы размножаются и умнеют. Но сегодня специалисты говорят уже не об угрозах, а о возможностях, которые дает журналистам искусственный интеллект.

Нет, роботы не собираются захватывать журналистику. Да, машины скоро смогут выполнять большую часть рутинной журналистской работы.

из доклада «Новые возможности новая ответственность. Глобальный обзор журналистики и искусственного интеллекта» (декабрь 2019 г.). [2]

Изучаем свежие журналистские AI-проекты со всего мира и пытаемся понять, какие вызовы и возможности они несут второй древнейшей профессии.

Выборная гонка и скоростные роботы

Крупнейший на сегодняшний день AI-проект в журналистике реализовали в BBC. В ночь после последних всеобщих выборов в Великобритании (12 декабря 2019 г.) BBC News опубликовали около 700 новостей о результатах голосования (649 на английском и 40 на валлийском).

Это стало возможным благодаря компьютерной модели, обученной на шаблонах, созданных журналистами-людьми. Программа-журналист перерабатывала эти шаблоны и вставляла нужные данные. Так. жители 650 избирательных округов Соединенного Королевства смогли узнавать о результатах голосования на своей территории в режиме реального времени.

Однако машине доверились не полностью. Каждую новость перед публикацией проверял редактор-человек. Как рассказывал руководитель проекта, технология была разработана для улучшения предоставляемых услуг, а не для замены людей [3].

Еще одним недостатком электронного журналиста стало то, что он не может добавлять анализ к статьям, тексты также не содержали цитат. Поэтому в случаях, когда это было необходимо, вмешивались журналисты-люди.

Нейросети разглядывают гостей на королевской вечеринке

Британский канал Sky News впервые опробовал возможности AI в 2018 году во время скандальной свадьбы принца Гарри и Меган Маркл. С помощью технологии распознавания лиц они определяли, кто пришел на королевское торжество. Результатом стал проект «Кто есть кто» [7] на сайте телеканала.

*ИИ узнаёт гостей на свадьбе принца Гарри и Меган Маркл. Скрин страницы* *сайта Sky News*.

Компьютерному зрению пришлось справляться со множеством сложностей, отмечают представители Sky News, от последствий лицевой хирургии до идентичных близнецов или некачественных изображений.

Эти инструменты еще не идеальны, и они не все делают правильно. Если вы начнете полностью полагаться на них при создании контента, вы начнете делать ошибки, — пояснил менеджер продукта [8].

Проливая свет, или робо-журналистика по заказу пользователей

Новинка 2020 года — сервис, отслеживающий темы, которые вызывают интерес у читателей, но недостаточно освещены в СМИ. Его разработали в американской аналитической компании Parse.ly [4].

Сервис собирает данные об эффективности контента более чем 600 тысяч статей, публикуемых на 3000 сайтах, в день. Затем данные агрегируются и анонимизируются (конкретные URL-адреса новостей не публикуются).

Программа делит общее количество просмотров по теме на количество опубликованных статей. И если тема интересует многих пользователей, но материалов по ней недостаточно, можно считать это поводом для создания нового контента и возможностью для привлечения трафика.

Data-driven истории

С 2018 года в Великобритании работает автоматизированная редакция RADAR (Reporters And Data And Robots) [5]. В ней трудятся шесть журналистов, которые выпускают по 350 новостей о здравоохранении, преступности, образовании, недвижимости в день.

Как это работает? Один из журналистов-людей пишет шаблон новости для каждого из возможных сценариев — например, бум, скромный рост или резкое падение преступлений. Затем на основе открытых данных программа создает версии для каждой из 391 областей Великобритании на основе статистики этого региона.

Клиентами автоматизированной редакции стали сотни региональных изданий. С помощью этой технологии они стараются конкурировать с крупными информагентствами, делать больше контента при ограниченном штате и освобождать журналистов-людей для работы «в поле» [6].

ИИ на спортивных трибунах

Специалисты по анализу данных из IBM научили компьютер спортивному азарту. Летом 2019 года на Уимблдоне компания представила технологию искусственного интеллекта, которая отслеживает эмоции и характерные жесты спортсменов и зрителей во время матчей [9].

Обученная на тысячах теннисных матчей модель выделяет самые захватывающие моменты. Программа создавала яркие видео о 13-дневном соревновании с сотнями игр на 18-ти кортах в режиме реального времени.

Чтобы уловить спортивные эмоции, ИИ слушает все: от рева толпы до звука теннисных мячей на ракетках. С помощью системы распознавания изображений Watson он наблюдает за игроками и выделяет важные жесты: удары кулаком, подъемы рук, рукопожатия и другие движения, характеризующие состояние игроков.

В конце 2019 года компания IBM представила такую же технологию, но обученную уже на футбольных матчах [10]. Перед моделью машинного обучения поставили задачу: комментировать происходящее на поле. Система отслеживает игру в режиме реального времени и может определять пасы, удары по воротам. И добавляет комментарии, основанные на статистике. Искусственный комментатор получает необработанное видео в качестве входных данных и пытается предсказать правильный комментарий.

Он прокомментировал гол монотонной компьютерной речью, — делятся впечатлением участники презентации технологии. — Не было никакого преувеличенного и восторженного мексиканского стиля спорткастера: «ГОООООООЛ!!!»

AI-расследователь

Модель машинного обучения, созданная в Quartz AI Studio, помогла обработать 200 тысяч документов юридической фирмы на Маврикии. Архив, раскрывающий схемы ухода от налогов транснациональных компаний, слили журналистам летом 2019 года [11].

Модель, основанная на методе doc2vec, сильно ускорила процесс работы с архивом. Она идентифицировала похожие документы. Например, когда журналисты-люди находили пример особенно значимого бизнес-отчета или налоговой декларации, модель помогала отыскать в наборе другие подобные документы. Результатом работы 54 журналистов стал интернациональный проект Mauritius Leaks [12], а создатели модели поделились кодом на GitHub [13].

*Mauritius Leaks. Скрин страницы сайта www.icij.org*

Обуздать троллей

Токсичные и нецензурные комментарии отпугивают читателей, а еще могут стать юридической проблемой для редакции. И модерирование перепалок пользователей — больная тема для онлайн-изданий. А если в день публикуется несколько сотен текстов? Неужели держать целый штат модераторов?

С этой проблемой решили бороться в The New York Times, после того как в 2016 году им пришлось закрыть комментарии к 90% статей. Сотрудники редакции попросили помощи у искусственного интеллекта [14].

Помог бесплатный инструмент Perspective [15], разработанный Jigsaw и Google с помощью машинного обучения. Модератор-код находит ненормативную лексику, буллинг в комментариях и оценивает их токсичность. Модератор-человек использует эту информацию для сортировки записей и для обратной связи с комментаторами в режиме реального времени.

Лояльность под контролем

Дата-отдел South China Morning Post создал алгоритм для прогнозирования лояльности читателей и оптимизации маркетинговых кампаний за счет этих данных. Модель машинного обучения получила название Bluefin [16].

Лояльного читателя определили как мультисессионного пользователя, который вернулся на сайт с заранее заданной периодичностью. Чтобы предсказать такую лояльность, создали алгоритм, который собирает данные по более чем 40 переменным: например, процент просмотров страниц в каждом разделе, время на странице, продолжительность между двумя последними визитами, процент сессий на разных платформах. После код очищает данные и отбирает те переменные, которые несут важную информацию. После датасет передается предсказывающей модели. Причем модель применяли отдельно для читателей из США и Азии, учитывая специфику потребления контента. Данные скоринга добавляют в модель каждый месяц, так алгоритм обучается и на новых наборах и может включать любые новые переменные.

Авторы назвали алгоритм Bluefin («голубой тунец»), в надежде, что читатели будут возвращаться на их сайт, так же как тунец каждый год возвращается на родину. Источник

Кто будет платить?

В редакции швейцарской немецкоязычной газеты Neue Zürcher Zeitung используют искусственный интеллект, чтобы предсказать, кто из читателей и в какой момент готов оформить платную подписку [17]. Это означает, что количество статей, доступных бесплатно, варьируется от пользователя к пользователю, прежде чем им будет предложено оплатить контент.

Модель оценивает более чем 400 переменных, характеризующих поведение конкретного читателя. В их числе время с момента регистрации на сайте, время с последнего посещения, количество используемых устройств. Так алгоритм формирует «показатель склонности» пользователя к платной подписке. Если по итогам этих подсчетов читатель вошел в 20% рейтинга вероятности покупки, к нему применяют A/B-тестирование (метод маркетингового исследования — прим. ред.), на основе результатов которого формируется персонализированное предложение. Для всех остальных применяется стандартный набор правил.

Использование этого алгоритма повысило коэффициент конверсии на 82%, утверждают представители Neue Zürcher Zeitung.

Источники

Автор: Анастасия Уткина

Иллюстратор: Евгения Родикова

Теги:NLP, журналистика

Журналисты VS роботы: неравный бой

Выборная гонка и скоростные роботы

Нейросети разглядывают гостей на королевской вечеринке

Проливая свет, или робо-журналистика по заказу пользователей

Data-driven истории

ИИ на спортивных трибунах

AI-расследователь

Обуздать троллей

Лояльность под контролем

Кто будет платить?

Источники

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Журналисты VS роботы: неравный бой

Выборная гонка и скоростные роботы

Нейросети разглядывают гостей на королевской вечеринке

Проливая свет, или робо-журналистика по заказу пользователей

Data-driven истории

ИИ на спортивных трибунах

AI-расследователь

Обуздать троллей

Лояльность под контролем

Кто будет платить?

Источники

Читать по теме:

Что такое корпус текстов?

«Игуменья» или «пионер»: чем отличаются слова в дореволюционных и советских открытках

Corpus и Status: как технологии помогают сохранять миноритарные языки России

Брюхоногие моллюски, гастрит и редкие фамилии: как сделать языковой корпус репрезентативным

О проекте

Контакты

СОЦСЕТИ

Теги

Темы