ИИ для переводчиков кино: эксперимент с ChatGPT

Впрочем, далеко не во всех сферах AI является незаменимым помощником. Переводчик Анна Баранова провела три эксперимента с помощью ChatGPT-4.1 nano, чтобы узнать, как нейросеть справится (и справится ли?) с различными задачами по переводу кино.

Оглавление

Задачи

Задача 1. Расстановка тайм-кодов

Описание задачи

Добавить тайм-коды для видеоролика, чтобы выделить фрагменты с речью персонажей для дальнейшего перевода.

Промпт 1

Расставь тайм-коды по видео [ссылка на видео]

Выдача нейросети

Комментарий

Хотя сервис сообщал, что можно прикреплять ссылки, в тот момент они не поддерживались.

Промпт 2

Расставь тайм-коды каждой реплики по видео [ссылка на видео]

Выдача нейросети

Комментарий

Я добавила ссылку на видео в промпт. Но и в этот раз ничего не вышло.

Промпт 3

Я решила прикрепить видео из галереи телефона

Выбрала ролик длиной 40 секунд. Но и тут возникло ограничение.

Выдача нейросети

Комментарий

Видеофайл с двухчасовым фильмом обычно весит около 7 Гб. Представив, сколько времени придется потратить, чтобы нарезать его на маленькие фрагменты по 20 Мб, я поняла, что гораздо быстрее и проще будет проставить тайм-коды самостоятельно.

Далее ChatGPT написал мне вот такое сообщение:

Мы с ChatGPT разошлись в терминологии. Дело в том, что в кинопереводе у термина «тайм-коды» немного другое значение. Это время начала реплики, которую произносит персонаж. И переводчику необходимо указывать тайм-коды практически к каждой реплике.

Вот так, например, выглядят тайм-коды при переводе фильма под озвучивание:

Пример оформления тайм-кодов. В крайней левой колонке имя персонажа, далее — тайм-код и реплика. Все это заносится в обычную таблицу Word.

А так выглядят тайм-коды при переводе под субтитры:

Номер субтитра, тайм-коды начала и окончания, CPS и стиль (это нюансы, в которые можно не углубляться) и сам текст субтитра. Скрин из субтитровочной программы AegiSub 

Таком образом, с заданием расстановки тайм-кодов ChatGPT не справилась.

Задача 2. Сокращение текста субтитров

Описание задачи

Сделать субтитры лаконичными и емкими.

Промпт

Перефразируй текст, чтобы количество знаков в каждой строке не превышало 29.
Вы вместе выбираетесь из огня и видите, что вы в безопасности.
Всё, эксперимент завершён, можете открывать глаза.
В этот магазин я ходила каждую неделю, и всегда всё было нормально.
Я представляла им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подруг.

Выдача нейросети

Комментарий

ChatGPT не смог сократить реплики до 29 символов. В таблице указано, сколько символов в исходных репликах и сколько — в выдачи нейросети.

РепликаБылоСтало
16249
25037
36748
47068

Кроме того, нейросеть неудачно перефразировала сами реплики.

РепликаБылоСтало
1Вы вместе выбираетесь из огня и видите, что вы в безопасности.Вы выходите из огня и видите, что в безопасности.
2Всё, эксперимент завершен, можете открывать глаза.Все окончено, можете открывать глаза.
3В этот магазин я ходила каждую неделю, и всегда всё было нормально.Я ходила сюда каждую неделю, все было нормально.
4Я представила им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подругЯ подумала о Март, Луизе, Сюзанне и Габриэле — лучших подругах моих.

В субтитрах существует ограничение по количеству знаков в строке. Предложения должны быть максимально короткими и емкими, иначе зрители не успеют их прочитать. Универсального ограничения нет: допустимое количество знаков в разных компаниях разное. Но, как правило, это диапазон от 29 до 39 символов.

Особенность перевода кино заключается в том, что тут необходимо переводить не слова, а сцены. Так, например, слово here может означать и «здесь», и «мы пришли», и «бери» в зависимости от того, что происходит на экране.

Это важный фактор, который нужно учитывать. Но нейросеть его не учтет, потому что она видит только текст реплик и не сможет сопоставить их с видео- и аудиорядом.

Рассмотрим тексты реплик. В первой реплике — «Вы вместе выбираетесь из огня и видите, что вы в безопасности» — ChatGPT поменял «вы вместе выбираетесь из огня» на «вы выходите из огня», хотя в этот момент на экране две девушки, взявшись за руки, прыгают из окна полыхающего дома в наполненный водой бассейн. Глагол «выходить» тут не подходит. Кроме того, важно, что девушки спасались от пожара вместе (что в дальнейшем повлияет на сюжет), поэтому убирать это слово из реплики тоже не стоит.

Похожая ситуация и во втором предложении «Всё, эксперимент завершен, можете открывать глаза»: фразу «эксперимент завершен» менять нельзя, поскольку по сюжету ее произносит робот, причем неоднократно.

Третью реплику — «В этот магазин я ходила каждую неделю, и всегда всё было нормально» — произносит пенсионерка, сидя на допросе в полицейском участке. Если поменять фразу «ходила в этот магазин» на «ходила сюда», получится, что женщина каждую неделю ходила в полицию.

Реплика — «Я представила им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подруг» — лидер из всех четырех по количеству странных и неверных исправлений. В оригинале героиня знакомит подруг со своими коллегами (глагол «представить» использован в значении «представить кого-то кому-то»). Однако ChatGPT выбрал другое значение — «представить что-то» и в итоге заменил глагол на «подумать». Получилось, что героиня думает о подругах, что неверно. Кроме того, Марта превратилась в Март, а из-за изменения порядка слов в конце предложения появилась непонятная и ненужная здесь поэтичность.

Результат второго задания с сокращением реплик также не оказался удачным.

Задача 3. Удаление лишних символов

Описание задачи

Удалить лишние символы в репликах, которые экспортируются из программы субтитров.

Промпт

Отредактируй субтитры, чтобы остался только русский текст [текст субтитров с лишней информацией]
Dialogue:0,0:26:17.79,0:26:20.33,Default,,0,0,0,Представьте себя там, где вы любите бывать. В любом месте

Выдача нейросети

Комментарий

Субтитры обычно переводят в специальной программе, где указан номер субтитра, тайм-коды и т. д. Она достаточно удобная, за исключением одного момента. При копировании субтитра автоматически скопируются и все его данные.

В итоге субтитр выглядит так:

Dialogue: 0,0:26:17.79,0:26:20.33, Default, 0,0,0,Представьте себя там, где вы любите бывать. В любом месте

Я скопировала из программы два субтитра и попросила ChatGPT убрать все лишние символы. С этим заданием ChatGPT справилась.

Общий вывод от Анны Барановой

Эти кейсы показали, что в задачах, которые касаются смысловой составляющей киноперевода, AI практически бессилен. Очевидно, что он не может сопоставить текст с видеорядом, понять контекст реплики или заметить сюжетные отсылки.

Что касается технической составляющей, то здесь все зависит от конкретной задачи. Если с расстановкой тайм-кодов реплик нейросеть пока не справляется, то лишние символы из субтитров она удаляет довольно успешно.

Автор промптов и текста: Анна Баранова