ИИ для переводчиков кино: эксперимент с ChatGPT

Впрочем, далеко не во всех сферах AI является незаменимым помощником. Переводчик Анна Баранова провела три эксперимента с помощью ChatGPT-4.1 nano, чтобы узнать, как нейросеть справится (и справится ли?) с различными задачами по переводу кино.
Оглавление
Задачи
Задача 1. Расстановка тайм-кодов
Описание задачи
Добавить тайм-коды для видеоролика, чтобы выделить фрагменты с речью персонажей для дальнейшего перевода.
Промпт 1
Расставь тайм-коды по видео [ссылка на видео]
Выдача нейросети
Комментарий
Хотя сервис сообщал, что можно прикреплять ссылки, в тот момент они не поддерживались.
Промпт 2
Расставь тайм-коды каждой реплики по видео [ссылка на видео]
Выдача нейросети

Комментарий
Я добавила ссылку на видео в промпт. Но и в этот раз ничего не вышло.
Промпт 3
Я решила прикрепить видео из галереи телефона
Выбрала ролик длиной 40 секунд. Но и тут возникло ограничение.
Выдача нейросети
Комментарий
Видеофайл с двухчасовым фильмом обычно весит около 7 Гб. Представив, сколько времени придется потратить, чтобы нарезать его на маленькие фрагменты по 20 Мб, я поняла, что гораздо быстрее и проще будет проставить тайм-коды самостоятельно.
Далее ChatGPT написал мне вот такое сообщение:

Мы с ChatGPT разошлись в терминологии. Дело в том, что в кинопереводе у термина «тайм-коды» немного другое значение. Это время начала реплики, которую произносит персонаж. И переводчику необходимо указывать тайм-коды практически к каждой реплике.
Вот так, например, выглядят тайм-коды при переводе фильма под озвучивание:

А так выглядят тайм-коды при переводе под субтитры:

Таком образом, с заданием расстановки тайм-кодов ChatGPT не справилась.
Задача 2. Сокращение текста субтитров
Описание задачи
Сделать субтитры лаконичными и емкими.
Промпт
Перефразируй текст, чтобы количество знаков в каждой строке не превышало 29.
Вы вместе выбираетесь из огня и видите, что вы в безопасности.
Всё, эксперимент завершён, можете открывать глаза.
В этот магазин я ходила каждую неделю, и всегда всё было нормально.
Я представляла им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подруг.
Выдача нейросети

Комментарий
ChatGPT не смог сократить реплики до 29 символов. В таблице указано, сколько символов в исходных репликах и сколько — в выдачи нейросети.
Реплика | Было | Стало |
1 | 62 | 49 |
2 | 50 | 37 |
3 | 67 | 48 |
4 | 70 | 68 |
Кроме того, нейросеть неудачно перефразировала сами реплики.
Реплика | Было | Стало |
1 | Вы вместе выбираетесь из огня и видите, что вы в безопасности. | Вы выходите из огня и видите, что в безопасности. |
2 | Всё, эксперимент завершен, можете открывать глаза. | Все окончено, можете открывать глаза. |
3 | В этот магазин я ходила каждую неделю, и всегда всё было нормально. | Я ходила сюда каждую неделю, все было нормально. |
4 | Я представила им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подруг | Я подумала о Март, Луизе, Сюзанне и Габриэле — лучших подругах моих. |
В субтитрах существует ограничение по количеству знаков в строке. Предложения должны быть максимально короткими и емкими, иначе зрители не успеют их прочитать. Универсального ограничения нет: допустимое количество знаков в разных компаниях разное. Но, как правило, это диапазон от 29 до 39 символов.
Особенность перевода кино заключается в том, что тут необходимо переводить не слова, а сцены. Так, например, слово here может означать и «здесь», и «мы пришли», и «бери» в зависимости от того, что происходит на экране.
Это важный фактор, который нужно учитывать. Но нейросеть его не учтет, потому что она видит только текст реплик и не сможет сопоставить их с видео- и аудиорядом.
Рассмотрим тексты реплик. В первой реплике — «Вы вместе выбираетесь из огня и видите, что вы в безопасности» — ChatGPT поменял «вы вместе выбираетесь из огня» на «вы выходите из огня», хотя в этот момент на экране две девушки, взявшись за руки, прыгают из окна полыхающего дома в наполненный водой бассейн. Глагол «выходить» тут не подходит. Кроме того, важно, что девушки спасались от пожара вместе (что в дальнейшем повлияет на сюжет), поэтому убирать это слово из реплики тоже не стоит.
Похожая ситуация и во втором предложении «Всё, эксперимент завершен, можете открывать глаза»: фразу «эксперимент завершен» менять нельзя, поскольку по сюжету ее произносит робот, причем неоднократно.
Третью реплику — «В этот магазин я ходила каждую неделю, и всегда всё было нормально» — произносит пенсионерка, сидя на допросе в полицейском участке. Если поменять фразу «ходила в этот магазин» на «ходила сюда», получится, что женщина каждую неделю ходила в полицию.
Реплика — «Я представила им Марту, Луизу, Сюзанну и Габриэлу — моих лучших подруг» — лидер из всех четырех по количеству странных и неверных исправлений. В оригинале героиня знакомит подруг со своими коллегами (глагол «представить» использован в значении «представить кого-то кому-то»). Однако ChatGPT выбрал другое значение — «представить что-то» и в итоге заменил глагол на «подумать». Получилось, что героиня думает о подругах, что неверно. Кроме того, Марта превратилась в Март, а из-за изменения порядка слов в конце предложения появилась непонятная и ненужная здесь поэтичность.
Результат второго задания с сокращением реплик также не оказался удачным.
Задача 3. Удаление лишних символов
Описание задачи
Удалить лишние символы в репликах, которые экспортируются из программы субтитров.
Промпт
Отредактируй субтитры, чтобы остался только русский текст [текст субтитров с лишней информацией]
Dialogue:0,0:26:17.79,0:26:20.33,Default,,0,0,0,Представьте себя там, где вы любите бывать. В любом месте
Выдача нейросети

Комментарий
Субтитры обычно переводят в специальной программе, где указан номер субтитра, тайм-коды и т. д. Она достаточно удобная, за исключением одного момента. При копировании субтитра автоматически скопируются и все его данные.
В итоге субтитр выглядит так:
Dialogue: 0,0:26:17.79,0:26:20.33, Default, 0,0,0,Представьте себя там, где вы любите бывать. В любом месте
Я скопировала из программы два субтитра и попросила ChatGPT убрать все лишние символы. С этим заданием ChatGPT справилась.
Общий вывод от Анны Барановой
Эти кейсы показали, что в задачах, которые касаются смысловой составляющей киноперевода, AI практически бессилен. Очевидно, что он не может сопоставить текст с видеорядом, понять контекст реплики или заметить сюжетные отсылки.
Что касается технической составляющей, то здесь все зависит от конкретной задачи. Если с расстановкой тайм-кодов реплик нейросеть пока не справляется, то лишние символы из субтитров она удаляет довольно успешно.
Автор промптов и текста: Анна Баранова