Поисковик Baidu («китайский Google») разработал систему на базе искусственного интеллекта, способную переводить синхронно сразу два языка. Амбициозно назвав систему «Синхронный перевод, предвидение и контролируемое время ожидания» (STACL), компания заявила о «серьезном прорыве» в обработке естественного языка. STACL, в отличие от большинства систем перевода на базе технологий искусственного интеллекта (ИИ), способна приступить к переводу всего несколькими секундами позже самого оратора и заканчивать перевод реплики через пару секунд после того, как она была завершена.

Синхронный перевод принципиально отличается от последовательного перевода, в котором переводчик ждет окончания речи говорящего, чтобы начать переводить. Последовательному переводу (письменному, а затем и устному) компьютеры учатся давно и небезуспешно — ведь при наличии целого готового предложения не так сложно найти ему переводное соответствие при помощи статистики. А вот синхронный перевод остается большим вызовом.

Baidu объявили, что они решили проблему посредством моделирования системы по образу устных переводчиков. STACL прогнозирует слова, которые нужно перевести, объединяет перевод и ожидание в единую модель — «wait-k» — которая всегда переводит ключевые слова сразу после речи говорящего, обеспечивая условия для прогнозирования. (Система способна использовать доступные префиксы исходного предложения, чтобы определить следующее слово в переводе).

Источник: демонстрационный сайт системы STACL

Вот как Baidu объясняет это:

«В [примере] „Bùshí zǒngtǒng zài Mòsīkē“ („президент Буш в Москве“) после перевода на английский язык первых двух слов (k=2) как „President Bush“ [президент Буш] наша система точно предсказывает, что перевод следующего слова должен быть „встреча“, потому что Буш, вероятно, ’встречался’ с кем-то (например, с Путиным) в Москве, задолго до того, как будет произнесен соответствующий китайский глагол».

Другое преимущество технологии STACL — гибкий подход к задержкам. Длительность ожидания может быть установлена ниже или выше в зависимости от того, насколько сильно связаны два языка между собой — например, он ниже для французского и испанского языков и выше для далеких друг от друга языков, таких как английский и китайский, или языков с различным порядком слов, таких как английский и немецкий.

«Качество перевода чаще всего страдает от невысоких требований к задержке, но наша система жертвует лишь небольшой потерей качества по сравнению с обычным переводом полного предложения (например, несинхронным), — пишет Baidu. — Мы продолжаем улучшать качество перевода с учетом низких требований ко времени задержки».

Можно ли сравнить STACL, последовательный машинный перевод и людей-переводчиков? По утверждению Baidu, его качество по метрике BLEU («Системный Блокъ» уже рассказывал об этом популярном методе оценки качества машинного перевода, основанном на измерении близости к профессиональному человеческому переводу) приблизительно на 3,4 пункта ниже машинного перевода полных предложений.

«Даже с последними достижениями мы полностью осознаем многие ограничения системы синхронного машинного перевода, — пишет Baidu. — Релиз STACL не предназначен для замены людей-переводчиков, от которых в течение многих лет будут зависеть профессиональные услуги, а скорее для того, чтобы сделать синхронный перевод более доступным».

Система Baidu появилась через несколько месяцев после того, как компания объявила, что DuerOS, их помощник по искусственному интеллекту, достиг уровня по числу установок в 100 миллионов устройств по сравнению с 50 миллионами устройств шесть месяцев назад.

«Раньше мы были поисковой системой, но в эпоху искусственного интеллекта мы хотим быть компанией на базе ИИ», — сообщил исполнительный директор Baidu Кунь Цзин в интервью VentureBeat в прошлом году.

Технология STACL развивает более ранние работы в области распознавания речи и искусственного интеллекта. В 2016 и 2017 годах Baidu запустила SwiftScribe, систему распознавания голосовых сообщений на платформе DeepSpeech, и TalkType, голосовую клавиатуру Андроид. В июле 2018 был представлен специально разработанный чип — Kunlun Al — для облачных вычислений и edge computing. Тогда же был представлен Baidu Brain 3.0 — набором 110 ИИ-сервисов в диапазоне от обработки естественного языка и заканчивая компьютерным зрением.

Baidu — не единственная компания, продвигающая ИИ в машинном переводе и распознавании речи. Microsoft в 2018 году продемонстрировал систему, которая выдавала для новостей на китайском английский перевод, очень близкий к человеческому. Facebook применяет машинное обучение без учителя (unsupervised learning) для перевода контента с одного языка на другой. А исследователи из Университета Торонто разработали модель автономного распознавания речи, точность работы которой составляет до 97 %.

Перевод: Зеленина Анастасия, Плахина Виктория, Адукевич Даниил, Опокина Арина, Гураш Валерия, Башловкина Анастасия, Маркова Мария, Белоусова Анна

Материал подготовлен совместно с группой переводческих компаний AKM Translations

Источник: Google’s Translatotron is an end-to-end model that mimics human voices