Инженеры-нейробиологи (нейроинженеры) из Колумбийского Университета в Нью-Йорке завершили разработку системы, которая позволяет переводить мысли в звучащую речь. Сейчас эта система способна на основе анализа активности мозга реконструировать те слова, которые человек слышит. Но в перспективе ученые надеются, что она сможет считывать любые мозговые импульсы и синтезировать из них речь.

Новые технологии будут полезны при оказании помощи немым, людям, которые обладают глобальными речевыми дефектами, пациентам, страдающих боковым амиотрофическим склерозом или восстанавливающимся после инсульта. Сообщение об исследовании и результаты были опубликованы в журнале Scientific Reports.

«Ежедневно используя голос и способности к речевым коммуникациям, мы поддерживаем тесную связь с нашими близкими и миром вокруг. Именно поэтому даже частичная потеря речевых навыков является тяжелыми испытаниями для любого человека», — рассказывает Нима Месгарани, главный автор заявленной научной статьи и старший исследователь в Институте Мортимера Цукермана в Колумбийском Университете. «Благодаря сегодняшним открытиям, учёные получают серьёзный шанс предотвратить трагедию. Вооружившись специальными технологиями, мы можем помочь пациентам в прямом смысле „донести“ их мысли до окружающих, анализируя их с помощью речевого аппарата».

Результаты десятилетий научной работы показали, что, когда люди разговаривают или представляют себе разговор с помощью воображения, в определённых, чётко-очерченных местах их мозга наблюдается повышенная активность. Похожая картина нервных импульсов также складывается при прослушивании чьей-то речи и воспоминаниях о разговоре. Эксперты говорят, что совсем скоро может стать реальностью будущее, где мысли могут успешно выйти за знакомые нам границы головного мозга и мгновенно транслироваться в ясную речь.

Задачи перевода сигналов мозга в речь очень сложна. Ранние попытки расшифровывания нейронных импульсов, предпринятых доктором Месгарани и его командой, в большей степени концентрировались на создании простых компьютерных моделей для анализа выбранной спектрограммы — визуальной репрезентации звуковых частот.

Такой подход к делу не помог осуществить главную задачу — создание программы на основе искусственного интеллекта, которая могла бы расшифровывать мозговую активность человека, превращая её в обычную речь. Проект вскоре был закрыт, а доктор Месгарани и его команда обратили своё внимание на новую технологию — вокодер. Это устройство синтеза речи на основе произвольного сигнала с богатым спектром, способное порождать полноценные предложения, обучаясь на аудиозаписях человеческих разговоров.

«Это абсолютна та же самая технология, которую вы видите в Amazon Echo (голосовой помощник от Amazon, работающий на основе технологии Alexa) и голосовом управлении Siri. Эти продукты используют программу, чтобы давать устный ответ на наши вопросы», рассказывает доктор Месгарани.

Чтобы научить вокодер распознавать и интерпретировать электрическую активность мозга, к доктору Месгарани присоединился доктор медицинских наук, нейрохирург в Northwell Health Physician Partners Neuroscience Institute Ашеш Динеш Мехта. Он стал одним из соавторов работы. Доктор Мехта работает с пациентами, страдающими эпилепсией, и большинство из них нуждаются в регулярных хирургических вмешательствах.

«Работая с доктором Мехта, мы попросили пациентов, восстанавливающихся после недавней операции, прослушать ряд предложений на аудиозаписях, используя разную частоту и тон голоса, — говорит Месгарани. — Зафиксированная мозговая активность пациентов стала основой для обучения вокодера при распознании и реконструкции человеческой речи».

Далее учёные попросили тех же пациентов прослушать голосовое сообщение, которое повторяло обычный счёт от 0 до 9. На этот раз импульсы, возникающие в определённых частях головной коры мозга, напрямую транслировались в вокодер. После анализа звуковых сигналов и их обработки искусственными нейросетями, механизм произвёл имитацию человеческой речи.

Конечным результатом стал роботический голос, который повторял заданную последовательность цифр. Чтобы проверить точность аудиозаписи и эксперимента, доктор Месгарани и его команда собрали аудиторию незаинтересованных в успехе работы третьих лиц для получения независимой оценки проведённого исследования.

«В целом, люди могли прекрасно понимать то, о чём говорилось в аудиозаписи и даже повторять за ней примерно в 75% случаях, что значительно превышает успех в распознавании речи всех предыдущих экспериментов», — отмечает доктор Месгарани. Серьёзный успех в применении интеллектуального синтеза, достигнутый при помощи нейросетей, особенно заметен при сравнении аудиозаписей, созданных на основе спектрограммы и оставленных предыдущими исследователям. «Благодаря более чувствительному вокодеру и использованию нейросетей, наш речевой синтез приблизился к настоящему, обычному человеческому голосу при повествовании».

В будущем доктор Месгарани и его команда планируют использовать более сложные слова и предложения, а также тестировать свой алгоритм при непосредственном участии испытуемого в разговоре. Учёные надеются на то, что их система станет частью медицинского импланта, похожего на те, которые сейчас используются в нейрохирургии для пациентов с эпилепсией, напрямую транслируя мысли человека с повреждённым речевым аппаратом в полноценные предложения.

«При таком развитии событий любой пациент, обладающий этим чипом, может просто сформулировать чёткое словосочетание, такое как „я хочу пить“ или „я хочу стакан воды“, у себя в голове и система сможет автоматически транслировать мысленный сигнал в понятную и разборчивую речь, нужную для привлечения внимания медсестры или ассистента», объясняет доктор Месгарани. «Программа сможет дать шанс людям с повреждениями речевого аппарата оставаться на связи с внешним миром, с их близкими и родными».

Источники

  1. Columbia Engineers Translate Brain Signals Directly into Speech
  2. Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex