Читать нас в Telegram
Иллюстрация: Светлана Нагаева

Фантастика становится реальностью

Представьте: после веселого вечера в баре с друзьями вы в отличном настроении садитесь в машину, чтобы отправиться домой. А машина не заводится. В чем же дело? Просто автомобиль определил, что вы не совсем трезвы, и теперь никуда не поедет — придется вызывать такси.

Если вам кажется, что такое возможно только в фантастических фильмах, то спешим вас удивить: с 2019 года все новые машины, продаваемые в Евросоюзе, должны быть устроены так, чтобы на них можно было установить «алкозамок». Такой закон был принят совсем не случайно. По данным European Road Safety Observatory, водители, которые садятся за руль после употребления алкоголя, в 15 раз чаще становятся участниками смертельных аварий. Кроме того, примерно 25% всех смертей на дорогах в ЕС так или иначе связаны с алкоголем.  

Статистика Европейской комиссии по надзору за безопасностью в сфере дорожного движения
Статистика Европейской комиссии по надзору за безопасностью в сфере дорожного движения

Алкогольное опьянение — это не только «веселое настроение», но и серьезные нарушения в работе мозга. Замедленная реакция, нарушенная координация и притупленное внимание — все это приводит к трагедиям на дорогах, которых трезвый водитель мог бы избежать. Конечно, существуют алкотестеры, которые с высокой точностью определяют степень опьянения, но у них есть свои недостатки: от стоимости до необходимости активного участия человека. А что если бы проверка происходила незаметно? 

Удивительно, но здесь на помощь может прийти автоматический анализ речи. Наша речь представляет собой сложный психомоторный процесс, в котором задействуется более сотни мышц. Чтобы сказать даже одну фразу, мозгу необходимо синхронизировать не только язык и губы, но и дыхание и голосовые связки. Под воздействием алкоголя сделать это становится сложнее. Изменения в речи помогают диагностировать неврологические заболевания и психические расстройства на ранних стадиях. Так почему бы не применить этот же принцип для выявления алкогольного опьянения, если это может спасти множество жизней?

Корпус пьяной речи и начало исследований

Идея использования голоса как индикатора опьянения не нова. Еще в 2011 году на научном конкурсе Interspeech 2011: Speaker State Challenge исследователи задумались об алгоритме, который был бы способен претворить эту идею в жизнь. Тогда и был создан специальный датасет — Alcohol Language Corpus (ALC). В него вошли записи речи 162 немецких добровольцев в возрасте от 21 до 64 лет, которые проходили эксперимент как трезвыми, так и после употребления алкоголя. При этом фиксировалось не только аудио, но и данные об участниках: возраст, пол, индекс массы тела и привычки в употреблении алкоголя. Во время записи добровольцы выполняли речевые задания разной сложности: чтение цифр и коротких фраз, произношение скороговорок и монологов, участие в спонтанном диалоге. Это позволило определить, как алкоголь искажает речь в разных условиях.

Уже тогда ученые смогли обнаружить любопытную деталь: у людей в состоянии опьянения, в особенности у женщин, часто повышалась основная тональность голоса — он становился более напряженным. Однако другие акустические особенности обобщить не удалось. Одно стало ясно: на тот момент выделить единый для всех «отпечаток» опьянения в речи было трудновыполнимо [2].

Нейросети становятся алкотестерами

Однако несколько лет спустя нашлась команда итальянских ученых, которые продолжили работу по детекции опьянения по речи. Они решили провести новое исследование. Во-первых, они решили попробовать применить к проблеме нейросетевые модели. Во-вторых, они стремились понять, как именно такие характеристики говорящего, как пол, возраст, индекс массы тела и привычки употребления алкоголя, могут влиять на речевые паттерны [1]. 

На первом этапе эксперимента исследователи работали с тем самым ALC-датасетом 2011 года, но сосредоточились на одной речевой задаче — на скороговорке, уже показавшей себя особенно чувствительной к опьянению в других экспериментах. И это логично: попробуйте сами произнести «Kalle Kahlekatzenglatzenkratzer kratzt kahle Katzenglatzen» без запинаний. 

Для каждого участника рассматривали две записи — сначала в трезвом состоянии, а затем после употребления алкоголя — и сравнивали десятки характеристик голоса (например, его высоту). Затем для каждого речевого показателя подсчитывали изменения: насколько он увеличился или уменьшился. Получившиеся результаты суммировались по всем испытуемым, чтобы вычислить абсолютное значение. Более высокое абсолютное значение суммы указывало на то, что параметр изменяется у большинства участников эксперимента, то есть систематически. Дальше весь процесс повторялся на подвыборках: его проводили отдельно для мужчин и женщин, для разных возрастных групп, для участников с разной массой тела, а также при различном уровне алкоголя в крови.

Поняв, что модель слишком зависит от персональных свойств голоса, команда ученых перешла ко второму этапу. Теперь важно было попробовать создать не просто еще один детектор, а новую модель машинного обучения, которая бы преодолевала главное препятствие — уникальность каждого голоса. Для этого они оптимизировали существующую нейросетевую архитектуру под названием DANN (Discriminative Adversarial Neural Network). 

Как устроен нейросетевой алкотестер

DANN — это архитектура нейросети, которая учится выделять инвариантные признаки, то есть такие, которые не зависят от особенностей данных. Например, такая модель будет игнорировать разные стили речи и индивидуальные черты говорящих — вместо этого она сосредоточится именно на том, чтобы выявить факт употребления алкоголя. 

Схема работы архитектуры DANN
Схема работы архитектуры DANN [1]

Внутри этой сети один блок выделяет общие признаки опьянения из голоса, анализируя входные аудиозаписи и извлекая ключевые характеристики, такие как тон, ритм и паузы. В это время второй блок использует эти признаки, чтобы отличить трезвую речь от нетрезвой, выполняя бинарную классификацию на основе собранных данных. А третий блок играет роль контролера. Его задача — угадать, какому конкретно человеку из датасета принадлежит голос, опираясь на ID говорящего. Если он угадывает хорошо, это означает, что индивидуальные особенности говорящего все еще заметны — за это первый блок получает «штраф». Таким образом, алгоритм ищет в голосе именно те изменения, которые вызывает алкоголь, и пытается отфильтровать просто уникальные черты речи отдельного человека, понижая их значимость. 

Во время этого эксперимента для обучения были использованы все речевые задания из ALC (и цифры, и монологи, и диалоги, а не только скороговорка). Это сделало модель универсальной к типу произносимой речи. Чтобы избежать переобучения, датасет разделили на части: 75% данных из исходного датасета использовали для обучения, а 25% — для валидации, чтобы проверить, как модель справляется с новыми, незнакомыми записями. Чтобы убедиться, что индивидуальные особенности не влияют на результат, записи одного и того же участника включались либо в обучающую, либо в тестовую выборку. Кроме того, исследователи учли баланс по полу, возрасту, индексу массы тела и привычкам к алкоголю, чтобы DANN не «предпочитала» какую-либо группу. Поскольку записей трезвых говорящих в датасете было в два раза больше, чем нетрезвых, для оценки использовали не простую точность, а сбалансированную — чтобы учесть ошибки в обеих категориях.

В результате DANN-модель показала точность почти в 71% на записях людей, которых она никогда не слышала во время обучения. Это важный шаг к созданию настоящего голосового алкотестера, который будет работать для незнакомых голосов в разнообразных ситуациях.

Схема описанных этапов исследования
Схема описанных этапов исследования [1]

Чтобы инструмент стал более надежным, нужно расширить корпус данных. Больше говорящих, больше разных речевых ситуаций, разных языков и акцентов. Кроме того, будущие модели должны быть устойчивы к «полевым» условиям: голосам прохожих, уличному гулу и другим помехам. Если эти вопросы удастся решить, то голосовой алкотестер вполне может стать такой же привычной мерой безопасности, как ремни или подушки безопасности.

Источники

  1. Amato F., Cesarini V., Olmo G. et al. Beyond breathalyzers: AI-powered speech analysis for alcohol intoxication detection // Expert Systems with Applications. 2025. Vol. 262. P. 125656. DOI: 10.1016/j.eswa.2024.125656.
  2. Schiel, F., Heinrich, C., & Barfüsser, S. Alcohol language corpus: the first public corpus of alcoholized German speech // Language resources and evaluation. 2012. Vol. 46. N. 3. P. 503–521. URL: https://link.springer.com/article/10.1007/s10579-011-9139-y.