Давайте представим ситуацию: маленькому ребенку преподносят картинку с различными фигурами и просят найти большой красный круг. Чтобы прийти к ответу, он делает небольшую цепь рассуждений: находит все большие фигуры; затем — все большие фигуры красного цвета; и, наконец, замечает большой красный круг. Размышляя, мы познаем мир. То же самое делают нейронные сети.

Группа исследователей из MIT Lincoln Laboratory Group разработала нейронную сеть, которая составляет цепочки рассуждений, подобные человеческим, чтобы ответить на вопросы о содержании изображений. Модель, названная «Сеть со встроенной прозрачностью» (Transparency by Design Network, TbD-net), визуализирует свой поэтапный мыслительный процесс решения проблем. Это позволяет аналитикам интерпретировать процесс принятия решений. Модель работает лучше, чем другие нейронные сети с визуальным обоснованием (visual-reasoning neural networks).

Понимание того, как нейронная сеть принимает свои решения, является давней проблемой для исследователей искусственного интеллекта (ИИ). Если опираться на само название, то нейронные сети — это системы, вдохновленные моделью человеческого мозга и предназначенные для того, чтобы воспроизводить процесс обучения, похожий на человеческий. Они состоят из входного и выходного слоев и промежуточных слоев, которые преобразуют исходные данные в конечный результат.

Глубокие нейронные сети стали настолько сложными, что практически невозможно проследить этот процесс преобразования данных. Поэтому, такие системы иногда упоминаются как «черные ящики» — происходящие внутри процессы порой озадачивает даже инженеров, которые создают такие системы.

С помощью TbD-net разработчики стремятся сделать эти внутренние процессы прозрачными и ясными. Понимание работы позволяет людям грамотно интерпретировать результаты ИИ. Например, важно знать, что именно нейронная сеть, используемая в беспилотных автомобилях, считает разницей между пешеходом и стоп-сигналом, или на каком этапе рассуждений она видит эту разницу. Подобные идеи позволяют исследователям научить нейронную сеть исправлять любые неверные предположения. Тем не менее разработчики TbD-сети считают, что лучшим нейронным сетям сегодня не хватает эффективного механизма, позволяющего людям понять их процесс мышления.

«Прогресс в улучшении производительности визуальных рассуждений достигается ценой интерпретируемости», — говорит Райан Сокласки, который создал сеть TbD-net с коллегами-исследователями Арджуном Маджумдаром, Дэвидом Машаркой и Филиппом Траном.

Лаборатория Линкольна в MIT смогла сократить разрыв между производительностью и интерпретируемостью с помощью TbD-сети. Одним из ключевых механизмов в системе является набор «модулей», небольших нейронных сетей, которые специализируются на выполнении определенных подзадач. Когда TbD-net задают визуальный вопрос об изображении, она разбивает вопрос на подзадачи и назначает соответствующий модуль для выполнения своей части. Такая техника «разделение целого на части» используется и в автоматической обработке естественного языка (Natural Language Processing), и в области компьютерного зрения при интерпретации образов.

Вывод каждого модуля визуально изображен в том, что группа называет «маской внимания». Маска внимания выделяет тот объект на изображении, который модуль идентифицирует как ответ. Такие визуализации позволяют аналитикам увидеть, как именно модуль интерпретирует изображение.

Слева — фото, справа — маска внимания для металлических объектов на фото. В центре — совмещение двух картинок.

После тестирования TbD-net достигла результатов, превосходящих самые эффективные модели визуального мышления. Исследователи оценили модель, используя визуальный набор данных для ответов на вопросы, состоящий из 70 000 обучающих изображений и 700 000 вопросов, а также наборов для тестирования и проверки из 15 000 изображений и 150 000 вопросов. Благодаря прозрачности, первоначальная модель достигла впечатляюще высокий результат — 98,7% точности при тестировании на наборе данных.

Источник
Artificial intelligence system uses transparent, human-like reasoning to solve problems

Подробнее о нейросети TbD-net можно почитать в статье «Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning». Исследование было представлено на конференции по компьютерному зрению и распознаванию образов (CVPR) этим летом.