Тест Тьюринга — это эксперимент, предложенный британским математиком Аланом Тьюрингом для определения, обладает ли машина интеллектом. Суть теста в том, чтобы определить, может ли компьютер вести себя так, чтобы его поведение было неотличимо от человеческого. Если человек-оператор не может определить, с кем он общается — с человеком или машиной, — то машина считается прошедшей тест [1].
Также есть понятие обратного теста Тьюринга, при котором компьютер решает, человек перед ним или бот. Примером обратного теста является CAPTCHA.
Как проверить наличие мышления, не понимая что это такое?
Тест Тьюринга был предложен Аланом Тьюрингом («отцом» информатики) в 1950 году в его статье «Вычислительные машины и разум», опубликованной в философском журнале Mind [2]. Тьюринг задался вопросом о возможности создания мыслящих машин и предложил «игру в имитацию» (теперь известную как тест Тьюринга) как способ обойти прямой ответ на этот вопрос. Этот тест позволяет экспериментально проверить способность машины имитировать человеческие когнитивные функции, не вдаваясь в сущность мышления или сознания.
Как устроен тест Тьюринга
Тест Тьюринга осуществляется следующим образом: человек-оператор ведёт текстовое общение с двумя невидимыми для себя собеседниками — одним человеком и одной машиной. Оператор может задавать вопросы и реагировать на ответы, его задача — определить, кто из собеседников является машиной. Если после определённого времени общения оператор не может сделать однозначного заключения, то считается, что машина прошла тест. Такой подход позволяет оценить машину с точки зрения её способности к естественному языковому взаимодействию.
Попытки пройти тест
С момента предложения теста существует множество примеров систем, пытавшихся его пройти. Одной из заметных попыток был компьютерная программа ELIZA, созданная в 1966 году, которая имитировала поведение психотерапевта. Несмотря на то, что многие из тех, кто общался с ELIZA, думали, что общаются с реальным человеком, сказать, что она прошла тест, нельзя. Дело в том, что этих людей изначально не предупреждали о том, что с ними может общаться компьютер.
В более поздние годы были было произведено тестирование программы PARRY, которая имитировала поведение параноидального шизофреника. Группе из 33 психиатров предоставили стенограммы бесед PARRY и реальных людей с другими психиатрами, а затем попросили определить, какие из бесед были с людьми, а какие — с компьютером. Лишь в 48% случаев психиатрам удалось правильно идентифицировать собеседника, что равнозначно случайному угадыванию. Однако сложно утверждать, что PARRY смогла пройти тест Тьюринга, поскольку тест подразумевает интерактивное общение.
На текущий момент в научном сообществе нет консенсуса насчёт того, проходят ли современные методы вроде GPT тест Тьюринга.
Критика теста Тьюринга
Одна из основных претензий заключается в том, что тест не оценивает понимание машиной смысла или содержания сообщений, оценивается лишь её способность генерировать вероятные ответы. Также эксперимент зависит от субъективного мнения оператора и не способен определить, обладает ли машина сознанием или реальным интеллектом или просто имитирует его [3].
Альтернативы тесту
В ответ на ограничения теста Тьюринга были предложены другие тесты. Например, тест Лавлейс оценивает способность машины не просто к копированию человеческого поведения, но и к демонстрации творческих способностей. В этом тесте машине предоставляются требования к художественному произведению (например, тексту), которое она должна создать. Требованием может быть характеристика персонажа или описание фабулы. Важно то, что созданное произведение оценивается не субъективно, а на основании соответствия требованиям. Мы также проводили подобный эксперимент: предложили написать рассказ писателю и нейросети и смотрели, какой из результатов более оригинальный.
Вопрос того, как тестировать машины на наличие интеллекта, стал особенно актуален сейчас благодаря бурному развитию нейросетей. Исследователи области активно предлагают различные методологии тестирования. В частности, автор известной библиотеки для глубинного обучения, Keras, Франсуа Шолле предложил The Abstraction and Reasoning Corpus — набор тестов, который проверяет возможность системы решать задачи, которым она не обучалась. На данный момент лучше всего этот набор тестов решает GPT-4 — она выдаёт правильные ответы в 96.4% случаев.
Источники
- Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), pp. 433–460.
- Hodges, A. (2012). Alan Turing: The Enigma. Vintage.
- Saygin, A. P., Cicekli, I., & Akman, V. (2000). Turing Test: 50 years later. Minds and Machines, 10(4), pp. 463–518.