Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?
Тест Тьюринга — это эксперимент, предложенный британским математиком Аланом Тьюрингом для определения, обладает ли машина интеллектом. Суть теста в том, чтобы определить, может ли компьютер вести себя так, чтобы его поведение было неотличимо от человеческого. Если человек-оператор не может определить, с кем он общается — с человеком или машиной, — то машина считается прошедшей тест [1].
Также есть понятие обратного теста Тьюринга, при котором компьютер решает, человек перед ним или бот. Примером обратного теста является CAPTCHA.
Тест Тьюринга был предложен Аланом Тьюрингом («отцом» информатики) в 1950 году в его статье «Вычислительные машины и разум», опубликованной в философском журнале Mind [2]. Тьюринг задался вопросом о возможности создания мыслящих машин и предложил «игру в имитацию» (теперь известную как тест Тьюринга) как способ обойти прямой ответ на этот вопрос. Этот тест позволяет экспериментально проверить способность машины имитировать человеческие когнитивные функции, не вдаваясь в сущность мышления или сознания.
Тест Тьюринга осуществляется следующим образом: человек-оператор ведёт текстовое общение с двумя невидимыми для себя собеседниками — одним человеком и одной машиной. Оператор может задавать вопросы и реагировать на ответы, его задача — определить, кто из собеседников является машиной. Если после определённого времени общения оператор не может сделать однозначного заключения, то считается, что машина прошла тест. Такой подход позволяет оценить машину с точки зрения её способности к естественному языковому взаимодействию.
С момента предложения теста существует множество примеров систем, пытавшихся его пройти. Одной из заметных попыток был компьютерная программа ELIZA, созданная в 1966 году, которая имитировала поведение психотерапевта. Несмотря на то, что многие из тех, кто общался с ELIZA, думали, что общаются с реальным человеком, сказать, что она прошла тест, нельзя. Дело в том, что этих людей изначально не предупреждали о том, что с ними может общаться компьютер.
В более поздние годы были было произведено тестирование программы PARRY, которая имитировала поведение параноидального шизофреника. Группе из 33 психиатров предоставили стенограммы бесед PARRY и реальных людей с другими психиатрами, а затем попросили определить, какие из бесед были с людьми, а какие — с компьютером. Лишь в 48% случаев психиатрам удалось правильно идентифицировать собеседника, что равнозначно случайному угадыванию. Однако сложно утверждать, что PARRY смогла пройти тест Тьюринга, поскольку тест подразумевает интерактивное общение.
На текущий момент в научном сообществе нет консенсуса насчёт того, проходят ли современные методы вроде GPT тест Тьюринга.
Одна из основных претензий заключается в том, что тест не оценивает понимание машиной смысла или содержания сообщений, оценивается лишь её способность генерировать вероятные ответы. Также эксперимент зависит от субъективного мнения оператора и не способен определить, обладает ли машина сознанием или реальным интеллектом или просто имитирует его [3].
В ответ на ограничения теста Тьюринга были предложены другие тесты. Например, тест Лавлейс оценивает способность машины не просто к копированию человеческого поведения, но и к демонстрации творческих способностей. В этом тесте машине предоставляются требования к художественному произведению (например, тексту), которое она должна создать. Требованием может быть характеристика персонажа или описание фабулы. Важно то, что созданное произведение оценивается не субъективно, а на основании соответствия требованиям. Мы также проводили подобный эксперимент: предложили написать рассказ писателю и нейросети и смотрели, какой из результатов более оригинальный.
Вопрос того, как тестировать машины на наличие интеллекта, стал особенно актуален сейчас благодаря бурному развитию нейросетей. Исследователи области активно предлагают различные методологии тестирования. В частности, автор известной библиотеки для глубинного обучения, Keras, Франсуа Шолле предложил The Abstraction and Reasoning Corpus — набор тестов, который проверяет возможность системы решать задачи, которым она не обучалась. На данный момент лучше всего этот набор тестов решает GPT-4 — она выдаёт правильные ответы в 96.4% случаев.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…