В наше время нелегко быть сознательным гражданином. Нам говорят, что нужно быть осторожными с поисковыми системами, но и недоверие к медиа тоже может сделать нас легкой добычей для пропаганды. Дональд Трамп, например, объявляет любую критику в свой адрес дезинформацией и якобы намеренно искаженной поисковой выдачей Google. Таким образом, Трамп апеллирует как раз к всеобщему недоверию.
Если считать, что демократия опирается на информированных граждан, с демократией у нас все плохо. Это кризисный момент для многих учебных заведений, особенно в преподавании истории, философии, филологии, науки о языке — то есть дисциплин, которые изучают разные стороны человеческой жизни и культуры и призваны вырастить из учащихся осознанных граждан.
Чтобы подготовить студентов к миру, где информация фильтруется компьютерами, нам понадобится более тесный союз между гуманитарными науками и математикой. У этого союза есть две составляющие: критический анализ математических моделей, формирующих наш мир, и математический взгляд на культуру.
Конечно, традиционные навыки гуманитариев остаются важными: нам все еще нужно уметь критически анализировать суждения людей и логику, стоящую за аргументами. Но проблема в том, что аргументы теперь приходят не из одного или нескольких источников, а из огромного потока постов и новостей, регулируемых нашими соцсетями и статистическими алгоритмами. Мы не можем больше оценивать достоверность каждого из источников, приходит время говорить о выборках — другими словами, о статистике.
Возможно, когда-то математика была специализированным научным инструментом. Однако в XXI веке статистика и машинное обучение играют все большую роль в культуре и политике — они формируют ответы поисковиков на наши запросы, нашу ленту в соцсетях, рекомендации на сайтах товаров, услуг и знакомств. А потому те, кто не понимает математику, не смогут понять принципы функционирования этой «новой» повседневности.
Самая распространенная ошибка связана с пониманием того, что из себя представляет машинное обучение. Нас часто побуждают задуматься об опасности алгоритмов, демонизируется т.н. «алгоритмическая предвзятость» (algorithmic bias). Но сами по себе алгоритмы не являются проблемой или каким-то злом.
Алгоритм — это просто рецепт, последовательность шагов, которые необходимо выполнить «Разбей яйца, затем взбей белки» — это алгоритм. Вот только в XX веке всем было очевидно, что за алгоритмами всегда стоит человек, программист, вложивший в поведение компьютера конкретную логику, набор шагов и развилок. Это было понятно и никого не пугало.
Теперь же все немного не так. Мы перешли к системе, в которой компьютеры меньше контролируются человеком. Вместо того чтобы вручную писать алгоритмы, управляющие поведением компьютера, мы часто просим машину написать свои собственные инструкции — на основе имеющегося опыта и некоторой модели проблемы, которую нужно решить.
Например, фильтрация спама в электронной почте является плохо определяемой задачей. Нежелательная электронная почта может иметь разные формы, и было бы сложно написать алгоритм, который мог бы найти все. Более гибкий подход начинается со сбора примеров сообщений, которые пользователи отклонили или одобрили. Затем мы просим компьютер написать собственные инструкции, наблюдая различия между двумя группами. Например, он может составить список слов, которые часто встречаются в отклоненных письмах (бесплатно, приз, в_и_а_г_р_а, Нигерия, наследный принц), и измерить относительную вероятность их появления в отклоненных или принятых сообщениях. Затем он использует это описание спама, его «статистическую модель», для фильтрации входящей электронной почты. Поскольку многие слова могут появляться во многих обычных контекстах, модель не будет упрощенным алгоритмом, который просто отклоняет сообщения, содержащие определенные слова. Скорее он суммирует свидетельства от множества деталей, каждая из которых сама по себе не дает однозначного ответа.
Вместо того чтобы давать компьютерам конкретные жесткие инструкции, подход, называемый «машинное обучение», просит их уловить нечеткие закономерности, скрытые в данных. И поскольку эти данные отражают человеческое поведение, которое не следует строгим правилам, то и выведенные алгоритмы будут не жесткими, а гибкими, основанными на вероятностях.
Можно сравнить машинное обучение с обучением детей. Чтобы выучить язык, малышам приходится обобщать конкретные примеры (знакомый полосатый кот) в более свободную категорию (кошка или животное). Это требует «вычитания» деталей, поскольку шерсть животных не всегда в полоску, они не всегда мурлыкают и так далее. Мы можем не осознавать, что обучение требует вычитания, так как забывание деталей естественно для людей. Но компьютерам легко запоминать детали, поэтому, если мы хотим, чтобы они улавливали общие закономерности, мы должны явно сказать им, чтобы они сводили длинный список электронных писем (или животных) в нечеткую модель. Успех машинного обучения зависит как от сбора данных, так и от их сжатия, но именно второй шаг — это то, что называется обучением.
Машинное обучение все больше формирует человеческую культуру: голоса, которые мы отдаем кандидатам на выборах, шоу, которые мы смотрим, слова, которые мы используем в Facebook, становятся основой для моделей человеческого поведения, которые, в свою очередь, формируют то, что мы видим в интернете. Именно поэтому любая критика современной культуры должна включать в себя критику машинного обучения.
Но если просто сказать людям, что новые технологии помогают их обманывать, это может породить желание избавиться от таких технологий. Для того чтобы быть в меру осторожными, но не впадать в паранойю, люди должны научиться понимать, как ограничения, так и преимущества новых технологий.
Гуманитарии могут внести вклад в этот образовательный проект, потому что они уже знакомы с одной из главных задач машинного обучения — поиском закономерностей в изменчивом человеческом поведении. Можно вообще сказать, что именно это — центральная сверхзадача гуманитарных наук.
Это заявление может показаться странным тем, кто верит, что математика не имеет ничего общего с историей и литературой. Однако в жизни гуманитарии всегда были более гибкими, чем в стереотипах о них Скажем, историки экономики часто используют подсчеты и статистику. Историки культуры не использовали точные методы раньше только потому, что простые количественные методы, доступные в XX веке, действительно мало что могли дать для понимания культуры. Написать простой алгоритм для определения литературного жанра невозможно уже потому, что у большинства жанров нет четких границ. Литературные жанры, как и спам, — это набор пересекающихся характеристик, которые при этом меняются со временем.
Модели, созданные на основе человеческого поведения, всегда основаны на определенном культурном контексте. Они никогда не закончены, и не могут отразить вневременную действительность, а потому должны постоянно обновляться — и именно в этом заключается их основное ограничение и предвзятость.Алгоритмы обязательно должны изменяться вслед за меняющейся реальностью.
Но в гуманитарных науках тоже практически не бывает вневременных вечных моделей. Поэтому изучение сильных и слабых сторон исторических исследований может помочь лучше понять и машинное обучение, и наоборот: машинное обучение может помочь узнать что-то новое историкам культуры.
Конечно же, новые связи между компьютерными технологиями и гуманитарными науками не смогут заменить классические методы историографии, философии, искусствоведения и литературоведения. Но даже простое сотрудничество гуманитариев с представителями технических дисциплин в разработке образовательных продуктов — это большой сдвиг.
Гуманитарные науки несут в себе разумный скептицизм и критическое отношение к количественным данным и подходам. Однако скептицизм — не единственное, что могут предложить гуманитарии. Гуманитарии могут показать, что проблема не в только машинном обучении или алгоритмах, но в самом сложной и непредсказуемой сущности человека, культуры и общества. Сотрудничая с технарями и вдумчиво анализируя количественные модели, гуманитарные исследователи могут действительно приблизить людей к пониманию того, как функционируют сложные механизмы культуры.
Источник: Ted Underwood, WHY AN AGE OF MACHINE LEARNING NEEDS THE HUMANITIES