Ни один человек или группа людей уже не в состоянии справиться с терабайтами данных, которые каждый день порождает современная наука — биология, химия, физика, астрономия. Радиотелескоп Square Kilometer Array, старт работы которого намечен на середину 2020-го, будет генерировать данные в объеме, сопоставимом с объемами трафика всего Интернета.

Все больше ученых обращаются за помощью к искусственному интеллекту. С минимальным контролем со стороны человека такие системы, как искусственные нейронные сети, могут обрабатывать большие массивы данных, находить закономерности и отклонения от нормы, которые обычный человек вряд ли заметил бы.

Компьютеры используются в научных исследованиях уже как минимум 75 лет, а математика, которая стоит за методами Data Science, известна еще дольше. Но лишь недавно появилась возможность хранить действительно большие объемы данных, измеряемые экзабайтами. Именно появление вычислительных мощностей, способных переварить такие объемы, привело к буму Data Science, машинного обучения и нейронных сетей.

Некоторые ученые заговорили о том, что машинное обучение коренным образом изменит исследовательскую деятельность. Например, генеративное моделирование может помочь выявить наиболее достоверную теорию, основываясь исключительно на данных наблюдения, без каких-либо заранее заложенных знаний о физических процессах исследуемой системы.

Традиционная наука опиралась в первую очередь на наблюдение. Например, великий астроном Иоганн Кеплер изучал таблицы расположения небесных тел, составленные Тихо Браге, и на их основе сделал вывод об эллиптической форме орбит. Кроме того, наука двигалась вперед с помощью симуляции и традиционного моделирования. Так астрономы моделировали движение галактик Млечный путь и Андромеда, чтобы предсказать их столкновение через миллиарды лет.

Метод генеративного моделирования отличается от этих двух способов. Его сторонники видят в ИИ мощный инструмент, который сильно облегчит научные исследования. Астрофизик Фермилаба Брайан Норд, использующий искуственные нейросети для изучения космического пространства, относится к числу людей считающих, что ИИ в будущем вытеснит живого ученого. «Эта мысль немного пугает», — добавил Норд.

Генерирование открытий

В 2007 году сотрудник Швейцарской высшей технической школы Цюриха Кевин Шавински запустил проект Galaxy Zoo. Интернет-пользователи помогали ученым выбирать категории для галактик, делая свои догадки. Выбранная большинством пользователей категория обычно оказывалась верной. По словам Шавински, сейчас умелый исследователь с опытом машинного обучения и доступом к облачной вычислительной среде справится с этой задачей за один вечер с помощью ИИ.

Шавински начал использовать генеративное моделирования в 2016 году. Суть метода, который он применяет, можно сформулировать так: если есть условие Х, то с какой вероятностью конечным результатом станет Y? Пример такой модели — программа, которая умеет предсказывать, как изменится внешность человека с течением времени. Генеративная модель пропускает через себя изображения человеческих лиц с указанием возраста, а алгоритм выводит общее свойство «у старых людей есть морщины» и таким образом может «состарить» любое лицо.

Люди на фотографиях не существуют в реальности. Лица в колонках А и B созданы генеративно-состязательной сетью (GAN) с использованием фрагментов реальных лиц. Эта сеть объединила фрагменты лиц из колонки А с лицами из колонки B и создала новые лица.

Самые известные сегодня системы генеративного моделирования — генеративно-состязательные сети (GANs). Генеративно-состязательные сети умеют восстанавливать повреждённые изображения, делать размытые фото более чёткими. Сеть состоит из двух частей: первая — генератор ложных данных, вторая — детектор, который должен отличить ложные данные от реальных. Состязаясь таким образом, сеть учится определять недостающую информацию и постепенно развивается.

Генеративно-состязательная сеть способна, например, создавать реалистичные лица, которые на самом деле не существуют. Эта система берёт набор изображений, разбивает их на более мелкие «кирпичики», которые учёные называют «потенциальным пространством». Затем алгоритм переставляет эти базовые элементы, наблюдает, как от этого меняются исходные данные, и таким образом выявляет закономерности в основе системы.

Идея «потенциального пространства» абстрактна, её тяжело представить визуально. Зато можно сравнить её с тем, как люди пытаются определить пол другого человека. Мы обращаем внимание на волосы, форму носа и другие вещи, которые тяжело описать словами. Компьютерная программа работает по такому же принципу: пусть она и не знает, что такое «пол» или «усы», когда она увидит, что достаточно изображений с тегом «мужчина» также имеют тег «усы», а изображения с тегом «женщина» «усов» не имеют, она сделает определённый вывод.

В журнале Astronomy & Astrophysics Шавински и его коллеги по Швейцарской высшей технической школе Цюриха опубликовали результаты эксперимента с использованием генеративного моделирования. Цель эксперимента — узнать какие физические изменения претерпевают галактики с течением времени. При помощи генеративного моделирования создавались искусственные данные для проверки той или иной гипотезы. Например, учёные применили программу, чтобы узнать, как резкое снижение скорости образования новых звёзд связано с растущей плотностью галактики. Главное было — понять, как много информации можно получить о процессах, происходящих в звёздах и галактиках, на основе одних только данных, без опоры на предшествующую теорию.

«Давайте представим, что мы стерли все наше знание об астрофизике, — говорит исследователь, — Какие законы мы можем вывести непосредственно из данных?»

Учёные взяли изображения галактик, находящихся в среде с низкой плотностью, и посмотрели, как они выглядели бы в высокой плотности. В итоге исследователи обнаружили, что при переходе из низкой плотности в высокую галактики становятся более красного цвета, а звёзды внутри них собираются ближе к их центру. Такие данные были получены и при наблюдении за реальными галактиками с высокой плотностью.

Но Шавински хотел знать, почему так происходит. Для проверки гипотез вновь использовали генеративное моделирование. Исследователи изменили потенциальное запыленное пространство и скорость образования звезд, чтобы увидеть, как изменится цвет галактики. В конце эксперимента учёные ясно увидели, что более насыщенным красным цветом обладали галактики, в которых снизилась скорость образования новых звёзд, а не те, в которых изменилась запыленность. Поэтому предпочтение отдали теории, связывающей плотность среды галактики и скорость образования звёзд.

Изменения в галактиках, перешедших из космической среды низкой плотности в области с высокой плотностью. Визуализация стала возможной благодаря генеративному моделированию.

Этот подход близок к традиционному моделированию, но есть ключевое различие. Традиционное моделирование изначально исходит из некоторой гипотезы. Cам Шавински описывает традиционный подход так:

«Кажется, я знаю, какими физическими законами это можно объяснить. Знаю, как образуются звёзды, как ведёт себя тёмная материя и прочее. Я загружу все свои теории в одну базу и запущу программу моделирования. А затем спрошу себя, похоже ли это на правду».

Генеративное моделирование работает иначе: «В некотором смысле оно противоположно обычному. Мы ничего не знаем; ничего не хотим допускать. Мы хотим, чтобы данные сами сказали нам, в чём дело».

Успех применения GAN в подобных исследованиях вовсе не означает, что люди в науке больше не нужны. Однако таким системам не следует относиться как к простым инструментам обработки данных — генеративное моделирование претендует на то, чтобы автоматизировать научную мысль, пусть и не полностью.

Дэвид Хогг специалист по космологии Нью-Йоркского университета и института Flatiron, чья работа существенно опирается на ИИ, не считает генеративное моделирование чем-то новым. Хогг использовал нейросети для классификации звёзд по спектрам и присвоения физических свойств тем или иным звёздам на основе моделей обработки данных. По его мнению, GAN всего лишь сложный и прогрессивный метод наблюдения и анализа, который астрономы применяли на протяжении веков.

Трудолюбивые помощники

Можно спорить о новизне метода, но бесспорно, что ИИ и нейросети играют важную роль в астрономических и физических исследованиях. Например, команда астроинформатиков в Гейдельбергском институте теоретических исследований во главе с физиком Каем Полстерером воспользовалась алгоритмом машинного обучения для извлечения информации о красном смещении из данных о галактиках. Прежде это задание было изнуряюще трудным.

Основное преимущество систем искусственного интеллекта, по мнению Полстерера, — это их способность работать на протяжении многих часов подряд без скуки и жалоб на условия труда. Это позволяет «перепоручить» скучную работу нейросетям, а самому сосредоточиться на интересной науке. Но человек всё равно должен контролировать искусственный интеллект, предупреждает Полстерер. ИИ не различает типы входных данных, поэтому если его натренировать оценивать красное смещение и возраст галактики, а потом загрузить селфи, он не сможет оценить это изображение.

Астрофизик Брайан Норд уверен, что нейросети должны выдавать не только результат, но и значения погрешностей, как и любое другое научное исследование.Также Норд выражает беспокойство по поводу нейросетей, которое разделяют многие исследователи ИИ: они предоставляют только ответ, без объяснения того, как именно он был получен.

Но на этот счет есть и другое мнение. Ленка Здеборова, исследовательница во французском Институте теоретической физики комиссариата по атомной и альтернативным видам энергии, сравнивает невозможность понять логику ИИ с логикой человека. Например, когда человек видит фотографию кошки, он знает, что это кошка, но сходу не может точно объяснить, почему он это знает.

ИИ применяется не только в астрофизике. Роджер Мелко, специалист по квантовой физике, использовал нейросеть для решения одной из труднейших проблем в его сфере деятельности: как математически представить «волновую функцию», описывающую многочастичные системы. Мелко говорит, что было необходимо использовать ИИ из-за «прогрессирующего проклятия размерности». Это «проклятие» напоминает игру в шахматы или го. Как и в шахматах, с каждым ходом количество возможных следующих и ответных ходов противника увеличивается, возможные формы волновой функции растут в геометрической прогрессии с увеличением количества частиц в описываемой ей системе. А искусственный интеллект уже давно стал экспертом в этих настольных играх, поэтому он подходит для решения похожих проблем в квантовой физике.

Машинный разум

Несмотря на все споры вокруг ИИ, он без сомнения увеличивает скорость научных открытий. Но как далеко зайдёт революция ИИ в науке?
Десять лет назад химики создали модель искусственного интеллекта по имени «Адам», которая выяснила, какие гены в пекарских дрожжах отвечают за производство определённых аминокислот. Для этого «Адам» исследовал штаммы дрожжей с определёнными генами и без.

Совсем недавно химик Ли Кронин в Университете Глазго использовал ИИ, который случайным образом смешивал химические вещества, чтобы получить новые соединения. Наблюдая за химическими реакциями в реальном времени с помощью масс-спектрометра, ядерного магнитного резонанса и инфракрасного спектрометра система научилась заранее определять наиболее реакционноспособные соединения. Кронин считает, что такие роботизированные системы могут на 90% ускорить работу ученых-химиков.

В прошлом году другая команда ученых из Цюриха использовала нейросеть, которая повторно вывела известные законы физики на основе данных. Она заново открыла гелиоцентрическую модель Солнечной системы, изучив данные о положении Солнца и Марса в небе относительно Земли; она также ещё раз открыла закон сохранения импульса, наблюдая за сталкивающимися друг с другом шарами. Ученых интересует сможет ли система вывести уже известные законы физики, найдя более простой способ.

Главным вопросом является, то сколько информации мы можем получить на основе только одних данных. В книге «The Book of Why» (2018) учёный-информатик Джуда Перл и популяризатор науки Дана Маккензи утверждают, что использование данных для ответов на вопросы о причинно-следственных связях бессмысленно. Они считают, что всё, что может любое исследование, основанное на несмоделированном анализе данных, — это обобщить и преобразовать, но никак не истолковать данные. Карл Шавински отчасти разделяет эту идею — по словам ученого, он никогда и не утверждал, что машина сама сможет определять причины и следствия явлений.

«Я просто говорю, что теперь данные позволяют нам сказать больше, чем раньше».

Другой частый аргумент против применения ИИ: в науке необходим творческий подход. А мы пока понятия не имеем, как научить компьютер творчеству. Некоторые ученые считают, что только человек может обладать творческим мышлением. Полстерер утверждает, что творческое мышление связано со скукой, а компьютеру вряд ли знакомо это чувство. С другой стороны, искусство такие программы, как Deep Blue и AlphaGo могут ассоциироваться с творческой деятельностью.

Недавно Шавински покинул науку и основал компанию Modulos для разработки ИИ и машинного обучения. Несмотря на возможные трудности, которые могут возникнуть при создании вполне развитого ИИ, он и другие эксперты считают, что машины смогут выполнять все больше работы за ученых.

Можно ли в обозримом будущем построить машину, которая сможет открывать законы физики или математики, недоступные пониманию умнейших людей? Будет ли будущее науки обязательно зависеть от машин, работающих на таком уровне, которого мы никогда не сможем достичь?

Никто пока не знает точного ответа на эти вопросы, но как только они появятся — «Системный Блокъ» об этом непременно напишет.

Источник: Dan Falk, How Artificial Intelligence Is Changing Science