Читать нас в Telegram
Иллюстрация: Надя Луценко

Мы уже писали о том, как биологи собирают и хранят огромные данные о биоразнообразии. Новый текст посвящён их использованию для оценки ареалов живых существ и прогнозов изменения окружающей среды.

Большие данные и методы искусственного интеллекта шагают по планете, завоёвывая всё новые области обыденной жизни и научных исследований. О том, как с этим дела у биологов, в «‎Системном Блоке»‎ уже есть ряд текстов: о сборе наблюдений растений и животных гражданскими учёными, вооружёнными iNaturalist, хранении фото в «‎цифровом гербарии» МГУ и нейросетях, которые эти растения определяют. В развитии этой темы мы опишем, как собранные данные помогают оценить ареалы распространения живых существ и предсказать их ответ на изменения в окружающей среде.

Машинное обучение в биологии

Современная биология генерирует большие данные (Big data), которые к тому же являются многомерными (multivariate), т. е. описывают живые организмы, экосистемы и прочие объекты исследования по множеству признаков. Примеры таких данных‎ — это последовательности ДНК, данные об активности генов, состав и географическое положение экологических сообществ и т. д. Справиться с Big data «‎голыми руками»‎, т. е. традиционными методами натуралистов и естествоиспытателей, уже не представляется возможным. Современный биолог, эколог или биогеограф должен быть ещё и дата-сайентистом: владеть анализом данных, использовать машинное обучение и знать основы статистики, чтобы отделять значимое от незначимого.

Именно представители биологии и смежных естественных наук были пионерами многих методик анализа данных — кластерного анализа, многомерного шкалирования и других. В наши дни они остаются в числе уверенных и продуктивных пользователей машинного обучения (ML). Яркий пример — моделирование пространственного распространения видов, или SDM (species distribution models) [1].

Species Distribution Models

SDM как тип статистических моделей реализован с помощью ML. Со стороны биологии моделирование опирается на концепцию экологической ниши. Этот непростой термин введён в научный оборот более века назад, но даже сейчас среди учёных представления о том, что такое экологическая ниша, очень разнятся.

Что такое экологическая ниша для SDM

Теоретическим обоснованием SDM стала трактовка «‎экологической ниши»‎, предложенная в 1957 г. Дж. Э. Хатчинсоном. Этот английский и американский зоолог, специалист по озёрам, назвал экологической нишей нечто хоть и умозрительное, но понятное на языке математики: область N-мерного пространства важных для данного вида экологических факторов (биотических, абиотических, антропогенных), которая соответствует пригодным для него местообитаниям. SDM помогает оценить теоретически доступные организму условия окружающей среды и далее найти области на карте — территории или акватории, — где следует ожидать искомое живое существо [2].

Рецепт SDM: локалитеты и предиктор

«‎Рецепт» SDM / Орлов М. А., Шелудков А. В.

Приступая к моделированию ареала вида, нам потребуется два главных «‎ингредиента». Первый — места фактического нахождения вида, где его ранее удалось заметить (локалитеты). Главный источник информации о локалитетах — огромное и глобальное хранилище данных о биоразнообразии GBIF; на март 2024 года в нём содержались 2,7 миллиарда наблюдений для 7,5 миллиона систематических групп (главным образом видов). Есть и другие крупные специализированные биологические базы данных, например WoRMS, посвящённая морским видам.

Второй ингредиент — переменные, описывающие условия окружающей среды: прежде всего климат (температурных режим и осадки), рельеф, почвы, существенные антропогенные факторы (предикторы). Такую информацию можно черпать из других баз данных — скажем, климатической CHELSA.

Заметим в скобках, что помимо локалитетов и предикторов необходимо базовое понимание сути метода — иначе исследование может превратиться в «‎танцы с бубном»‎, хотя и научным.

Разведочный анализ данных

Хорошей идеей будет провести разведочный (эксплораторный) анализ данных до построения модели: «‎пощупать»‎ датасет, убрать выбросы и избыточные, малоинформативные данные. Например, если наблюдения синиц тяготеют к Москве — это не признак того, что в Тверской области птицы селятся неохотно, а скорее знак обилия наблюдателей. В этом случае имеет смысл оставить лишь часть наблюдений — скажем, лишь одно на квадрат 10х10 км.

Выбираем признаки

Кластеризация и методы понижения размерности, как и оценка корреляции, помогут убрать из набора признаков слишком похожие друг на друга (коллинеарные). Можно также сконструировать новые, более информативные признаки на основе исходных. В вопросе такого «‎кастинга»‎ предикторов стоит руководствоваться биологическими соображениями: лимитирующими факторами, т. е. такими, которые ограничивают возможности вида в данной экосистеме. Ведь для одних важен химический состав почвы, для других — солнечная сторона холма, для третьих — наличие/отсутствие кормовой базы и видов-конкурентов.

Обучение модели

Обучение модели включает в себя стандартные шаги ML: разбивка выборки на тренировочную и тестовую, обучение с кросс-валидацией, корректировка параметров модели и оценка её качества по различным метрикам. Результат SDM — карта, которая показывает пригодность местообитания для вида по шкале от 0 до 1. Его также можно изобразить в виде N-мерной экологической ниши [3, 4].

Ансамблевое предсказание ареала обитания весеннего первоцвета — брандушки разноцветной (B. versicolor) на территории Воронежской области. Источник: Владимиров и др., 2023

Брандушка разноцветная (B. versicolor). Источник: Wikipedia

… где сидел, сидит и будет сидеть фазан? Для чего нам использовать SDM

SDM используется не только для оценки ареалов обитания отдельных видов, но и целых сообществ, уточнения границ природных зон и оценки биоразнообразия в современном климате, палеоклимате и для разных сценариев изменения климата в будущем. Например, в этой работе авторы анализируют потенциальное смещение границы лесов в России под влиянием изменения климата в XXI веке, а здесь с помощью SDM исследуют причины исчезновения крупных млекопитающих после окончания ледникового периода в Южной Америке. Подход не ограничен наземными видами и также применим в морских исследованиях.

Ограничения подхода SDM

Однако у подхода SDM есть несколько уязвимых сторон. Прежде всего стоит помнить, что SDM — это машинное обучение с учителем, и все общие принципы его использования справедливы при моделировании экологических ниш. Сейчас хорошим тоном считают использование ансамблевых предсказаний — таких, где разные модели работают сообща, чтобы минимизировать погрешности друг друга.

Редкость данных об отсутствии вида

Среди проблем с «‎биологической»‎ стороны вопроса — редкость данных об отсутствии вида. Как правило, модели строятся только по данным находок (presence-only) — ведь по такому принципу организованы базы данных живых существ, а отсутствие вида никто не отмечает. Поэтому точки отсутствия (background points) выбираются случайно, что неизбежно влияет на точность моделей.

Неоднородность в данных

Другая проблема — пространственная неоднородность в данных о находках: много наблюдений там, где много наблюдателей, в то время как целые географические области остаются неисследованными.

Наблюдения голожаберного моллюска Clione limacina в базе GBIF: локалитеты тяготеют к стандартным путям следования морских судов. © GBIF.org

Переоценивание в прогнозах

Третья проблема — модель напрямую не учитывает скорость и способы распространения видов, поэтому имеет тенденцию переоценивать ареалы их обитания, особенно в прогнозных исследованиях.

Есть множество подходов к тому, как решать эти проблемы со стороны статистики и со стороны экологии. На данный момент SDM остаётся одной из наиболее динамично развивающихся областей биогеографии.

Источники

  1. Кластерный анализ и дилемма биологического пользователя [Электронный ресурс]. URL: https://biomolecula.ru/articles/klasternyi-analiz-i-dilemma-biologicheskogo-polzovatelia (дата обращения 16.04.2024).
  2. Орлов М. А., Шелудков А. В. Как измерить экологическую нишу? Моделирование пространственного распространения (SDM) видов боярышника (Crataegus) Крымского полуострова. [Электронный ресурс]. URL: https://istina.msu.ru/publications/article/307844075/ (дата обращения 16.04.2024).
  3. Peng J., Jury E., Cuirtin C. Machine Learning Techniques for Personalised Medicine Approaches in Immune-Mediated Chronic Inflammatory Diseases: Applications and Challenges [Электронный ресурс]. URL: https://www.researchgate.net/publication/354960266_Machine_Learning_Techniques_for_Personalised_Medicine_Approaches_in_Immune-Mediated_Chronic_Inflammatory_Diseases_Applications_and_Challenges. (дата обращения 16.04.2024).
  4. Orlov M., Sheludkov A. Bioclimatic Data Optimization for Spatial Distribution Models. [Электронный ресурс]. URL: https://link.springer.com/chapter/10.1007/978-3-030-11720-7_13 (дата обращения 16.04.2024).