Мы уже писали о том, как биологи собирают и хранят огромные данные о биоразнообразии. Новый текст посвящён их использованию для оценки ареалов живых существ и прогнозов изменения окружающей среды.
Большие данные и методы искусственного интеллекта шагают по планете, завоёвывая всё новые области обыденной жизни и научных исследований. О том, как с этим дела у биологов, в «Системном Блоке» уже есть ряд текстов: о сборе наблюдений растений и животных гражданскими учёными, вооружёнными iNaturalist, хранении фото в «цифровом гербарии» МГУ и нейросетях, которые эти растения определяют. В развитии этой темы мы опишем, как собранные данные помогают оценить ареалы распространения живых существ и предсказать их ответ на изменения в окружающей среде.
Машинное обучение в биологии
Современная биология генерирует большие данные (Big data), которые к тому же являются многомерными (multivariate), т. е. описывают живые организмы, экосистемы и прочие объекты исследования по множеству признаков. Примеры таких данных — это последовательности ДНК, данные об активности генов, состав и географическое положение экологических сообществ и т. д. Справиться с Big data «голыми руками», т. е. традиционными методами натуралистов и естествоиспытателей, уже не представляется возможным. Современный биолог, эколог или биогеограф должен быть ещё и дата-сайентистом: владеть анализом данных, использовать машинное обучение и знать основы статистики, чтобы отделять значимое от незначимого.
Именно представители биологии и смежных естественных наук были пионерами многих методик анализа данных — кластерного анализа, многомерного шкалирования и других. В наши дни они остаются в числе уверенных и продуктивных пользователей машинного обучения (ML). Яркий пример — моделирование пространственного распространения видов, или SDM (species distribution models) [1].
Species Distribution Models
SDM как тип статистических моделей реализован с помощью ML. Со стороны биологии моделирование опирается на концепцию экологической ниши. Этот непростой термин введён в научный оборот более века назад, но даже сейчас среди учёных представления о том, что такое экологическая ниша, очень разнятся.
Что такое экологическая ниша для SDM
Теоретическим обоснованием SDM стала трактовка «экологической ниши», предложенная в 1957 г. Дж. Э. Хатчинсоном. Этот английский и американский зоолог, специалист по озёрам, назвал экологической нишей нечто хоть и умозрительное, но понятное на языке математики: область N-мерного пространства важных для данного вида экологических факторов (биотических, абиотических, антропогенных), которая соответствует пригодным для него местообитаниям. SDM помогает оценить теоретически доступные организму условия окружающей среды и далее найти области на карте — территории или акватории, — где следует ожидать искомое живое существо [2].
Рецепт SDM: локалитеты и предиктор
«Рецепт» SDM / Орлов М. А., Шелудков А. В.
Приступая к моделированию ареала вида, нам потребуется два главных «ингредиента». Первый — места фактического нахождения вида, где его ранее удалось заметить (локалитеты). Главный источник информации о локалитетах — огромное и глобальное хранилище данных о биоразнообразии GBIF; на март 2024 года в нём содержались 2,7 миллиарда наблюдений для 7,5 миллиона систематических групп (главным образом видов). Есть и другие крупные специализированные биологические базы данных, например WoRMS, посвящённая морским видам.
Второй ингредиент — переменные, описывающие условия окружающей среды: прежде всего климат (температурных режим и осадки), рельеф, почвы, существенные антропогенные факторы (предикторы). Такую информацию можно черпать из других баз данных — скажем, климатической CHELSA.
Заметим в скобках, что помимо локалитетов и предикторов необходимо базовое понимание сути метода — иначе исследование может превратиться в «танцы с бубном», хотя и научным.
Разведочный анализ данных
Хорошей идеей будет провести разведочный (эксплораторный) анализ данных до построения модели: «пощупать» датасет, убрать выбросы и избыточные, малоинформативные данные. Например, если наблюдения синиц тяготеют к Москве — это не признак того, что в Тверской области птицы селятся неохотно, а скорее знак обилия наблюдателей. В этом случае имеет смысл оставить лишь часть наблюдений — скажем, лишь одно на квадрат 10х10 км.
Выбираем признаки
Кластеризация и методы понижения размерности, как и оценка корреляции, помогут убрать из набора признаков слишком похожие друг на друга (коллинеарные). Можно также сконструировать новые, более информативные признаки на основе исходных. В вопросе такого «кастинга» предикторов стоит руководствоваться биологическими соображениями: лимитирующими факторами, т. е. такими, которые ограничивают возможности вида в данной экосистеме. Ведь для одних важен химический состав почвы, для других — солнечная сторона холма, для третьих — наличие/отсутствие кормовой базы и видов-конкурентов.
Обучение модели
Обучение модели включает в себя стандартные шаги ML: разбивка выборки на тренировочную и тестовую, обучение с кросс-валидацией, корректировка параметров модели и оценка её качества по различным метрикам. Результат SDM — карта, которая показывает пригодность местообитания для вида по шкале от 0 до 1. Его также можно изобразить в виде N-мерной экологической ниши [3, 4].
Ансамблевое предсказание ареала обитания весеннего первоцвета — брандушки разноцветной (B. versicolor) на территории Воронежской области. Источник: Владимиров и др., 2023
Брандушка разноцветная (B. versicolor). Источник: Wikipedia
… где сидел, сидит и будет сидеть фазан? Для чего нам использовать SDM
SDM используется не только для оценки ареалов обитания отдельных видов, но и целых сообществ, уточнения границ природных зон и оценки биоразнообразия в современном климате, палеоклимате и для разных сценариев изменения климата в будущем. Например, в этой работе авторы анализируют потенциальное смещение границы лесов в России под влиянием изменения климата в XXI веке, а здесь с помощью SDM исследуют причины исчезновения крупных млекопитающих после окончания ледникового периода в Южной Америке. Подход не ограничен наземными видами и также применим в морских исследованиях.
Ограничения подхода SDM
Однако у подхода SDM есть несколько уязвимых сторон. Прежде всего стоит помнить, что SDM — это машинное обучение с учителем, и все общие принципы его использования справедливы при моделировании экологических ниш. Сейчас хорошим тоном считают использование ансамблевых предсказаний — таких, где разные модели работают сообща, чтобы минимизировать погрешности друг друга.
Редкость данных об отсутствии вида
Среди проблем с «биологической» стороны вопроса — редкость данных об отсутствии вида. Как правило, модели строятся только по данным находок (presence-only) — ведь по такому принципу организованы базы данных живых существ, а отсутствие вида никто не отмечает. Поэтому точки отсутствия (background points) выбираются случайно, что неизбежно влияет на точность моделей.
Неоднородность в данных
Другая проблема — пространственная неоднородность в данных о находках: много наблюдений там, где много наблюдателей, в то время как целые географические области остаются неисследованными.
Наблюдения голожаберного моллюска Clione limacina в базе GBIF: локалитеты тяготеют к стандартным путям следования морских судов. © GBIF.org
Переоценивание в прогнозах
Третья проблема — модель напрямую не учитывает скорость и способы распространения видов, поэтому имеет тенденцию переоценивать ареалы их обитания, особенно в прогнозных исследованиях.
Есть множество подходов к тому, как решать эти проблемы со стороны статистики и со стороны экологии. На данный момент SDM остаётся одной из наиболее динамично развивающихся областей биогеографии.
Источники
- Кластерный анализ и дилемма биологического пользователя [Электронный ресурс]. URL: https://biomolecula.ru/articles/klasternyi-analiz-i-dilemma-biologicheskogo-polzovatelia (дата обращения 16.04.2024).
- Орлов М. А., Шелудков А. В. Как измерить экологическую нишу? Моделирование пространственного распространения (SDM) видов боярышника (Crataegus) Крымского полуострова. [Электронный ресурс]. URL: https://istina.msu.ru/publications/article/307844075/ (дата обращения 16.04.2024).
- Peng J., Jury E., Cuirtin C. Machine Learning Techniques for Personalised Medicine Approaches in Immune-Mediated Chronic Inflammatory Diseases: Applications and Challenges [Электронный ресурс]. URL: https://www.researchgate.net/publication/354960266_Machine_Learning_Techniques_for_Personalised_Medicine_Approaches_in_Immune-Mediated_Chronic_Inflammatory_Diseases_Applications_and_Challenges. (дата обращения 16.04.2024).
- Orlov M., Sheludkov A. Bioclimatic Data Optimization for Spatial Distribution Models. [Электронный ресурс]. URL: https://link.springer.com/chapter/10.1007/978-3-030-11720-7_13 (дата обращения 16.04.2024).