Агрегаторы биологических данных появились не так давно, но благодаря ним биология стала гораздо ближе к анализу данных. Теперь каждый ученый может получить миллионы записей из биологических баз на свой компьютер. Рассказываем про главные базы данных о биоразнообразии. По неслучайному совпадению очередная биологическая статья «Системного Блока» выходит в день рождения великого Н. Н. Дроздова :)
Получить базу из 100 тыс. записей за пять минут на домашний компьютер? Еще 20 лет назад для ученых-биологов это было в области сказок. Если нужны данные в дополнение к своим — езди по коллекциям (в разных городах!), договаривайся со знакомыми коллегами, переписывай вручную из книжек. Сейчас же — пять минут настройки фильтров, и множество записей уже ждут аналитической обработки. И с каждым годом объемы и типы доступной информации только возрастают. Найти их можно в базах данных биоразнообразия (biodiversity database).
Уже создано большое число таких порталов, каждый из которых работает с определенными темами. Так, можно выделить таксономические базы и базы «коллекционные». Первые включают информацию о положении таксона в системе живого мира, валидных названиях, синонимах и родственных связях между таксонами (например, TROPICOS). Вторые работают на уровне отдельных организмов и предоставляют информацию о их распространении, внешних признаках. Сюда же включены фотографии, записи голосов птиц, видео, последовательности ДНК и пр. Такие базы можно разделить на «оцифрованные коллекции» и на «агрегаторы». Примером оцифрованных коллекций может служить портал Цифрового гербария МГУ имени М. В. Ломоносова. В рамках проекта отсканировано более 1 млн гербарных образцов с конца XIX века до наших дней, а также проведена оцифровка этикеток (каждое засушенное растение в научном гербарии снабжается этикеткой: где собрано, кем и когда). Для 571 956 образцов сделана геопривязка к карте.
Агрегаторы пополняются разными людьми и организациями. У каждого проекта свои требования к типам данных, их региональной приуроченности и т. д. Примером может служить GBIF — база по распространению всех видов живых организмов. Она насчитывает 1 411 011 811 записей из 53 090 датасетов*. Скачать их может любой — достаточно пройти регистрацию на портале. А вот добавлять можно лишь от лица научных организаций и в определенном формате.
Некоторые порталы собирают данные более локальных проектов. Таков, например, Catalog of Life, который аккумулирует записи из 171 базы. К этой же категории относится и The Encyclopedia of Life. Для интересующих таксонов там можно посмотреть и распространение (из GBIF), и значения отдельных признаков (из TRY-database), и еще ряд параметров.
Для того, чтобы выбрать наиболее полезную лично вам базу данных, необходимо определиться с несколькими пунктами:
Большинство международных сайтов ведется на английском языке, поэтому для наиболее релевантного поиска таких порталов лучше пользоваться поиском Google и вводить запрос на английском.
Ниже приведено несколько порталов, которые могут быть интересны не только ученым, но и всем любителям живой природы.
*Все показатели баз приводятся на 21.05.2020.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…