Читать нас в Telegram
Иллюстратор: Александра Комарова

Переход «в цифру» — уже давно не новость для различных коллекций. Множество музеев мира готовы принять посетителей в своих виртуальных стенах, библиотеки предоставляют открытый доступ к нужным книгам через интернет.

Не стали исключением и гербарии — научные коллекции засушенных растений по всему миру. И не зря. Ведь оцифровка коллекций — это не только «получение картинок», но и обработка и получение огромных массивов ботанической информации, большой шаг в эпоху больших данных для коллекций растений. Сегодня ботаника развивается в том числе и за счет обобщений крупных массивов информации, приемов математического моделирования и матстатистики.

Как оцифровывали гербарий МГУ

Для второго по величине гербария нашей страны — коллекции МГУ имени М. В. Ломоносова переход на новый уровень начался еще в 2015 году. И к 2020 году мы имеем большой структурированный портал, который помогает ботаникам из любой точки мира.

Рис. 1. Примеры гербарных образцов из коллекции МГУ имени М. В. Ломоносова, опубликованных на портале Цифрового гербария. В правом верхнем углу располагаются штрихкоды — уникальные идентификаторы каждого образца в коллекции

Так что же получили ученые в итоге этой трудоемкой и длительной работы?

  1. Доступность более чем 1 млн. изображений растений из любой точки мира.
  2. Базу метаданных, которая также открыта для запросов ученых и представляет собой классический образец больших данных. И если отсканированные картинки — это наиболее видимый результат, то база данных цифрового гербария — это очень важная и ценная часть проекта именно с точки зрения возможностей анализа информации.
  3. У каждого образца появился уникальный идентификатор — стало гораздо проще ссылаться на нужные образцы в своих статьях
  4. Привязки к карте для более чем 50% образцов. Это очень ценная информация. Вопрос «где растет этот вид» — один из базовых в ботанике и по сей день не теряет актуальности, ведь в изменяющихся под влиянием человека условиях еще важнее знать «где что растет», чтобы потом можно было спрогнозировать «а будет ли расти там и там при таких и таких условиях». И здесь в игру вступает информация с этикеток гербария и ее «привязка» к карте.

    Вплоть до 1990-х годов для составления гербариев GPS системы практически не использовались, и места сбора растений отмечали как «5 км к ЮВ от деревни X». Чтобы найти по словесным описаниям точку на современной карте требуется много времени и сил. Один человек за рабочий день может «привязать» от 50 до 300 точек.

    В базе гербария МГУ таких точек уже 578063. Для их определения, помимо ручного труда, людям помогал специально настроенный алгоритм. Система группировала образцы, собранные в один день одним и тем же человеком и экстраполировала на эту группу геопривязку, если она имелась хотя бы для одного образца из группы.

    Конечно, такая привязка не столь точна, как «ручная», но она тем не менее позволила уточнить расположение мест сбора многих тысяч растений. Такие автоматические привязки помечены в системе отдельным значком.
  5. Названия растений на портале синхронизированы с международной базой данных названий «Catalogue of Life». Можно сразу посмотреть не только актуальное название растения, но и его положение в системе растительного мира и возможные синонимы.
  6. Распознаны тексты этикеток (в том числе рукописных) для почти половины образцов
Рис.2. Пример этикетки гербарного образца

7. Гибкая система поиска позволяет найти нужное растение за пару минут, используя самые разные параметры: от названия растения до даты сбора образца.

Конечно же гербарий МГУ существует и в оффлайн формате. Образцы XVIII-XXI веков хранятся в специальных шкафах и ждут заинтересованных специалистов.

Рис. 3. Образцы привычных нам липы сердцелистной (слева) и клена Гиннала (справа) конца XIX из коллекции Цифрового гербария МГУ.

Однако перевод в цифровую форму открыл гербарий не только для пользователей со всего мира, но и сделал возможным детальный анализ данных по разнообразию и географии растений. Ну а в периоды дистанционной работы гербария из-за пандемии его онлайн-портал — это единственная возможность ознакомиться с образцами и получить данные для своей курсовой, диссертации, научной статьи.

Источники:

Научные статьи про Цифровой гербарий МГУ:

  • Серегин А. П. Цифровой гербарий МГУ-крупнейшая российская база данных по биоразнообразию //Известия Российской академии наук. Серия биологическая. – 2017. – №. 6. – С. 610-616.
  • Серегин А. П. Гербарий Московского университета (MW) сегодня: фонды, онлайн доступ и научная работа //Ботанический журнал. – 2017. – Т. 102. – №. 3. – С. 281-308.
  • Alexey S. Moscow Digital Herbarium: OCR-mining of the text data for the Russia¨ s largest biodiversity database //INFORMATION TECHNOLOGIES IN THE RESEARCH OF BIODIVERSITY (BIT-2018). – 2018. – С. 88-89.
  • Seregin A. P. The largest digital herbarium in Russia is now available online! //Taxon. – 2018. – Т. 67. – №. 2. – С. 465-467.
  • Seregin A. P. Making the Russian flora visible: fast digitisation of the Moscow University Herbarium (MW) in 2015 //Taxon. – 2016. – Т. 65. – №. 1. – С. 205-207.