Новый год только начался, так что еще не поздно подвести итоги старого. Недавно в Цифровом гербарии МГУ мы вынесли на главную страницу несколько новых метрик, которые характеризуют нашу базу. Это прекрасный повод рассказать, какая работа стоит за этими цифрами. Но, прежде всего, нужно отметить, что Цифровой гербарий МГУ сегодня – это консорциум десяти российских гербариев, которые используют площадку для публикации изображений гербарных образцов и сопутствующей информации
Главная страница Цифрового гербария МГУ
Образцов: 1 347 746
Число образцов – это число записей в нашей базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке. У каждого образца есть ID – например, MW0123456 у образца примулы, собранной в 2011 г. в Забайкалье. Число образцов всегда немного больше, чем число изображений, поскольку на одном листе случайно могут оказаться растения двух разных видов, которые вносятся в базу как два разных образца.
Изображений: 1 324 716
Это число сканов гербарных образцов. По сути, библиотека изображений – это фундамент Цифрового гербария МГУ, а сама база – это набор метаданных, которые можно брать дистанционно непосредственно со сканов. Если в 2015 г. допускались образцы с разрешением 300 dpi (например, этот рогоз из Бурятии), то сейчас минимальный стандарт – 500–600 dpi. Ботаники при сборе коллекционного материала иногда делают фотографии тех же самых экземпляров в природе. Если раньше мы также хранили их в своей базе, то сейчас это проще делать на сторонних ресурсах, а затем автоматические системы по метаданным находят соответствующие пары. Но об этом чуть ниже.
Видов: 37 147
Цифровой гербарий МГУ – это биологическая база данных, а, значит, таксономическая принадлежность образцов к какому-либо виду является важнейшим полем в базе. Мы храним для каждого образца, как минимум, три названия: (1) название с оригинальной этикетки, указанное автором сбора; (2) название в коллекции, то есть стандартизированное название, которое используется в хранилищах того или иного учреждения; (3) принятое название, то есть текущее название из современных авторитетных баз данных. Например, у образца клевера, собранного на Валдае 90 лет назад, на этикетке написано Trifolium strepens (клевер шуршащий), название в коллекции – Chrysaspis aurea (златощитник золотистый), а принятое современное название – Trifolium aureum (клевер золотистый). Последнее название мы берем автоматически через API в Catalogue of Life, который, сам по себе, является агрегатором, собирающим на конкурсной основе данные из специализированных баз по разным группам организмов. Название иногда может меняться, вслед за выходом новейших исследований по систематике растений.
Геопривязок: 996 861
Пожалуй, наиболее проработанный блок данных в Цифровом гербарии МГУ. Его активное наполнение в последние четыре года шло по проекту «Атлас флоры России», поддержанному РНФ. Геопривязка – это установленная машиночитаемая метка на карте, где был собран тот или иной образец. На современных образцах координаты есть в этикетках. Для образцов 20–80-летней давности они легко устанавливаются по электронным картам. Для более старых образцов приходится работать с оцифрованными библиотеками старых карт, опубликованными трудами и архивными записями ботаников. Из одного миллиона геопривязок 80 % основаны на образцах из Гербария Московского университета. По этому показателю он занимает восьмое место в мире, уступая гербариям Миссури, Лейдена, Нью-Йорка, Пекина, Лунда, Канберры и Мельбурна.
Геоданные Гербария Московского университета – здесь почти 800 тысяч точек
Этикеток + OCR: 654 354 + 690 678
Поиск в интернете идёт по словам. Чем больше ключевых слов в метаданных, тем выше шанс, что нужный образец будет найден и использован. Создание корпуса транскрипций (расшифровок) этикеток – отдельная задача, при выполнении которой используются OCR, парсинг данных, почерковедческая экспертиза, атрибуция анонимных сборов, большой объем автоматических и полуавтоматических сверок и, наконец, контроль качества ввода. В итоге, для 49 % образцов Цифрового гербария МГУ текст этикеток введен в базу, а для остальных имеется только «грязная» OCR-расшифровка. Наша основная рабочая лошадка для OCR – это Tesseract. В целом, ввод этикеток – это длительный и трудозатратный процесс. Мы смогли заметно его оптимизировать, вводя, в первую очередь, данные о дате сбора и фамилию коллектора. В итоге, оператор получает для ввода структурированный массив, где образцы идут один за другим по дням работы какой-нибудь экспедиции. Это позволяет ускорить ввод и проверять неразборчивые места по соседним образцам.
Коллекторов: 18 821
На сегодняшний день в этикетках образцов участников консорциума Цифрового гербария МГУ отмечена 18 821 фамилия. Примерно четверть фамилий задокументирована всего один раз – это отдельные дублеты гербарных сборов, присланные из других гербариев по обмену, и неизбежные ошибки ввода. В рукописных этикетках именно написание фамилий чаще всего отличается неразборчивостью. Постепенная чистка этого блока позволяет унифицировать написание авторов независимо от алфавита, способов транслитерации и использования дореформенной азбуки в дореволюционных сборах. Пара «коллектор – дата» используется не только для ускорения ввода, но и для работы системы автоматической геопривязки ИСТРА.
Просмотров: 9 650 126
Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому мы точно знаем, что с момента запуска портала осенью 2016 года в среднем у нас набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту). Впрочем, эти цифры не включают несколько других способов просмотра наших образцов. Например, опен-версии, просмотр только скана, результатов поиска или GBIF-записи. По сути, те научные результаты, которые мы сами можем получить и опубликовать в виде статей – капля в море по сравнению с тем высоким внешним сетевым взаимодействием, которые имеется с создаваемой нами базой данных Цифрового гербария МГУ. Ещё 360 тысяч раз метаданные образцов были скачаны из GBIF.
Карт Атласа: 9 885
Раздел «Атлас флоры России» содержит сеточные карты по квадратам 100 на 100 км по видам природной флоры страны. Некоторые растения, по которым мало данных, пока в «Атлас» не попали. В открытом доступе сейчас размещены карты по 9 885 видам, в т.ч. по 355 чужеродным видам (голубые кружки), 441 культурному виду (синие кружки), 148 гибридам (жёлтые кружки) и 132 видам с неясным таксономическим статусом (оранжевые кружки). Кроме того, карты для 206 видов отнесены к категории «таксономическая смесь» (красные кружки). Эти версии карт сгенерированы С.В. Дудовым (МГУ) 14.03.2024 г. Заливка новых данных с апреля 2022 г. не проводилась, мы работаем пока со стабильной выгрузкой. Мы полностью завершили первый цикл чистки карт, однако продолжаем второй этап проверки надёжности отдельных указаний и уточнения границ вторичных ареалов.
Ответов в Помогаторе: 1 062 143
Пользуясь лучшими мировыми практиками, мы разработали платформу «Помогатор» для участия волонтёров в оцифровке метаданных образцов Цифрового гербария МГУ. Это игровой модуль Цифрового гербария МГУ для наших помощников и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь нам с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем к нам приходит от волонтёров по 1–1,5 тыс. ответов в день. Данные проходят через процедуру «двойного слепого ввода», т. е. попадают независимо нескольким участникам до совпадения двух ответов в каждой миссии. В мире известно только два удачных примера крупных волонтёрских программ по вводу гербарных данных – французский Les Herbonautes и американский iDigBio.
Ввод координат через «Помогатор» Цифрового гербария МГУ
Книг: 16 437
Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после кончины ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся. Мы готовим обновлённый интерфейс, перестраиваем базу и делаем новые личные кабинеты для зарегистрированных читателей.
Главная страница библиотеки А.Б. Шипунова «Флора и фауна»
Учреждений: 10
Уже 10 гербариев являются участниками консорциума Цифрового гербария МГУ. Изначально наш сайт был электронным каталогом коллекций Гербария Московского университета. Ещё в 2019 г. к нам присоединился большой Гербарий Главного ботанического сада РАН в Москве. Затем благодаря совместным проектам участниками консорциума стали Гербарий Кузнецкого ботанического сада СО РАН, Гербарий Иркутского гос. университета и четыре небольших тульских гербария. Последним участником в декабре 2024 года стал гербарий Сибирского федерального университета (г. Красноярск), который зеркалирует у нас коллекции со своего старого портала. Задача нашего проекта на ближайшие три года – вовлечение больших и малых российских гербариев в публикацию открытых данных о биоразнообразии.
GBIF-связей: 41 835
Это уникальная фича Цифрового гербария МГУ, внедрённая 1 ноября 2022 года. GBIF автоматически агрегирует сходные записи из разных массивов данных: например, дублеты того же сбора из разных гербариев (например, образец MW0602322 имеет дублет в Брно) или гербарный образец и основанный на нём сиквенс ДНК в генбанке. Алгоритмы поиска сходных записей постоянно совершенствуются, используя такие параметры как дата, фамилия автора, название вида, координаты и проч. Для удобства работы со связанными записями ссылки на них появились прямо в Цифровом гербарии МГУ. В середине октября 2022 года таких образцов с внешними связями было 28,5 тысячи. За два года благодаря заливке новых материалов, ввода сведений с этикеток и геопривязке число образцов с внешними связями составило 45,5 тысячи (т.е. выросло на 17 тысяч). Ссылки со «Связанными записями» ведут на страничку в GBIF, где агрегируется информация о самом образце и его дублетах, сопутствующих фотографиях, данных ДНК-банков и проч. Это на практике позволяет переходить к парадигме электронного метагербария (Davis, 2023).
Образцы Гербария Московского университета в GBIF
Связей с iNaturalist: 4 157
Кроме того, теперь нам не приходится вручную связывать сканы гербарных образцов и фотонаблюдения на iNaturalist, сделанных в момент сбора – наша система делает это автоматически. Например, весной 2024 года я собрал в Турции в гербарий необычный злак, разместив его фотографию на iNaturalist. Оказалось, что это Cornucopiae cucullatum, который по современным данным молекулярно-генетических исследований является представителем рода лисохвост. Фотонаблюдение было опубликовано в середине апреля, образец был оцифрован в октябре 2024 года и после синхронизации данных с GBIF, два элемента одного научного факта встретились и надёжно связались в одну метазапись.
Помощников: 284
Это число участников, которые, зарегистрировавшись в «Помогаторе», участвуют в наполнении базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники. Модуль «Помогатор», изначально созданный для волонтёрской помощи, оказался исключительно полезным инструментом в нашей ежедневной работе. В него мы перенесли все процедуры по индексации первичных метаданных, которые в обязательном порядке загружаются в базу вместе с изображением образца – район гербария, страна, дата сбора, коллектор, название с этикетки, регион России, координаты с этикеток (для образцов, собранных до 1940 г., также вводится исторический «назаровский номер»). Каждый из этих параметров получил статус отдельной миссии. Оказалось, что сотрудникам гербария удобнее вводить первичные метаданные именно через волонтёрский модуль, поэтому концепция «волонтёр работает вместо нас» в первые же дни трансформировалась в концепцию «волонтёр работает вместе с нами».
Типов в MW: 5 155
Число типовых образцов – предмет исключительной гордости каждого гербария. Это те образцы, по которым ботаники описывали новые виды или более мелкие внутривидовые таксоны. По сути, это эталоны, по которым следует сверяться для аутентичного понимания, какое именно растение фигурировало, например, под названием Salix alba, когда его в 1753 году описал Карл Линней. Иногда переисследование типовых образцов приносит неожиданные сюрпризы, а их утрата влечёт несколько обязательных номенклатурных действий по выбору и публикации нового типа. В Гербарии Московского университета хранится свыше 5000 типовых образцов, а сотрудники университета каждый год описывают примерно по 10 новых видов. В основном, из тропиков и субтропиков Азии.