Читать нас в Telegram

Последние несколько дней я судорожно обдумывал о чём написать первую заметку. Ответ пришёл утром на почту: у нас только что вышла статья в Biodiversity Data Journal (Seregin, Basov, 2021), которая полностью выполнена на стыке двух передовых областей знания – biodiversity informatics и digital humanities. Из книжки «Флора Владимирской губернии», опубликованной в 1902 г., мы выудили около 9000 находок отдельных видов растений, смогли надёжно привязать их к карте, а созданный датасет перевести в формат DarwinCore и выложить его в GBIF, включив ботанические находки 19 века в современный круговорот данных о биоразнообразии.

История этой статьи длинная, что может легко превратиться в сериал. Так что постараюсь быть кратким.

В конце 1990-х годов я-старшеклассник, узнав о передовом опыте Западной Европы по изучению флоры, задумал разделить всю Владимирскую область на квадратики по 100 квадратных километров и обойти их. Зачем? Найти в каждом квадратике всё, что там растёт, записать в блокнотик (нет, стоп, в полевой дневник), и получить карты распространения всех видов. Плюс добавить к этому мудрость предков в виде данных из литературы, отдельных сохранившихся рукописей и обширных гербарных коллекций, которые хранятся в Москве и Санкт-Петербурге. Идея оказалась супер-продуктивной, сама работа заняла 15 лет и стала в итоге моей докторской диссертацией.

В общем, в 1998 и 1999 гг. я вечерами пропадал в краеведческом отделе Владимирской областной библиотеки, аккуратно выписывая в тонкие розовые тетрадочки всё, что отмечали ботаники прошлого в том или ином квадрате. Особенно выдающимся источником оказалась «Флора Владимирской губернии» Александра Фёдоровича Флёрова (1902). Будучи студентом Императорского Московского университета, он несколько лет ходил (ну, иногда, конечно, в телеге ездил) по просторам своей родины, аккуратно записывая встреченные им виды. Делал он это с чётким научным подходом, составляя, по сути, геоботанические описания (списки видов по описанным растительным сообществам). В довесок к этому, как и все ботаники, собирал гербарий. Получился фундаментальный труд, который после публикации был зачтён ему и как магистерская, и как докторская диссертации.

Итак, для сотен отдельных пунктов Владимирской губернии в книге Флёрова имелись обширные списки встреченных им видов. Все они аккуратно были привязаны к квадратам моей сетки и, позднее, вошли в таблички, легшие в основу атласа (Серегин, 2012).

Но наука не стоит на месте. И привязка данных к центроидам квадратов уже анахронизм в условиях, когда точных данных становится очень много. Если квадрат 10 на 10 км, то круг радиусом 7 км накрывает его целиком. Значит, координаты находки – это координаты центра квадрата, а точность равна 7 км. Так себе точность. Стало понятным, что спустя годы необходимо ещё раз ввести данные Флёрова по Владимирской губернии в оборот, попробовав установить максимально точно места, где он описывал те или иные сообщества.

В 2021 г. исходники для такой работы уже не такие, как в 1998 г.: скан книги Флёрова, современные спутниковые снимки, десятки старинных оцифрованных карт, оцифрованный в МГУ гербарий Флёрова. Плюс к этому добавилось мои 10000 км пеших маршрутов по тем же местам, где бывал когда-то Флёров.

Первая трудность возникла сразу: ocr никак не съедал без ошибок тот шрифт, что был использован в книжке Флёрова для списков латинских названий. Ресканы с большим разрешением не помогали. Туда – сюда, стало ясно, что объем данных не такой большой, чтобы самому делать обучение модели для распознавания именно этого шрифта. Проще было перенабрать столбики со списками видов, тем более, что богатство владимирской флоры у Флёрова невелико – не более 900 видов, небольшая часть которых будет регулярно повторяться в описаниях, ускоряя ввод.

Фрагмент стр. 197 «Флоры Владимирской губернии» А.Ф. Флёрова. Ныне «на высоком, плоском, со слабыми волнистыми очертаниями холме за с. Красное» расположены многоэтажки городской застройки областного центра.

Обратившись к сообществу научных волонтёров проекта «Флора России» на iNaturalist с коротким описанием задачи, я спустя несколько минут (!) получил ответ от Юрия Басова из Тюмени, который работает в сфере экологических изысканий. По вечерам и выходным Юрий за три недели ввёл списки видов «в столбик» – получилось что-то около 10 тыс. строк. Это стало первой неожиданностью, поскольку предварительные расчёты показывали, что их будет чуть больше 5 тыс.

Параллельно я делал геопривязки мест, где были сделаны те или иные описания. Главное было достоверно найти место, где работал Флёров, но ещё более важной задачей – адекватно оценить точность выполняемой геопривязки. Вот примеры мест, которые я не смог найти:

  • «Чертеновское» болото (сфагновое), расположенное в небольшой котловине (1 1/2 версты), около границ с Александровским уездом (ещё в 1950-е гг. на этом болоте, судя по отчётам геологов, вели разведку на торф, но карт его местонахождения не сохранилось);
  • урочище «Гремяч», на поруби елового леса (это где-то под Александровым);
  • на склонах «под Волотами» (это где-то на Оке, скорее всего около Дмитриевых гор).

Впрочем, была и очень хорошая новость: я не смог найти всего три места. Остальные пункты напротив каждой записи в базе постепенно получали широту, долготу и радиус точности.

Вот, какая точность достижима, когда человек словами описывает, где он был? Вот пример из Флёрова: «между ст. Второво и Тереховицы, обширные сфагновые болота, около озерка Малое». Из контекста (по списку видов) ясно, что перечисленные растения росли прямо на берегу этого озерка. Несмотря на разработку торфа, озерко сохранилось, обнаружимо по спутниковым снимкам, хорошо известно местным, а его диаметр всего 120 метров. Точку ставим в центр озера и кружком радиусом 80 метров надёжно накрываем все берега озера, где бывал ещё Флёров. В итоге, для 28% находок точность составила меньше 1000 м, а для 68% – меньше 2000 м. Это фантастический результат для данных конца 19-го века, который мы совсем не ожидали.

Но были и трудные случаи. Так, в заклязьминской части Вязниковского и Гороховецкого уездов среди обширных дюнных боров Фролищевой низины затаились десятки больших и малых озёр. Почвы бедные, деревень на десятки вёрст нет. Ещё 125 лет назад адекватной карты этой местности совсем не было. Флёров увлеченно описывает, что вот этого озера, указанного на такой-то карте, вообще нет, другое есть, но не там, третье подписано четвёртым, а четвёртое озеро состоит из двух. Так что приходилось, лишь догадываться, зная точку A и точку Б, что такое «продолговатое озеро, сильно заболоченное, разделившееся на две неравные половины» между ними, когда ни на спутниковом снимке, ни на местности тут вообще не оказывалось озёр.

Карта маршрутных описаний А.Ф. Флёрова. Здесь 367 точек (источник: Seregin, Basov, 2021).

Работа, почти детективная, привела к тому, что 494 флористических описания мы привязали к 367 точкам. Точек заметно меньше, поскольку, например, между двумя деревнями (ставим точку между ними, а за точность берем половину расстояния) Флёров мог описать два луговых сообщества и одно придорожное. В итоге мы залили в GBIF массив данных, в котором 8889 находок отдельных видов, в том числе 8852 с координатами.

Всё это теперь лежит в машиночитаемом виде в свободном доступе в GBIF и доступно для исследования динамики биоразнообразия пяти областей Средней России, которые когда-то полностью или частично входили в состав Владимирской губернии. Флёров goes digital.

На обложке: Александр Федорович Флёров