“Наш путь”. Как ботаники АлтГУ дошли от гербария до искусственного интеллекта

. Фото: архив Алексея Ваганова
Алексей Ваганов рассказал, что можно собрать немного данных в природной среде и сделать прогноз на всю территорию

Алексей Ваганов – проректор по научному и инновационному развитию Алтайского госуниверситета, кандидат биологических наук, доцент кафедры ботаники и ведущий научный сотрудник Южно-Сибирского ботанического сада. Недавно он защитил докторскую диссертацию и в составе коллектива ученых получил премию Алтайского края за работу “Цифровой мониторинг растительных ресурсов Алтая на основе больших данных”.

В интервью “Атмосфере” Алексей Владимирович рассказал, как ботаники изучали флору раньше, и как это делается сейчас, зачем оцифровывают гербарии, в чем биологам помогает искусственный интеллект и почему, изучив растительный мир горных районов, можно получить представление о половине флоры России.

“Изучив Кавказ, Алтай и юг Дальнего Востока, мы можем охватить половину флоры России”

- Алексей Владимирович, я читал, что в АлтГУ один из лучших гербариев в России. Это так?

- Да, действительно. Гербарий для ботаника – это основа, это базовый эмпирический материал, на котором выстраивается изучение флоры, растительности. В нашей стране самый крупный в гербарий в Ботаническом институте РАН в Санкт-Петербурге, на втором месте МГУ. Наш гербарий на седьмом месте в России в общем числе, а среди университетских гербариев он на четвертом месте. Это благодаря тому, что Алтай очень богатый в части биологического разнообразия регион и долгое время действует амбициозный коллектив ботаников под руководством Александра Ивановича Шмакова (доктор биологических наук, профессор, директор Южно-Сибирского ботанического сада. – “Атмосфера”.). На территории трансграничного Алтая произрастает около 2700 видов растений.

- Под Алтаем вы имеете в виду не только субъект Федерации Алтайский край?

- Да, мы рассматриваем Большой Алтай в части Алтайской горной страны. Гербарий в первую очередь собран с этой территории.

Почему возник интерес к Алтайской горной стране? Флора России складывается из горячих зон распространения растений. Горячие зоны – это места, в которых больше всего сконцентрировано биологическое разнообразие. В высокогорных зонах больше всего видов животных и растений. Следовательно, изучив Кавказ, Алтай и юг Дальнего Востока, мы можем охватить половину флоры России. Равнинные районы более бедные, к ним интерес меньше. Лучше взяться за более сложные задачи, потом и все остальные территории подтянутся. Западная Сибирь в целом по флоре в три раза беднее, чем Алтай. Несмотря на то, что территория в разы больше – на степных и равнинных участках представленность видов ниже.

- В каких численных показателях можно охарактеризовать гербарий Алтайского госуниверситета?

- В собрании университета более 450 тысяч гербарных экземпляров. Может быть по несколько экземпляров одного вида из разных точек произрастания. Всего в Алтайской горной стране около 2700 видов растений.

Изначально гербарий формировался ботаниками и хранился в разрозненных коллекция. Первым куратором гербария университета была Надежда Васильевна Ревякина (доктор биологических наук, профессор. – “Атмосфера”.). Затем Ботанический институт РАН сформировал запрос на подготовку издания “Флора России”, и начались масштабные экспедиционные исследования Южно-Сибирского ботанического сада.

Фото: архив Алексея Ваганова

“На Алтае по моей тематике только один объект”

- Я смотрел одно из ваших интервью, и вы рассказывали, что в гербарии растение должно быть представлено со все ми органами – листьями, стеблем, цветами или плодами, корневой системой. А как быть с деревьями?

- Я, кстати, такой вопрос иногда задаю студентам. Крупные растения в гербарии делятся на несколько листов. От дерева берутся цветущие либо плодоносящие ветви и срез коры. Кора – это идентификационный признак. А корни у деревьев не берутся, потому что они не являются диагностическими признаками.

- Вы назвали количество видов растений, которые встречаются в Алтайской горной стране. А новые виды еще открывают, или все уже известно?

- Открывают. У нас еще много белых пятен. Примерно с 1995 года открыто около 150 видов растений.

- А в вашем, если можно так сказать, портфолио есть открытые виды?

- Да, у меня есть папоротник, который описан совместно с моим научным консультантом. Это папоротник с Дальнего Востока, мы назвали его в честь академика Петра Григорьевича Горовова (советский и российский ботаник, заведующий лабораторией хемотаксономии растений Тихоокеанского института биоорганической химии ДВО РАН. – “Атмосфера”.). Моя тематика – папоротники, это Евразия и Юго-Восточная Азия, на Алтае по моей тематике только один объект.

Фото: архив Алексея Ваганова

“Нужно изучать биоразнообразие независимо от административных и политических границ”

- Сейчас все источники информации – книги, газеты, документы, появившиеся, если можно так сказать в докомпьютерную эру, оцифровываются. А что с гербариями?

- Работа по оцифровке гербариев ведется давно. Вообще, еще когда были только пленочные фотоаппараты, многие исследователи привозили отфотографированный материал и делали фототеку гербарных листов. Иногда достаточно только подтвердить, что растение присутствует на какой-то территории – в бассейне реки, на горном хребте, в регионе.

Когда появились цифровые фотоаппараты, то снимали общий вид и иногда делали макросъемку. Уже локально начинали появляться базы данных. Некоторые научные коллективы и сейчас пользуются именно фотоаппаратами. Японские ботаники, например, до сих пор их используют. Но уже появились специальные сканеры, в которых головка находится сверху и на расстоянии. Это очень важно, потому что растение на гербарном листе хрупкое и его нельзя переворачивать и прижимать.

С развитием интернета ученые стали понимать, что в разных университетах и институтах накопились большие данные. Исследователи тратят деньги и время, чтобы поехать и поработать с этим материалом, а технологии уже предоставляют возможность отсканировать с хорошим качеством и предоставить удаленный доступ. Так у большинства научных коллекций стали появляться свои базы данных с открытым доступом.

Все делали эти базы по-своему, кто как придумает, исходя из имеющихся возможностей. В 1995 году Россия ратифицировала Конвенцию о биологическом разнообразии. Эта конвенция гласит, что нужно изучать биоразнообразие независимо от административных и политических границ, потому что оно едино. И в 1998 году возникла идея создания единой системы, в которой будут храниться данные.

ООН сделала заказ на разработку глобальной информационной сети по биоразнообразию. Был разработан единый стандарт, его назвали дарвин-кор (Darwin Core). По сути, это электронная таблица с единым наименованием столбцов - координаты, место сбора, автор, семейство, род, вид и так далее. Всего более 200 наименований столбцов, все зависит от того, какими исследованиями занимается ученый. Ученые стали загружать туда информацию. Это облако с очень большим расчетом, и каждый может в нем поработать. К данным в таблице прилагается отсканированный гербарный образец.

Фото: архив Алексея Ваганова

“Система обработала три миллиарда записей, нашла один миллион 365 тысяч записей по одуванчику”

- Алтайские ботаники тоже участвуют в этой работе?

- Конечно. Обычно исследователи собирают то, что у них в экспедиционной доступности. Мы ведем сборы на территории Алтайского края и Алтайской горной страны и по этим территориям предоставляем данные.

- Какой процент университетского гербария уже оцифрован?

- Сейчас больше 15 процентов – более 60 тысяч листов из 450 тысяч. Из оцифрованных – 65 процентов с геопривязкой.

- А как выглядит глобальная информационная сеть?

- Сейчас в глобальной информационной сети по биоразнообразию более трех миллиардов записей. А в 2019 году только перевалили за миллиард! Видите, как экспоненциально идет развитие. Причем, сначала в эту базу вносились записи из коллекций, затем коллекции вышли на плато – все что можно уже оцифровали, а сейчас уже очень много записей из природной среды.

Вот, допустим, я набираю “одуванчик - Taraxacum”. Система обработала три миллиарда записей, нашла один миллион 365 тысяч записей по одуванчику. Это произошло за три секунды. И на выдаче сначала записи из природной обстановки, а потом из коллекций.

“Очень большое влияние оказывает так называемая гражданская наука”

- То есть, теперь в экспедиции вы не только собираете гербарий в классическом виде, но и фотографируете?

- Да. Мы всегда собираем гербарий, но когда встречаются действительно редкие, эндемичные виды, которые присутствуют в минимальном количестве, чтобы не уничтожать популяцию, лучше делать фотофиксацию.

Кстати, очень большое влияние оказывает так называемая гражданская наука - citizen science – за рубежом. Люди на смартфон устанавливают приложение iNaturalist и когда едут на природу, могут фотографировать растения и отправлять фотографии в базу. Причем происходит двойная идентификация. Вы сделали фотографию, выбираете поле, и компьютерное зрение определяет, какой это род и вид иногда до 100 процентов точности.

- Что-то типа распознавания лиц?

- Да, но только распознавание растений. После компьютерного зрения фотография уходит на вторую идентификацию – к эксперту. Например, кто-то занимается фиалками, и ему прилетает наблюдение из природной среды с фотографиями фиалки и координатой, сделанными волонтером гражданской науки. Ученый подтверждает по диагностическим признакам, что это фиалка. После этого фотография попадает в базу данных. Есть ученые, которые потом используют эти данные в своих статьях.

- А что дают эти данные? Уточняется ареал распространения того или иного растения?

- Не только. Для того, кто передал данные, например для школьника, это мотивация - он был замечен, его данные были задействованы в научном обороте.

Но это также важно и для развития науки. Например, для отслеживания изменений климата. Растения и животные – индикаторы, они “двигаются” за природными зонами. Поскольку на каждой этикетке есть геопривязка, GPS это позволяет, данные могут использовать не только ботаники, но и другие ученые, в данном случае климатологи. Если появляется фотография растения с территории, которая не входит в ареал его распространения, это очень важно.

Следующий момент – это инвазивные виды. Яркий пример – американский клен, который заполоняет все на нашей территории. Он к нам в Россию пришел из Северной Америки и здесь никаких естественных конкурентов не увидел: никакие насекомые его не едят, никакие другие растения его не вытесняют, и он, следовательно, занимает все ниши, где может расти. Sitizen science позволяет собирать данные для прогнозирования распространения инвазивных видов при помощи биоклиматического моделирования. Мы берем данные глобальной информационной сети по биоразнообразию с точной геопривязкой и моделируем, к примеру, до 2080 года с учетом изменений климата, как будет дальше вести себя вид.

Оцифрованные данные также позволяют делать биоресурсную оценку. Можно сделать выборку, например, по калине – там встретили ее, там и там. У нас есть, допустим, 200 гербарных листов. Делаем расчет и выясняем, какую калина может занимать площадь, много у нас ее или мало. И тогда, допустим, можно решить, ограничивать сбор этой ягоды или нет. Такой вопрос еще не поднят, но он возникнет как с животным миром – на отстрел ведь выдаются лицензии.

Фото: архив Алексея Ваганова

“Правильно подготовленное и засушенное растение сохраняет в себе ДНК”

- Я правильно понимаю: в связи с созданием глобальной базы данных во всех странах гербарии приводят в единый вид?

- Да, теперь действует единый стандарт дарвин-кор (Darwin Core), о котором я говорил. Есть даже конференция, на которой научные группы обсуждают новые термины. В 2021 году произошло значительное изменение – в этикетку добавились данные из генбанков. Есть японский, европейский и американский генбанки, они зеркально друг друга повторяют, в которых хранятся последовательности ДНК.

Раньше мы говорили только о пространственном распространении и о том, как выглядит вид. Теперь отдельно идет расшифровка последовательностей ДНК у образцов. ДНК можно брать и из природной среды, и из гербария.

Правильно подготовленное и засушенное растение сохраняет в себе ДНК и с него берут пыльцу и споры для исследования. По ним можно производить анализ ДНК и спорово-пыльцевой анализ. Спорово-пыльцевой анализ проводится на электронно-сканирующем микроскопе, на нем в -6 степени смотрят микроструктуры. ДНК-анализ проводится в специальной лаборатории. Главная задача – реконструкция взаимосвязей таксонов. Выстраиваются филогенетические деревья, изучается эволюция.

- И для этих исследований не важно, сколько лет растение находится в гербарии?

- Не важно. Есть только проблемы, когда гербарий собран в тропических странах – тогда происходит разрушение растений, нарушается внешний вид, в них поселяются грибы, разрушаются споры.

“У нас огромная территория, в этом наши преимущества и наша беда”

- Вы занимаетесь системой мониторинга растений с использованием искусственного интеллекта. Расскажите об этом.

- В нашем университете проводится конференция “Математики – Алтайскому краю”, там на специальной секции представляются прикладные разработки для разных областей. Однажды, попав на эту конференцию, я рассказал, что тоже использую матстатистику, матметод. У меня есть учебник по матметоду в биологии, мы вели курсы по статистике с Полиной Гудковой (доктор биологических наук, доцент кафедры ботаники Института биологии и биотехнологии АлтГУ. – “Атмосфера”.). Вот после этой конференции мы начали партнерствовать с Любовью Анатольевной Хворовой (кандидат технических наук, доцент кафедры теоретической кибернетики и прикладной математики Института математики и информационных технологий АлтГУ. – “Атмосфера”.).

В Австралии, Франции, Швейцарии есть виртуальные лаборатории по биоклиматическому моделированию. Я познакомился с их работой на воркшопах и спросил Любовь Анатольевну, сможем ли мы сделать аналог. Она дала мне двух студентов-математиков – Захара Покалякина и Константина Печененко. Они изучили работу виртуальных лабораторий, научную литературу. Потом взяли реальные объекты – кондык сибирский и прострел, отработали по моделям, написали статьи и поняли, что вычислительных мощностей им недостаточно. Но мы выяснили, что у нас есть соглашение с Yandex Cloud об использовании его сервисов для расчетов. Потянулись Яндекс Карты, Yandex DataSphere и Yandex DataLens. Ребята эти сервисы задействовали, их заметили, дали им по гранту в 100 тысяч рублей для работы с сервисами, и была создана виртуальная лаборатория по прогнозированию.

В чем наше преимущество, допустим, перед австралийской лабораторией? Там просто загружаются данные, и происходит визуализация в виде карт. Мы добавили корреляцию пространственной неравномерности данных. Что это означает? Обычно ботаники собирают чаще гербарий там, где доступно – в окрестностях населенных пунктов, вдоль дорог - лезть высоко в сопку не всем под силу, только научные группы относятся к этому делу ответственно. Поэтому нужно выровнять эти данные. Кроме того, мы добавили расчет площади распространения вида в квадратных километрах.

- Речь идет об Алтайской горной стране?

- Нет, можно брать любую территорию мира. Мы выбираем территорию, климатические параметры, объект, виртуальная лаборатория подтягивает данные из глобальной базы и выясняет, что, например, с долей вероятности больше 90 процентов этот вид можно встретить здесь, здесь и здесь, а возможно и здесь. Хотя, возможно, до этого места никто из исследователей не добирался и этот вид там не изучал.

Я по папоротникам некоторых исследовательских групп проводил такое исследование, и у меня отобразилась даже Новая Зеландия, хотя исторически они туда не “добирались” и не “доберутся”. Но если их туда кто-то привезет и начнет интродуцировать у себя в саду, они там будут жить. То есть, эта лаборатория может рассчитать экологические ниши растений по всему миру.

Захар Покалякин изучал красный корень, взял данный из WorldClim и выяснил потенциальный ареал этого вида.

Дело в том, что собрать все данные в природной среде физически не реально. Сезон проходит, две-три экспедиции смогли организовать и все. У нас огромная территория, в этом наши преимущества и наша беда, невозможно все изучить. И цифровизация – это наш путь. Можно собрать немного данных и сделать прогноз на всю территорию.

Беседовал Дмитрий Негреев.

 

Читайте полную версию на сайте asfera.info