Современные информационные технологии в экологическом мониторинге
Новости, 23 мая 2022
В научном проекте важно не только получить данные, но и суметь их обработать. Командой Лаборатории информационных технологий ОИЯИ была разработана система управления данными экологического проекта ООН UNECE ICP Vegetation, координатором которой выступает Лаборатория нейтронной физики ОИЯИ. Система создавалась для упрощения типовых операций с данными, однако со временем она выросла в полноценную платформу экологического мониторинга. О системе ЛИТ ОИЯИ для программы ООН рассказывает ведущий программист лаборатории Александр Ужинский.
Проблемы загрязнения окружающей среды и экологической безопасности всегда актуальны. Особое внимание уделяется контролю загрязнения воздуха. Большинство программ в данной области направлены на определение мелкодисперсных частиц (particulate matter) и некоторых химических соединений, например, CO2. Для получения подробной информации о составе загрязнения используются методы мониторинга, основанные на отборе проб. В рамках Конвенции ООН по дальнему трансграничному переносу воздушных загрязнений (CLRTAP) в 80-е годы прошлого века была создана программа UNECE ICP Vegetation, участники которой собирают образцы мха и используют различные аналитические методы, в том числе и нейтронный активационный анализ на реакторе ИБР-2 ЛНФ ОИЯИ, чтобы получить данные по содержанию в воздухе тяжелых металлов, азота, стойких органических соединений и радионуклидов. Проект объединяет исследователей из 43 стран и регионов Европы и Азии. С 2014 года за координацию программы отвечает Лаборатория нейтронной физики им. И.М. Франка (координатор М.В. Фронтасьева). Несмотря на несомненную важность проекта UNECE ICP Vegetation, уровень принятия современных технологий и автоматизации в нем был достаточно низок, что серьезно ограничивало эффективность сбора данных и их статистической обработки. В 2016 году в Лаборатории информационных технологий им. М.Г. Мещерякова началась разработка системы управления данными проекта UNECE ICP Vegetation. Изначально планировалось, что система упростит и частично автоматизирует типовые операции с данными, а также позволит оперативно создавать карты загрязнения. Со временем система эволюционировала, вбирая в себя все новые и новые технологии и подходы, и на сегодняшний день может быть причислена к интеллектуальным платформам экологического мониторинга [1].
Исследования в рамках программы UNECE ICP Vegetation базируются на анализе мхов-биомониторов. Участники раз в пять лет собирают образцы, фиксируя различную информацию о местах сбора. Естественно, что в процессе записи и передачи метаинформации возможны ошибки, которые отрицательно сказываются на полученных результатах. Для их минимизации было разработано мобильное приложение, которое позволяет заполнять большинство обязательных параметров вручную, а часть данных, например, широту, долготу и высоту над уровнем моря, – автоматически. В приложении есть возможность фотографировать места сбора и образцы и отправлять их в платформу для распознавания. Это позволило значительно упростить процесс определения типа мха, что является важной частью сбора метаинформации и в некоторых случаях вызывает трудности даже у экспертов. На базе платформы было апробировано несколько моделей глубокого обучения для решения задач распознавания на ограниченной выборке. В текущей реализации используется модель сиамской нейронной сети с трехчленной функцией потерь. Сиамская сеть состоит из нескольких сетей-близнецов, соединенных между собой слоем подобия (рис. 1А).
Рис. 1. А – архитектура сиамской сети. В – один из близнецов и MLP-классификатор. С и D – представление векторов изображений в двумерном пространстве до обучения (С) и после обучения (D)
Веса близнецов одинаковы, поэтому результат является инвариантным и гарантирует, что похожие изображения не могут находиться в разных местах в многомерном пространстве свойств. При использовании трехчленной функции потерь на вход близнецам подаются два изображения одного класса и одно изображение другого класса. В результате это позволяет лучше подобрать веса, чтобы векторные представления схожих изображений находились ближе друг к другу, а изображения другого класса – дальше от них (рис. 1С, D). После обучения один из близнецов используется в связке с многомерным персептроном, выступающим в качестве классификатора (рис. 1В). Подобная архитектура сети позволяет классифицировать пять наиболее распространенных разновидностей мха с точностью порядка 97,6% [2].
В процессе внесения метаинформации точкам отбора проб присваиваются уникальные идентификаторы, которые используются после проведения анализа образцов для импорта данных по концентрациям элементов и соединений. В рамках платформы производятся поиск статистических аномалий, проверка полноты и корректности данных. Полная автоматизация данного процесса невозможна, поскольку аномалии могут иметь естественный характер, и для принятия решения об их включении или исключении требуется согласованное мнение участника и координатора. Одной из основных задач при реализации платформы было сведение к минимуму необходимости использования сторонних систем. В настоящее время участники проекта могут производить манипуляции с данными, строить локальные и региональные карты загрязнений, запускать задачи прогнозирования и получать различные аналитические отчеты непосредственно в платформе. Кроме простых статистических выкладок и geo-индексов, доступны инструменты более высокого уровня, например, кластерный анализ или метод главных компонент. У пользователей есть возможность анализировать временные тренды и проводить сравнение с данными других участников при наличии соответствующих разрешений с их стороны. Например, для лучшего понимания глобальной ситуации можно вывести на одной диаграмме медианные значения загрязнения тяжелыми металлами с граничащими странами и регионами.
Координаторам доступны все инструменты рядовых участников, кроме того, они могут осуществлять групповые операции с данными, получать сводные отчеты и строить глобальные карты загрязнений.
Прогнозирование – важный этап экологического мониторинга, позволяющий заполнить пробелы в данных. В рамках платформы реализован механизм прогнозирования, основанный на применении машинного обучения совместно с данными дистанционного зондирования земли.
Снимки различных спутниковых программ используются для получения так называемых индексов, которые выступают дополнительными данными при обучении модели и основными данными при построении прогноза. Для вычисления индексов используется платформа Google Earth Engine, содержащая данные десятков различных программ и продуктов (рис. 2).
Рис. 2. Примеры снимков программ в Google Earth Engine
Отдельные микросервисы платформы используются для сбора индексов, построения глобальных и локальных моделей, подбора оптимальных параметров и прогнозирования. В текущей реализации в зависимости от количества исходных данных используются статистические модели машинного обучения либо глубокие нейронные сети. Решаются задачи регрессии и классификации, но последние более приоритетны, т.к. появляется возможность использования методов балансировки обучающей выборки, и изначально при построении карт используется градация уровней загрязнения. При построении локальных и региональных карт некоторых элементов точность моделей достигает 90-95% (рис. 3) [3].
Рис. 3. Примеры прогноза концентрации меди для Белграда: a) данные мониторинга, b) прогноз модели. Область А – центральная часть города с высоким трафиком. Область В – железнодорожный терминал
В планах развития платформы предусматривается не только улучшение существующего функционала, но и предоставление новых возможностей. Например, большой интерес представляет задача сбора и предоставления данных по заболеваемости населения, что позволило бы в рамках платформы проводить сравнение уровней загрязнения и количества определенных заболеваний в различных регионах.
Литература:
[1] Ужинский А. Интеллектуальная платформа экологического мониторинга, Открытые системы. СУБД. 2021. № 2. С. 21-23.
[2] Uzhinskiy A., Ososkov G., Goncharov P., Nechaevskiy A., Smetanin A., Oneshot learning with triplet loss for vegetation classification tasks. Computer Optics 2021; 45(4): 608-614. DOI: 10.18287/2412-6179-CO-856.
[3] A. Uzhinskiy, M. Aničić Urošević, M. Frontasyeva. Prediction of air pollution by potentially toxic elements over urban area by combining satellite imagery, Moss Biomonitoring Data and Machine Learning. Ciencia e Tecnica Vitivinicola Journal, ISSN:2416-3953, Vol. 35, No. 12, 2020.