Компонентная архитектура программного комплекса интеллектуального анализа научно-технической информации

Семинары

Лаборатория информационных технологий

Общелабораторный семинар

Дата и время: среда, 12 февраля 2025 г., в 15:00

Место: конференц-зал, Лаборатория информационных технологий им. М. Г. Мещерякова, онлайн в Webinar

Тема семинара: «Компонентная архитектура программного комплекса интеллектуального анализа научно-технической информации»

Докладчик: Евгений Антонов (НИЯУ МИФИ)

Аннотация:

Современные методы интеллектуального анализа данных (ИАД), основанные на технологиях машинного обучения, обработки естественного языка и визуализации, требуют адаптации под специфику научно-технической информации (НТИ), которая характеризуется разнообразием форматов, неструктурированностью и слабоструктурированностью данных. В работе рассматривается разработка компонентной архитектуры программного комплекса ИАД НТИ, обеспечивающей горизонтальную масштабируемость для работы с большими массивами данных. Автором предложены специализированные алгоритмы извлечения и насыщения данных, учитывающие особенности научных публикаций: выделение ключевых слов текста, физических величин и единиц измерений, химических элементов, таблиц, изображений, унификацию названий аффилиаций и стран, а также определение межправительственных объединений. Программный комплекс состоит из четырех основных блоков: клиент-серверного модуля, распределенное управления рабочим процессом, обработки и насыщения данных, хранилище данных. Архитектура системы обеспечивает гибкость и возможность расширения функциональности за счет учета использования современных технологических решений. Система способна работать с различными источниками данных, включая PDF-документы, веб-страницы и базы данных, и предоставляет интерактивные аналитические панели для визуализации результатов. Теоретическая и практическая значимость работы проявляется в развитии существующих подходов к ИАД и внедрении разработанных решений в реальные проекты. В частности, система была успешно применена для создания базы данных свойств и структур облученных материалов, цифровизации экспериментальных данных, формирования репозитория научных публикаций Объединенного института ядерных исследований.

(По материалам кандидатской диссертации.)