Методы интеллектуального анализа текстовых данных и веб-инструменты для обработки и визуализации информации / Интеллектуальный анализ научно-технической информации на примере патентной документации
Семинары
Лаборатория информационных технологий
Общелабораторный семинар
Дата и время: вторник, 25 февраля 2025 г., в 11:00
Место: комната 310, Лаборатория информационных технологий
им. М. Г. Мещерякова, онлайн в Webinar
-
Тема семинара: «Методы интеллектуального анализа текстовых данных и веб-инструменты для обработки и визуализации информации»
Докладчик: Анна Ильина
Аннотация:
Представлены результаты работы в области развития и применения методов обработки и интеллектуального анализа текстовых данных научной и технической информации, а также в области создания эффективных веб-инструментов для обработки и визуализации данных. В частности, описаны результаты исследований в области семантического анализа и извлечения именованных сущностей. Кроме того, предложены решения, направленные на получение информации об использовании ресурсов, включенных в распределенную инфраструктуру DIRAC, а также безопасности сетевых подключений к внутренним сервисам ОИЯИ.
-
Тема семинара: «Интеллектуальный анализ научно-технической информации на примере патентной документации»
Докладчик: Дарья Зрелова
Аннотация:
Доклад посвящен интеллектуальному анализу научно-технической информации на примере патентной документации. Патентные данные представляют собой релевантный источник информации о долгосрочных технологических тенденциях и практическом воплощении инноваций. Анализ патентов представляет определенную сложность из-за их специфической структуры, обеспечивающей юридическую защиту изобретения, а не детальное раскрытие его сути. В работе рассматриваются особенности анализа патентной информации, при этом особое внимание уделяется современным подходам и методам извлечения ценной информации из патентных данных для определения перспективных направлений развития технологий. В частности, в работе проведен анализ и разбор данных по рубрикам, датам, языкам представления, авторам, владельцам и др. С целью проведения семантического анализа из аннотаций патентов создан корпус документов и определен словарь корпуса, которые использовались для обучения нейросетевой языковой модели на основе Word2Vec. Семантический анализ необходим для анализа текстового содержания патентов, извлечения ключевых терминов, фраз и концепций, характеризующих каждый патент, а также их последующей классификации.