В МИФИ разработана уникальная система интеллектуального анализа данных
В МИФИ разработана комплексная система интеллектуального анализа разнородных данных, предназначенная для работы с неструктурированными и слабоструктурированными информационными массивами — от научных публикаций и патентов до цифровых профилей пользователей социальных сетей. Система создана под руководством доктора технических наук, заведующего кафедрой анализа конкурентных систем НИЯУ МИФИ Алексея Анатольевича Артамонова (разработка стала основой его докторской диссертации).
Как отмечает Алексей Артамонов, классические подходы к хранению и анализу данных часто оказываются неэффективными при работе с разнородными, постоянно обновляемыми источниками информации. Текст научной статьи — это не изолированный набор слов, а сложная система взаимосвязей между авторами, организациями, тематиками, результатами экспериментов и цитируемыми работами. «Если мы хотим извлекать из таких массивов не просто статистику, а новые предметные знания, необходим иной методологический уровень», — подчёркивает учёный.
В результате проведенных исследований был создан «универсальный цифровой конструктор», предлагающий различные наборы инструментов и моделей для каждого типа данных (будь то патенты, статьи или посты). При этом, важно, что Алексей Артамонов предлагает единую модель цифрового объекта, в рамках которой любой информационный объект описывается одинаково: у него есть статические свойства (например, дата рождения или автор), динамические (частота публикаций), и вычисляемые (индекс цитируемости). К этому добавляется граф связей с другими объектами. Такая структура обеспечивает единое представление данных из разных источников, повышает точность и воспроизводимость аналитических результатов и служит основой для построения гибких алгоритмов обработки.
Второй ключевой компонент системы — разработанный комплекс методов преобразования исходной информации. Эти инструменты автоматически извлекают из исходного текста научных статей структурированные данные: физические величины с приведением к единой системе СИ, координаты организаций по аффилиациям авторов, ключевые термины, содержимое таблиц и подписей к рисункам, а также данные о международном сотрудничестве на основе анализа стран-соавторов. В результате исходный массив документов превращается в обогащённую базу знаний, пригодную для количественного и качественного анализа.
Важным элементом системы являются специализированные программные средства визуализации. В частности, реализован инструмент построения гетерогенных графов, позволяющий наглядно отображать связи между публикациями, авторами, организациями и тематиками, выявляя неочевидные кластеры и скрытые закономерности.
Разработана также методика построения научно-технологических ландшафтов (НТЛ) — трёхмерных интерактивных карт, по осям которых откладываются научные направления, временные интервалы и объёмы публикационной активности. Такие ландшафты дают возможность сравнивать динамику развития различных областей науки по странам и организациям, определять точки роста и оценивать эффективность международной кооперации. По словам разработчиков, подобные инструменты востребованы при принятии управленческих решений на государственном уровне, в том числе в рамках национальных проектов технологического лидерства.
В ближайшей перспективе учёные МИФИ планируют углублённую интеграцию в систему современных нейросетевых моделей. На текущем этапе применяются классические методы машинного обучения и обработки естественного языка, которые эффективны для структурирования фактов, выделения ключевых слов и нормализации величин. Следующим шагом станет переход к тонкому семантическому анализу. «Мы хотим, чтобы система не просто находила числовые значения в тексте, а понимала контекст: различала, когда автор сообщает о результатах собственного эксперимента, а когда цитирует чужую работу; улавливала нюансы тональности в социальных данных; выявляла скрытые взаимосвязи между событиями, которые не лежат на поверхности», — поясняет Алексей Артамонов. Также планируется расширение спектра предметных областей, доступных для анализа (сейчас система апробирована на атомной энергетике, медицине и финансовой безопасности).
Алексей Артамонов подчеркивает, что система создана в рамках научной школы, возникшей в последние десятилетия на кафедре анализа конкурентных систем института международных отношений НИЯУ МИФИ. С 2008 года на кафедре проводятся работы по разработке мультиагентных систем обработки научно-технической информации, в рамках которой разрабатываются принципиально новые методы, алгоритмы и программные средства потоковой обработки, анализа, визуализации и доставки целевой информации для различных пользователей.

