
Современные технологии видеоанализа требуют всё более точных методов обработки визуальной информации. Одной из ключевых задач в этой области является предсказание карт внимания – определение областей изображения, на которые зритель обращает внимание в первую очередь. Такие технологии находят применение в сжатии видео, оценке качества контента, рекламе, пользовательских интерфейсах, а также когнитивных исследованиях.
Для развития и тестирования новых алгоритмов учёные ВМК МГУ и их международные партнёры организовали соревнование AIM 2024 по предсказанию карт визуального внимания. Основной целью соревнования стало тестирование современных подходов к анализу зрительного внимания и выявление наиболее эффективных решений, которые смогут использоваться в практических приложениях.
Как отметил Дмитрий Ватолин, заведующий Лаборатории компьютерной графики и мультимедиа ВМК МГУ и один из организаторов соревнования, предсказание внимания зрителя является сложной, но крайне важной задачей, поскольку помогает создать более адаптивные и интеллектуальные видеосистемы.
Для тестирования алгоритмов был предоставлен специализированный аудиовизуальный набор данных AViMoS, содержащий 1500 видеозаписей, на которых более 70 наблюдателей отслеживали курсором наиболее интересные участки изображения. Такой метод краудсорсингового сбора данных доказал свою эффективность в сравнении с классическими eye-tracking системами.
В соревновании приняли участие более 30 команд, из которых 7 дошли до финального этапа, представив свои решения на закрытом тестовом наборе данных. Качество предсказаний оценивалось по таким параметрам, как точность различения салиентных и несалиентных областей, корреляция алгоритма с реальными данными, сходство распределений внимания и пространственная значимость предсказанных карт.
Дмитрий Ватолин подчеркнул, что исследование позволило протестировать широкий спектр решений, основанных на современных методах глубокого обучения.
Победителем соревнования стала команда CV_MM, представившая модель UMT (Unmasked Teacher) с гибкой системой декодирования и использованием информации из разных уровней разрешения. Второе место заняла VistaHL, предложившая инновационную двухпотоковую архитектуру, а третье — команда PeRCeiVe Lab, разработавшая многопоточный подход к анализу карт внимания.
Исследователи отметили, что трансформеры оказались эффективнее традиционных свёрточных сетей в анализе долгосрочных зависимостей в видео. Было показано, что аудиовизуальные модели, использующие звук, улучшают точность предсказаний, но требуют значительных вычислительных ресурсов. Гибридные методы обработки информации позволяют комбинировать данные на разных уровнях разрешения, повышая точность предсказаний.
Как подчеркнул Дмитрий Ватолин, соревнование дало важные результаты, которые помогут в дальнейшем совершенствовании алгоритмов предсказания внимания зрителей, сделав их более точными и вычислительно эффективными.
Результаты соревнования и подробные описания моделей участников опубликованы в совместной статье «AIM 2024 Challenge on Video Saliency Prediction: Methods and Results».
Материал: News-w.org / Анна Прокофьева по материалам пресс-службы
Фото: пресс-служба
Обсудить
Читайте также:

17 март 2025, Понедельник
Аспирант ВМК МГУ представил передовые разработки по обработке видео на ECCV-2024

01 декабрь 2021, Среда
Школа-семинар «Современные тенденции развития методов и технологий защиты информации»

09 декабрь 2022, Пятница
Резидент ОЭЗ «Технополис Москва» начал строительство завода по производству SIM-карт
Комментарии (0)