Ежедневно в интернете появляется огромное количество видеоконтента, в котором легко потеряться и пропустить важную информацию. Ученые Университета МИСИС совместно с коллегами из НИУ ВШЭ предложили новый метод обработки видео на основе нейронных сетей, который поможет выделять главное из видеороликов и таким образом значительно экономить время. Это особенно актуально для различных областей, где требуется быстрый анализ большого количества видеоматериалов, например, в системах видеонаблюдения, образовательных проектах или спортивных мероприятиях.
С каждым днем потребление видеоконтента стремительно растет. По данным Cisco Global Networking Trends Report, в 2022 году на видео приходится более 80% всего интернет-трафика. Поэтому исследователи активно разрабатывают инструменты для автоматизации поиска основной информации среди обилия видео-контента.
С помощью обобщения или суммаризации видео можно сжать исходный контент, сохраняя при этом его основную суть. Существуют два основных подхода: создание статической последовательности ключевых кадров и формирование короткого видеоролика, где важные моменты расположены в хронологическом порядке. Суть метода, представленного исследователями НИТУ МИСИС и НИУ ВШЭ, основывается на том, что из всего видео выбираются ключевые моменты, а его общая продолжительность уменьшается. Это позволяет сохранить основной контент и при этом сделать видео более компактным.
«Разработанная модель включает в себя многослойный многоуровневый модуль внимания, похожий на трансформатор, который позволяет одновременно обрабатывать входные элементы и предотвращает замедление, вызванное рекуррентными нейронными сетями, использующимися в предыдущих подходах. Особенностью модели является использование позиционного энкодера, который учитывает временную информацию и повышает качество обобщения. Эта технология была протестирована на двух эталонных наборах данных и показала высокую эффективность», — отмечает соавтор исследования Илья Макаров, директор центра искусственного интеллекта НИТУ МИСИС, руководитель группы «ИИ в промышленности» Института AIRI.
Результаты исследования подтвердили, что новая модель обобщения видео дает не только конкурентные результаты, но и превосходит выбранные аналоги. Это открывает новые возможности для использования видеоконтента и делает его более доступным для широкой аудитории.
Исследование проводилось в рамках стратегического проекта Университета МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».