Масштабування прогнозування відео за допомогою просторово-часових патчів

Кулик, Л. Р.; Мокін, О. Б.; Kulyk, L. R; Mokin, O. B.

Author

Кулик, Л. Р.

Мокін, О. Б.

Kulyk, L. R

Mokin, O. B.

Date

2025

Metadata

Show full item record

Collections

Вісник Вінницького політехнічного інституту. 2025. № 5 [24]

Abstract

The article presents a new architecture for video data processing, the Vision Byte Latent Transformer (V-BLT), which adapts the principles of successful byte-level language models to the visual modality. Unlike standard approaches that use fixed-size patching, which are computationally inefficient due to the uniform resource allocation regardless of visual content complexity, V-BLT operates directly on the video byte stream. This allows for avoiding information loss associated with prior tokenization and enhances processing flexibility. The key contributions include the concept of spatiotemporal latent patches,the implementation of N-dimensional Rotary Positional Embeddings to preserve data coherence in the flattened byte stream, and a multi-level transformer architecture for hierarchical processing. To validate the hypothesis and test the model, a new synthetic dataset with rotating 2D and 3D shapes was developed for a controlled evaluation of the model’s spatiotemporal reasoning capabilities. It is experimentally demonstrated that V-BLT effectively predicts future frames, achieving high scores on MSE, SSIM, and PSNR metrics comparing to ViViT and UNet3D with better computational efficiency. The developed architecture according to the design has the ability to generate per-pixel entropy maps that visualize prediction uncertainty and correlate with dynamically complex regions of the scene. This paves the way for the implementation of dynamic, con-tent-dependent, on-the-fly allocation of computational resources, representing a promising direction for creating more effi-cient and scalable foundation models for video analytics.

Запропоновано нову архітектуру для обробки відеоданих, Vision Byte Latent Transformer (V-BLT), яка адаптує принципи успішних байт-рівневих мовних моделей до зорової модальності. На відміну від стандартних підходів, що використовують пакування фіксованого розміру (patching), які є обчислювально неефективними через рівномірний розподіл ресурсів незалежно від складності візуального контенту, V-BLT працює безпосередньо з потоком байтів відео. Це дозволяє уникнути втрати інформації, пов’язаної з попередньою токенізацією, та підвищити гнучкість обробки. Ключовими внесками роботи є розробка концепції просторово-часових латентних патчів, впровадження N-вимірних ротаційних позиційних вкладень для збереження когерентності даних у розгорнутому потоці байтів, та застосування багаторівневої трансформерної архітектури для ієрархічної обробки даних. Для валідації гіпотези та тестування моделі розроблено новий синтетичний набір даних з 2D та 3D фігурами, що обертаються, який дозволяє проводити контрольовану оцінку здатності моделі до просторово-часового мислення. Експериментально продемонстровано, що V-BLT ефективно прогнозує майбутні кадри, досягаючи високих показників за метриками MSE, SSIM та PSNR в порівнянні з ViViT та UNet3D, при цьому демонструючи вищу ефективність розрахунків. Розроблена архітектура згідно з дизайном має можливість генерувати піксельні карти ентропії, які візуалізують невизначеність прогнозу та корелюють з динамічно складними регіонами сцени. Це відкриває шлях до реалізації динамічного, залежного від контенту, розподілу обчислювальних ресурсів «на ходу», що є перспективним напрямком для створення ефективніших та масштабованих фундаментних моделей для відеоаналітики.

URI:

https://ir.lib.vntu.edu.ua//handle/123456789/51136

View/Open

191699.pdf (631.0Kb)