Дослідження ролі теорії оптимального транспорту в поєднанні роз'єднаних мод під час генерації даних за допомогою Flow Matching
Анотації
When training Flow Matching models on datasets with separated modes (e.g., clearly separated data clusters in
feature space), the choice of generation path significantly impacts the model's ability to represent the structure of the
space. Simple interpolation between samples from different modes may pass through regions of the representation space
with low data density, leading to the generation of unrealistic and invalid samples, and resulting in poor approximation
of the target distribution. In contrast, OT-based paths (optimal transport mappings between samples) enable the model
to learn transitions between modes through trajectories that lie in regions with valid and meaningful data. This approach
allows models to better capture the desired distribution and generate more realistic examples. При навчанні моделей Flow Matching на наборах даних із наявним розділенням мод (наприклад, з вираженим
розділенням на кластери даних у просторі представлення ознак) вибір траєкторії генерації суттєво впливає на
здатність моделі відтворювати структуру простору. Просто інтерполяція між вибірками з різних мод може
проходити через області простору представлення даних з низькою щільністю, що призводить до генерації
нереалістичних та невалідних прикладів даних з поганою апроксимацією цільового розподілу. Натомість
ОТ-орієнтовані шляхи (оптимально транспортне відображення між прикладами) дозволяють моделі вивчати
перехід між різними модами через траєкторії, які описують області з наявними та валідними даними. Даний
підхід дозволяє моделям краще описувати бажаний розподіл та генерувати реалістичні приклади.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48008

