Метод оцінки частково згенерованих даних
Автор
Ісаєнков, Я. О.
Мокін, О. Б.
Isaienkov, Ya. O.
Mokin, O. B.
Дата
2024Metadata
Показати повну інформаціюCollections
- Наукові роботи каф. САІТ [440]
Анотації
Generative models, such as autoencoders, generative adversarial networks, and diffusion models,
have become an integral part of innovation in various fields in recent years, including art, design, medicine, and
more. Due to their ability to create new data samples, they open broad opportunities for automation and process
improvement. However, assessing the quality of generated data remains a challenging task, as traditional methods
do not always adequately reflect the diversity and realism of the generated samples. This is particularly true for
partial data generation, where changes are applied only to specific parts of an image, significantly complicating
the assessment of their quality.
This work examines various approaches to evaluating generative models, including automatic metrics such as
Inception Score and Fréchet Inception Distance, precision, recall, density, and coverage, as well as a human-inthe-loop method such as HYPE. While these metrics have proven effective in evaluating the results of traditional
generation, their use in the case of partially generated data may be inappropriate due to their limitations.
To address this issue, the paper proposes a new method for evaluating partially generated data that involves the
human factor. This method is based on analysing transformed images by users, who identify the areas that have
been altered, and evaluates their quality using precision, recall, and F1-score metrics by seeking intersections
between actual altered areas and those selected by users using IoU. The proposed approach provides a more
objective assessment of the realism and quality of generated image fragments during transformations.
A practical example of applying the developed method is presented using a dataset of panoramic dental images,
where the quality of three models was evaluated: 1) a GAN based on a U-generator; 2) the same model with
post-processing of the output image and segmentation mask; and 3) a self-validated GAN. The evaluation was
performed by 30 individuals. The average F1-scores for these models were 0,78, 0,27, and 0,20, respectively.
Since lower F1-scores in this case indicate better results (the more accurately users identified the transformations,
the worse the model performed), the best model by this metric is the self-validated GAN, which is also supported
by subjective assessments mentioned in the authors’ work. Останніми роками генеративні моделі, зокрема автокодувальники, генеративні змагальні мережі та дифузійні моделі, стали невіддільною частиною інновацій у різних галузях, таких, як мистецтво, дизайн, медицина тощо. Завдяки здатності створювати нові зразки даних, вони відкривають широкі можливості для автоматизації та вдосконалення процесів. Однак оцінка якості згенерованих даних залишається складним завданням, оскільки традиційні методи не завжди адекватно відображають різноманітність і реалістичність створених зразків. Зокрема це стосується часткового генерування даних, де зміни застосовуються лише до окремих частин зображення, що значно ускладнює оцінку їх якості. У цій статті розглянуто різні підходи до оцінки генеративних моделей, зокрема такі автоматичні метрики, як Inception Score і Fréchet Inception Distance, влучність, повнота, щільність і покриття, а також метод із залученням людини HYPE. Хоча ці метрики добре зарекомендували себе в оцінюванні результатів традиційного генерування, їх використання у випадку частково згенерованих даних може бути недоцільним через їх обмеження. Для розв`язання цієї проблеми в статті запропоновано новий метод оцінювання частково згенерованих даних із залученням людини. Цей метод базується на аналізі трансформованих зображень користувачами, які визначають зони, що зазнали змін, і оцінює їхню якість за допомогою метрик влучності, повноти, F1-міри, шукаючи перетини між реальними зонами та вибраними користувачем із використанням IoU. Запропонований підхід забезпечує більш об`єктивну оцінку реалістичності та якості згенерованих фрагментів зображень під час трансформацій. Наведено практичний приклад застосування розробленого методу на наборі даних панорамних стоматологічних знімків, де оцінювалася якість трьох моделей: 1) ГЗМ на основі U-генератора; 2) та сама модель, але з післяобробкою вихідного зображення і сегментаційної маски; 3) самовалідована ГЗМ. Оцінку проводили 30 осіб. Середні значення F1-міри для цих моделей становили 0,78, 0,27 і 0,20 відповідно. Оскільки нижчі значення F1-міри в цьому випадку свідчать про кращі результати (чим точніше користувачі ідентифікували трансформації, тим гірше працювала модель), найкращою моделлю за цією метрикою є самовалідована ГЗМ, що також підтверджується суб`єктивними оцінками, зазначеними в працях авторів.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/50092

