Аналіз генеративних моделей глибокого навчання та особливостей їх реалізації на прикладі WGAN
Author
Ісаєнков, Я. О.
Мокін, О. Б.
Isaienkov, Ya. O.
Mokin, O. B.
Date
2022Metadata
Show full item recordCollections
Abstract
Представлено особливості будови, навчання та сфери застосування генеративних моделей глибокого навчання. До основних завдань таких модель відносяться генерування даних (зображень, музики, текстів, відео), перенесення стилів з одних даних на інші, поліпшення якості даних, їх кластеризація, пошук аномалій тощо. Зазначено, що результати роботи генеративних моделей, окрім поширених розважальних цілей, можуть використовуватися як: додаткові дані для навчання інших моделей машинного навчання, джерела нових ідей для творчих професій, інструменти анонімізації чутливих даних тощо. Проаналізовано переваги та недоліки таких базових видів генеративних моделей як автокодувальники, варіаційні автокодувальники, генеративні змагальні мережі (ГЗМ), ГЗМ Васерштейна (Wasserstein GAN, WGAN), StyleGAN, StyleGAN2 та BigGAN. Також описано покрокове дослідження імплементації генеративної моделі на прикладі WGAN, яке включає як реалізацію базової архітектури цієї моделі, так і застосування складніших елементів. Прикладами таких елементів є впровадження умовної генерації для можливості вибору потрібного класу та алгоритм білінійного підвищення дискретизації для вирішення проблеми так званого «ефекту шахової дошки». Фінальна модель, яка була створена в результаті дослідження та отримала назву CWGAN-GP_128, здатна генерувати реалістичні зображення кульбабок та чорнобривців у роздільній здатності 128×128 пікселів. Модель навчалася на авторському наборі даних, що складається з 900 фотографій (по 450 для кожного класу). У процесі навчання для аугментації зображень використовувалися такі афінні перетворення, як повороти та перевертання. Наголошено, що хоч результати роботи генеративних моделей часто легко оцінити візуально, проте разом з бурхливим розвитком ГЗМ зростає актуальність проблеми автоматизації процесу оцінювання якості згенерованих даних. Остаточна модель відкрита для публічного доступу, а з результатами її роботи можна ознайомитися на авторському вебсайті thisflowerdoesnotexist.herokuapp.com. The paper presents architecture features, the learning process, and the scope of generative deep learning models. The main tasks of such models include data generation (images, music, texts, videos), transferring styles from one data to another, improving data quality, data clustering, anomaly detection, etc. It is noted that the results of generative models are commonly used for entertainment purposes. In addition, they can be used as data for learning other machine learning mod-els, sources of new ideas for creative professions, tools for anonymization of sensitive data, etc. The article analyzes the advantages and disadvantages of basic generative models like autoencoders, variational autoencoders, generative adver-sarial networks (GAN), Wasserstein GAN (WGAN), StyleGAN, StyleGAN2, and BigGAN. The paper also describes a step-by-step study of the generative model implementation on the example of WGAN, which includes the basic architecture im-plementation and more complex elements. Examples of such elements are the introduction of conditional generation to add the ability to select the desired class and the algorithm of bilinear sampling to solve the problem of the so-called ‘checker-board effect’. The final model, created as a result of the study and named CWGAN-GP_128, is capable of generating realis-tic images of dandelions and marigolds at a resolution of 128x128 pixels. The model learned on the authors' data set con-sists of 900 photos (450 for each class). The learning process includes affine transformations such as rotations and inver-sions to augment the images. It is emphasized that although the results of generative models are often easy to evaluate visually, along with the rapid progress of GAN, the problem of automating the process of checking the quality of generated data is growing. The final model is open for public access, and the results are accessible on the authors' website thisflower-doesnotexist.herokuapp.com.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/37127