Класифікація жартів за категоріями гумору з використанням методів машинного навчання
Анотації
Дослідження присвячено задачі автоматичної класифікації жартів (анекдотів) за категорією гумору із застосуванням методів машинного навчання. Запропоновано підхід, що передбачає попередню векторизацію текстів жартів із використанням TF-IDF та балансування вибірки за допомогою SMOTE. Для розв’язання задачі класифікації застосовано логістичну регресію, яка навчалася на синтетично розширених даних. Проведено експерименти на корпусі з чотирьох категорій гумору: абсурд, каламбур, чорний гумор та сарказм. Результати класифікації демонструють високу точність за умови належної підготовки даних і правильного налаштування гіперпараметрів моделі. The study is devoted to the problem of automatic classification of jokes (anecdotes) by humour category using machine learning methods. An approach is proposed that involves pre-vectorization of joke texts using TF-IDF and sample balancing using SMOTE. To solve the classification problem, logistic regression is used, which is trained on synthetically enhanced data. Experiments were conducted on a corpus of four categories of humour: absurdity, pun, black humour and sarcasm. The classification results demonstrate high accuracy provided that the data is properly prepared and the model hyperparameters are correctly adjusted.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48246