dc.contributor.author | Здебський, П. В. | uk |
dc.contributor.author | Берко, А. Ю. | uk |
dc.date.accessioned | 2024-06-21T06:27:39Z | |
dc.date.available | 2024-06-21T06:27:39Z | |
dc.date.issued | 2024 | |
dc.identifier.citation | Здебський, П. В., Берко, А. Ю. Перевірка тексту після генерації за допомогою великих мовних моделей для фільтрування неправильних відповідей. Наукові праці ВНТУ. Електрон. текст. дані. 2024. № 1. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/713. | uk |
dc.identifier.issn | 2307-5376 | |
dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/42846 | |
dc.description.abstract | Сьогодні особливо актуальною є задача узгодження великих мовних моделей. Моделі настільки здатні, що можуть вирішити багато різних завдань, використовуючи підхід zero-shot. Але оскільки вони стали більш здатними, вони знаходять обхідні шляхи для вирішення завдань не так, як очікують дослідники. Це особливо небезпечно у виробничому середовищі, оскільки важко контролювати вихід моделі, яка була навчена бути універсальною. У цій роботі пропонується використовувати одну і ту ж модель кілька разів в різній формі з метою покращення якості згенерованого тексту.
Подальший розвиток отримав метод підвищення точності моделей генерації текстового контенту. Це дозволяє користувачеві не наводити десятки прикладів бажаної та небажаної поведінки моделі, оскільки сама модель може робити це автоматично. Тобто, на відміну від звичайних методів підвищення точності моделі, які вимагають навчального набору моделей, запропонований підхід включає етап ідентифікації. В результаті ідентифікації ми отримуємо набір прикладів, на яких модель автоматично навчається і тим самим підвищує свою точність.
У цій роботі було запропоновано два конкретні методи. Перший метод просто використовує модель дискримінатора для перевірки результатів моделі генератора та запитує повторно створити текст, якщо результати не відповідають критеріям користувача. За допомогою цього підходу вдалося видалити всі неправильні генерації, але за рахунок позначення третини правильних як неправильні. Другий підхід більш складний, він окрім дискримінатора також використовує модель імітатора. Процес вимагає, щоб модель імітатора генерувала зразки введених користувачем даних, потім генератор генерував текст відповіді для кожного зразка, після чого дискримінатор перевіряв згенеровані результати та додавав їх до навчальних даних. Це підвищило точність з 56 % до 66 % у задачі логічного висновку. | uk |
dc.language.iso | uk_UA | uk_UA |
dc.publisher | ВНТУ | uk |
dc.relation.ispartof | Наукові праці ВНТУ. № 1. | uk |
dc.relation.uri | https://praci.vntu.edu.ua/index.php/praci/article/view/713 | |
dc.subject | gpt-4 | en |
dc.subject | задача узгодження | uk |
dc.subject | генерація тексту | uk |
dc.subject | обробка природної мови | uk |
dc.subject | задача логічного висновку | uk |
dc.title | Перевірка тексту після генерації за допомогою великих мовних моделей для фільтрування неправильних відповідей | uk |
dc.type | Article | |
dc.identifier.udc | 004.8 | |
dc.relation.references | The alignment problem from a deep learning perspective [Electronic resource] / R. Ngo, L. Chan, S. Mindermann // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2209.00626. | en |
dc.relation.references | Goal Misgeneralization in Deep Reinforcement Learning / L. Langosco; J. Koch, L. D. Sharkey [et al.] // Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. – 2022. – P. 12004 – 12019. | en |
dc.relation.references | Training language models to follow instructions with human feedback [Electronic resource] / L. Ouyang, J. Wu, X. Jiang [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.02155. | en |
dc.relation.references | Large Language Models are Zero-Shot Reasoners [Electronic resource] / T. Kojima, S. S. Gu, M. Reid [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2205.11916. | en |
dc.relation.references | STaR: Bootstrapping reasoning with reasoning [Electronic resource] / E. Zelikman, Y. Wu, J. Mu, N. D. Goodman [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.14465. | en |
dc.relation.references | Self-consistency improves chain of thought reasoning in language models [Electronic resource] / X. Wang, J. Wei, D. Schuurmans, [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.11171. | en |
dc.relation.references | Training verifiers to solve math word problems [Electronic resource] / K. Cobbe, V. Kosaraju, B. Mohammad [et al.] // arXiv. – 2021. – Access mode : https://arxiv.org/abs/2110.14168. | en |
dc.relation.references | Intelligent System for Semantically Similar Sentences Identification and Generation Based on Machine Learning Methods / P. Zdebskyi, V. Lytvyn, Y. Burov [et al.] // CEUR workshop proceedings – 2023. – Vol. 2604. – P. 317 – 346. | en |
dc.relation.references | Explaining simple natural language inference / A.-L. Kalouli, A. Buis, L. Real, M. Palmer, V. de Paiva [et al.] // Proceedings of the 13th Linguistic Annotation Workshop. – 2019. – P. 132 – 143. | en |
dc.identifier.doi | https://doi.org/10.31649/2307-5376-2024-1-1-6 | |