Показати скорочену інформацію

dc.contributor.authorЗдебський, П. В.uk
dc.contributor.authorБерко, А. Ю.uk
dc.date.accessioned2024-06-21T06:27:39Z
dc.date.available2024-06-21T06:27:39Z
dc.date.issued2024
dc.identifier.citationЗдебський, П. В., Берко, А. Ю. Перевірка тексту після генерації за допомогою великих мовних моделей для фільтрування неправильних відповідей. Наукові праці ВНТУ. Електрон. текст. дані. 2024. № 1. URI: https://praci.vntu.edu.ua/index.php/praci/article/view/713.uk
dc.identifier.issn2307-5376
dc.identifier.urihttps://ir.lib.vntu.edu.ua//handle/123456789/42846
dc.description.abstractСьогодні особливо актуальною є задача узгодження великих мовних моделей. Моделі настільки здатні, що можуть вирішити багато різних завдань, використовуючи підхід zero-shot. Але оскільки вони стали більш здатними, вони знаходять обхідні шляхи для вирішення завдань не так, як очікують дослідники. Це особливо небезпечно у виробничому середовищі, оскільки важко контролювати вихід моделі, яка була навчена бути універсальною. У цій роботі пропонується використовувати одну і ту ж модель кілька разів в різній формі з метою покращення якості згенерованого тексту. Подальший розвиток отримав метод підвищення точності моделей генерації текстового контенту. Це дозволяє користувачеві не наводити десятки прикладів бажаної та небажаної поведінки моделі, оскільки сама модель може робити це автоматично. Тобто, на відміну від звичайних методів підвищення точності моделі, які вимагають навчального набору моделей, запропонований підхід включає етап ідентифікації. В результаті ідентифікації ми отримуємо набір прикладів, на яких модель автоматично навчається і тим самим підвищує свою точність. У цій роботі було запропоновано два конкретні методи. Перший метод просто використовує модель дискримінатора для перевірки результатів моделі генератора та запитує повторно створити текст, якщо результати не відповідають критеріям користувача. За допомогою цього підходу вдалося видалити всі неправильні генерації, але за рахунок позначення третини правильних як неправильні. Другий підхід більш складний, він окрім дискримінатора також використовує модель імітатора. Процес вимагає, щоб модель імітатора генерувала зразки введених користувачем даних, потім генератор генерував текст відповіді для кожного зразка, після чого дискримінатор перевіряв згенеровані результати та додавав їх до навчальних даних. Це підвищило точність з 56 % до 66 % у задачі логічного висновку.uk
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofНаукові праці ВНТУ. № 1.uk
dc.relation.urihttps://praci.vntu.edu.ua/index.php/praci/article/view/713
dc.subjectgpt-4en
dc.subjectзадача узгодженняuk
dc.subjectгенерація текстуuk
dc.subjectобробка природної мовиuk
dc.subjectзадача логічного висновкуuk
dc.titleПеревірка тексту після генерації за допомогою великих мовних моделей для фільтрування неправильних відповідейuk
dc.typeArticle
dc.identifier.udc004.8
dc.relation.referencesThe alignment problem from a deep learning perspective [Electronic resource] / R. Ngo, L. Chan, S. Mindermann // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2209.00626.en
dc.relation.referencesGoal Misgeneralization in Deep Reinforcement Learning / L. Langosco; J. Koch, L. D. Sharkey [et al.] // Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. – 2022. – P. 12004 – 12019.en
dc.relation.referencesTraining language models to follow instructions with human feedback [Electronic resource] / L. Ouyang, J. Wu, X. Jiang [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.02155.en
dc.relation.referencesLarge Language Models are Zero-Shot Reasoners [Electronic resource] / T. Kojima, S. S. Gu, M. Reid [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2205.11916.en
dc.relation.referencesSTaR: Bootstrapping reasoning with reasoning [Electronic resource] / E. Zelikman, Y. Wu, J. Mu, N. D. Goodman [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.14465.en
dc.relation.referencesSelf-consistency improves chain of thought reasoning in language models [Electronic resource] / X. Wang, J. Wei, D. Schuurmans, [et al.] // arXiv. – 2022. – Access mode : https://arxiv.org/abs/2203.11171.en
dc.relation.referencesTraining verifiers to solve math word problems [Electronic resource] / K. Cobbe, V. Kosaraju, B. Mohammad [et al.] // arXiv. – 2021. – Access mode : https://arxiv.org/abs/2110.14168.en
dc.relation.referencesIntelligent System for Semantically Similar Sentences Identification and Generation Based on Machine Learning Methods / P. Zdebskyi, V. Lytvyn, Y. Burov [et al.] // CEUR workshop proceedings – 2023. – Vol. 2604. – P. 317 – 346.en
dc.relation.referencesExplaining simple natural language inference / A.-L. Kalouli, A. Buis, L. Real, M. Palmer, V. de Paiva [et al.] // Proceedings of the 13th Linguistic Annotation Workshop. – 2019. – P. 132 – 143.en
dc.identifier.doihttps://doi.org/10.31649/2307-5376-2024-1-1-6


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію