Виявлення подібності між текстами дописів віртуальних спільнот для формування документації програмного забезпечення

Синько, А. І.; Synko, A.

dc.contributor.author	Синько, А. І.	uk
dc.contributor.author	Synko, A.	en
dc.date.accessioned	2024-06-24T09:39:08Z
dc.date.available	2024-06-24T09:39:08Z
dc.date.issued	2024
dc.identifier.citation	Синько А. І. Виявлення подібності між текстами дописів віртуальних спільнот для формування документації програмного забезпечення // Вісник Вінницького політехнічного інституту. 2024. № 1. С. 45-50.	uk
dc.identifier.issn	1997–9266
dc.identifier.issn	1997–9274
dc.identifier.uri	https://ir.lib.vntu.edu.ua//handle/123456789/42875
dc.description.abstract	Галузь інформаційних технологій складається з двох суттєво різних частин: виробництво інформаційної техніки (машин, обладнання, програм тощо) і виробництво безпосередньо інформації, яка повинна бути задокументованою. На сьогодні попит на розробку програмного забезпечення є рекордно високим і навіть перевищує пропозицію на ринку. Важливою рисою програмного забезпечення є наявність належної супровідної документації, яка є потрібною як для розробників, так і для кінцевих споживачів. Інформаційними джерелами для формування документації програмного забезпечення можуть бути віртуальні спільноти, які є найвідвідуванішими ресурсами серед користувачів мережі Інтернет. Переваги використання віртуальних спільнот перелічені у роботі. Однією з характеристик документації є наявність унікального інформаційного наповнення, для виконання якого, після завантаження дописів з відібраних експертом віртуальних спільнот до сховища даних, необхідно перевірити їхній вміст. В результаті чого розроблено підхід до виявлення подібності, який відображає косинусоїдну подібність між всіма наявними дописами. Проведене дослідження показало, що більшість дописів містять унікальний контент, але деякі можуть мати подібні тексти. Перевагою застосування підходу до виявлення подібності є те, що після його виконання серед усіх попарно порівнювальних дописів можна визначити позиції пар дописів, значення мір яких зацікавлять дослідника та дозволять провести аналіз за різними методами. Досліджено випадки подібності тестів дописів та описано дії щодо їхнього вирішення, одним з яких є об’єднання подібних дописів та збереження всіх коментарів. Рекомендовано для дописів, що отримали високе значення міри подібності завдяки описаному підходу, надалі застосувати метод N-грам, який дозволить виявити ті частини текстів, що є різними для подальшого прийняття рішень.	uk
dc.description.abstract	The field of information technologies consists of two significantly different parts: the production of information technologies (machines, equipment, programs, etc.) and the production of the information itself, which must be documented. Today, the demand for software development is at a record high and even exceeds the market supply. An important feature of software is the availability of proper accompanying documentation, which is necessary for both developers and end users. Information sources for the formation of software documentation can be virtual communities, which are the most visited resources among Internet users. The advantages of using virtual communities are given in the article. An important characteristic of software documentation is the provision of unique information content. To fulfill this requirement, it is necessary to check their content after uploading the publications to the data repository. It should be noted that virtual communities for the formation of software documentation should be thematic. As a result, a method was developed that displays the cosine similarity between all available posts. The research conducted showed that most of the posts contain unique content, but some may have similar texts. The advantage of using the similarity detection method is that after its execution among all pairwise comparison posts, the positions of pairs of posts can be determined. In the future, we will choose posts whose values will be of interest to the researcher and will allow us to conduct analysis using other methods. Next, cases of post similarity tests were investigated and actions to solve them were described, one of which is to joint similar posts and save all comments. It is recommended to use the N-gram method for posts that received a high value of the similarity measure using the cosine similarity method.	en
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Вісник Вінницького політехнічного інституту. № 1 : 45-50.	uk
dc.relation.uri	https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2976
dc.subject	віртуальна спільнота	uk
dc.subject	документація	uk
dc.subject	програмне забезпечення	uk
dc.subject	косинусоїдна подібність	uk
dc.subject	virtual community	en
dc.subject	documentation	en
dc.subject	software	en
dc.subject	cosine similarity	en
dc.title	Виявлення подібності між текстами дописів віртуальних спільнот для формування документації програмного забезпечення	uk
dc.title.alternative	Detecting similarity between the texts of posts of virtual communities for the formation of software documentation	en
dc.type	Article
dc.identifier.udc	004.02
dc.relation.references	О. В. Марковець, і А. І. Синько, «Формування якісної технічної документації до програмного забезпечення,» Вісник Вінницького політехнічного інституту, вип. 2 (155), с. 98-106, 2021. https://doi.org/10.31649/1997-9266-2021-155-2-98-106 .	uk
dc.relation.references	П. І. Жежнич, і О. О. Сопрунюк, «Консолідація відкритих інформаційних ресурсів в туристичній сфері,» Комп’ютерні науки та інформаційні технології: Вісник Національного університету «Львівська політехніка», № 771, с. 3-11, 2013.	uk
dc.relation.references	Л. М. Колєчкіна, і О. П. Пухтєєва, «Розробка методу і алгоритму перевірки тексту на унікальність,» Нові технології, № 1-2, с. 58-62, 2013.	uk
dc.relation.references	К. К. Духновська, Я. А. Страшок, і П. В. Шило, «Інформаційна технологія для проведення лематизації і стемінгу в україномовних текстах,» Прикладні системи та технології в інформаційному суспільстві, зб. тез VI Міжнародної науковопрактичної конференції, № 1, с. 119-127, 2013. Режим доступу: http://kist.ntu.edu.ua/konferencii/32_konf_2022.pdf#page=119 .	uk
dc.relation.references	D. Khyani, B. S. Siddhartha, N. M. Niveditha, and B.M. Divya, “An Interpretation of Lemmatization and Stemming in Natural Language Processing,” Journal of University of Shanghai for Science and Technology, vol. 22 (10), pp. 350-357, 2020.	en
dc.relation.references	A. Jalilifard, V. F. Carida, A. F. Mansando, R. S. Cristo, F. Penhorate, and C. Fonseca, “Semantic Sensitive TF-IDF to Determine Word Relevance in Documents,” Computing and Network Communications, vol. 736, pp. 327-337, 2021. https://doi.org/10.1007/978-981-33-6987-0_27 .	en
dc.relation.references	Ю. А. Кравченко, А. М. Мансур, і Ж. Х. Мохаммад, «Векторизация текста с использованием методов интеллектуального анализа данных,» Известия ЮФУ, № 2, с. 154-167, 2021. https://doi.org/10.18522/2311-3103-2021-2-154-167 .	ru
dc.relation.references	P. Kwangil, H. S. June, and K. Wooju, “A Methodology Combining Cosine Similarity with Classifier for Text Classification,” An International Journal Applied Artificial Intelligence, vol. 34, pp. 396-411, 2020. https://doi.org/https://doi.org/10.1080/08839514.2020.1723868 .	en
dc.relation.references	J. Awwalu, A. A. Bakar, and M. R. Yaakub, “Hybrid N-gram model using Naïve Bayes for classification of political sentiments on Twitter,” Neural Computing and Applications, no. 31, pp. 9207-9220, 2019. https://doi.org/10.1007/s00521- 019-04248-z .	en
dc.relation.references	К. Т. Кузьма, «Інформаційна технологія оцінки рівня подібності рядків на основі методу N-грам,» Вчені записки ТНУ імені В.І. Вернадського, т. 31 (70), ч. 1, № 6, с. 96-99, 2020. https://doi.org/10.32838/TNU-2663-5941/2020.6-1/16 .	uk
dc.identifier.doi	https://doi.org/10.31649/1997-9266-2024-172-1-45-50

Файли в цьому документі

Ім'я:: ВИЯВЛЕННЯ ПОДІБНОСТІ.pdf
Розмір:: 499.2Kb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Вісник Вінницького політехнічного інституту. 2024. № 1 [19]

Показати скорочену інформацію