Визначення коефіцієнту унікальності текстового документу з використанням коефіцієнту Жаккарда
Автор
Савчук, Т. О.
Кучевський, Ю. А.
Savchuk, T. O.
Kuchevskyi, Y. A.
Дата
2021Metadata
Показати повну інформаціюCollections
- Наукові роботи каф. КН [824]
Анотації
Стрімкий розвиток мережі Інтернет, поряд зі зростаючою комп`ютерною грамотні-стю, сприяє проникненню плагіату в різні сфери людської діяльності: плагіат є гострою проблемою в освіті, промисловості та науковому співтоваристві. Відповідно до [1] під плагіатом розуміють незаконне використання або розпорядження охоронюваними результатами чужого творчої праці, яке супроводжується доведенням до інших осіб неправдивих відомостей про себе як про дійсного автора. Плагіат може бути порушен-ням авторсько-правового законодавства і патентного законодавства і в якості таких може спричинити за собою юридичну відповідальність. З іншого боку, плагіат можливий і в областях, на які не поширюється дія будь-яких видів інтелектуальної власності, напри-клад, в математиці та інших фундаментальних наукових дисциплінах. Плагіат з появою Інтернету перетворився в серйозну проблему. Потрапивши в Інтернет, знання стає над-банням всіх, дотримуватися авторське право стає все важче, а іноді навіть і неможливо. Тому перевірка унікальності серед документів є актуальною задачею. У статті дослі-джено проаналізовано сучасні методи та засоби перевірки текстової інформації на уні-кальність. Для кожного з них наведено приклад роботи, переваги та недоліки. Зазначено, що актуальною задачею є підвищення точності при перевірці текстів на унікальність. Ідентифіковано метод шинглів як найбільш поширений та ефективний метод перевірки текстової інформації на плагіат. На базі методу шинглів запропоновано удосконалений алгоритм перевірки текстів на унікальність з використанням коефіцієнту Жаккарда. Було пораховано складність запропонованого алгоритму відносно використання пам`яті та процесорної потужності. Наголошено, що з введенням додаткових покращень швидкодія алгоритму не погіршилась. The rapid development of the Internet, along with the growing computer literacy, is contrib-uting to the penetration of plagiarism in various areas of human activity: plagiarism is an acute problem in education, industry and the scientific community. According to [1], plagiarism is understood as the illegal use or disposal of the protected results of another`s creative work, which is accompanied by bringing to others wrong information about himself as a real author. Plagiarism can be a violation of copyright and patent law and as such can lead to legal liability. On the other hand, plagiarism is possible in areas that are not covered by any type of intellectual property, such as mathematics and other basic scientific disciplines. Plagiarism with the advent of the Internet has become a serious problem. Once on the Internet, knowledge becomes the prop-erty of all, it becomes increasingly difficult and sometimes impossible to enforce copyright. Therefore, checking the uniqueness of documents is the important task. The article analyzes mod-ern methods and means of checking textual information for uniqueness. For each of them there are example of work, advantages and disadvantages provided. It is noted that the important task is to increase the accuracy when verifying texts for uniqueness. The shingles method has been identified as the most common and effective method of plagiarizing textual information. Based on the shingles method, an improved algorithm for checking texts for uniqueness using the Jaccard coefficient is proposed. The complexity of the proposed algorithm in terms of memory and pro-cessing power was considered. It is noted that with the introduction of additional improvements, the performance of the algorithm has not deteriorated.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/36052