• English
    • українська
  • українська 
    • English
    • українська
  • Увійти
Дивитися документ 
  • Головна
  • Науково-технічна бібліотека
  • Публікації співробітників бібліотеки
  • JetIQ
  • Дивитися документ
  • Головна
  • Науково-технічна бібліотека
  • Публікації співробітників бібліотеки
  • JetIQ
  • Дивитися документ
Сайт інституційного репозитарію ВНТУ містить роботи, матеріали та файли, які були розміщені докторантами, аспірантами та студентами Вінницького Національного Технічного Університету. Для розширення функцій сайту рекомендується увімкнути JavaScript.

Optimising fuzzy hash function parameters for ensuring compliance with Open Data Regulations

Автор
Maidanevych, L.
Kondratenko, N.
Kazmirevskyi, V.
Майданевич, Л. О.
Кондратенко, Н. Р.
Казміревський, В. В.
Дата
2024
Metadata
Показати повну інформацію
Collections
  • JetIQ [455]
Анотації
The aim of this study was to investigate the parameters of the hash function to enhance the efficiency and accuracy of detecting similarities in text fragments across various web resources when monitoring compliance with the requirements of the Regulation on Open Data on official government websites. The research focused on assessing three key parameters of the hash function: block size, prime number base, and modulus. To achieve this, a series of experiments was conducted, employing different combinations of these parameters to generate hash values for text data. The results demonstrated which parameter combinations provide the best balance between accuracy, completeness, F-measure, and execution time. The study showed that specific parameter configurations enable a significant improvement in algorithm accuracy while minimising computational costs, which is particularly important for real-time data analysis. It is established that optimising the parameters of the hash function reduces the occurrence of false positives and false negatives, which are common issues in similarity detection. In particular, selecting optimal values for each parameter significantly enhances the accuracy and completeness of the analysis, leading to more precise text fragment comparisons and reduced execution time. This optimisation makes the fuzzy hashing algorithm well-suited for use in automated systems that monitor government websites for compliance with open data regulations. Furthermore, the study found that parameter optimisation decreases the number of duplicate records, which is especially relevant for ensuring that open data adheres to legislative requirements. The conclusions drawn from this research can be applied to the development of software tools designed to efficiently identify deficiencies and improve transparency and legal compliance. Additionally, the findings can contribute to further optimisation of fuzzy hash function algorithms, thereby advancing data monitoring technologies for regulatory compliance. This study enhances the development of web resource monitoring technologies by demonstrating how the careful selection of fuzzy hash function parameters can substantially improve the efficiency and reliability of open data analysis
 
Метою роботи було дослідження параметрів геш-функції для підвищення ефективності та точності виявлення подібності текстових фрагментів на різних веб-ресурсах при проведенні моніторингу дотримання вимог Положення щодо відкритих даних на офіційних веб-сайтах державних органів. Дослідження охопило оцінку трьох ключових параметрів геш-функції: розміру блоку, бази простого числа та модуля. Для цього було проведено серію експериментів, у яких різні комбінації цих параметрів використовувалися для генерування геш-значень текстових даних. Результати дослідження продемонстрували, які комбінації параметрів забезпечують найкращий баланс між точністю, повнотою, F-мірою та часом виконання. Показано, що певні комбінації параметрів дозволяють досягти значного підвищення точності алгоритму при мінімізації обчислювальних витрат, що є важливим для аналізу даних у реальному часі. Встановлено, що оптимізація параметрів гешфункції сприяє зниженню кількості хибнопозитивних та хибнонегативних результатів, які часто виникають при виявленні подібності. Зокрема, підбір оптимальних значень для кожного з параметрів суттєво підвищує точність і повноту аналізу, дозволяючи отримати більш точні результати порівняння текстових фрагментів та зменшуючи час виконання операцій. Це робить алгоритм нечіткого гешування придатним для застосування в автоматизованих системах моніторингу державних веб-сайтів щодо дотримання вимог щодо відкритих даних. Виявлено, що оптимізація параметрів дозволяє зменшити кількість дубльованих записів, що особливо актуально для забезпечення відповідності відкритих даних вимогам законодавства. Одержані висновки можуть бути використані для розробки програмних засобів, які допоможуть ефективно виявляти недоліки та сприятимуть підвищенню прозорості та відповідності правовим вимогам. Крім того, результати дослідження можуть бути використані для подальшої оптимізації алгоритмів нечіткої геш-функції, що сприятиме вдосконаленню технологій моніторингу даних на відповідність нормативним вимогам. Дослідження робить внесок у розвиток технологій моніторингу веб-ресурсів, демонструючи, як правильно підібрані параметри нечіткої геш-функції можуть значно підвищити ефективність і надійність аналізу відкритих даних
 
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/44531
Відкрити
173962.pdf (1.366Mb)

Інституційний репозиторій

ГоловнаПошукДовідкаКонтактиПро нас

Ресурси

JetIQСайт бібліотекиСайт університетаЕлектронний каталог ВНТУ

Перегляд

Всі архівиСпільноти та колекціїЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOIЦя колекціяЗа датою публікаціїАвторамиНазвамиТемамиТипВидавництвоМоваУДКISSNВидання, що міститьDOI

Мій обліковий запис

ВхідРеєстрація

Статистика

View Usage Statistics

ISSN 2413-6360 | Головна | Відправити відгук | Довідка | Контакти | Про нас
© 2016 Vinnytsia National Technical University | Extra plugins code by VNTU Linuxoids | Powered by DSpace
Працює за підтримки 
НТБ ВНТУ