dc.contributor.author | Штовба, С. Д. | uk |
dc.contributor.author | Петричко, М. В. | uk |
dc.contributor.author | Петранова, М. Ю. | uk |
dc.contributor.author | Shtovba, S. | en |
dc.contributor.author | Petrychko, M. | en |
dc.contributor.author | Petranova, M. | en |
dc.date.accessioned | 2024-06-14T10:54:25Z | |
dc.date.available | 2024-06-14T10:54:25Z | |
dc.date.issued | 2023 | |
dc.identifier.citation | Штовба С. Д. Метрика схожості категоріальних розподілів, що враховує спорідненість різних категорій [Текст] / С. Д. Штовба, М. В. Петричко, М. Ю. Петранова // Вісник Вінницького політехнічного інституту. – 2023. – № 2. – С. 49-57. | uk |
dc.identifier.issn | 1997–9266 | |
dc.identifier.issn | 1997–9274 | |
dc.identifier.uri | https://ir.lib.vntu.edu.ua//handle/123456789/42776 | |
dc.description.abstract | Оцінювання схожості двох об’єктів — це поширена задача в розпізнаванні образів, кластеризації
та класифікації. Прикладами таких задач є підбір рецензентів наукових робіт, аналіз схожості текстових документів, ідентифікація поз людей у відеоряді, кластеризація природних ареалів, формування рекомендацій в інтернет-магазинах тощо. У випадку категоріальних атрибутів об’єкти описуються деяким розподілом ступенів належності за категоріями. Метрики схожості таких розподілів
зазвичай є суперпозицією схожості об’єктів за кожною категорією. Найчастіше це сума схожості за
окремими категоріями. При цьому, кожна категорія розглядається незалежно та ізольовано від інших. В деяких практичних задачах категорії є спорідненими. Тому схожість між об’єктами доцільно
розраховувати не лише напряму, як схожість між еквівалентними категоріями, але враховувати і
непряму, перехресну схожість через споріднені категорії. Саме така метрика схожості двох категоріальних розподілів, що враховує спорідненість різних категорій, і пропонується у статті. Метрика
має дві складові. Перша складова реалізована метрикою Чекановського. Вона визначає пряму схожість розподілів за категоріями як суму перетину розподілів належностей двох об’єктів. Після перетину розподілів залишаються залишки, які і враховуються другою складовою запропонованої метрики. Друга складова метрики є сумою поелементного добутку двох матриць: матриці композиції залишків належності двох категоріальних розподілів та матриці попарної спорідненості категорій.
Передбачається, що коефіцієнти спорідненості кожної пари категорій є відомими. Встановлено, що за
великої кількості категорій сумарний шумовий внесок від слабо споріднених категорій є значним. Тому
запропоновано цей шум фільтрувати і враховувати лише внесок від сильно споріднених категорій. | uk |
dc.description.abstract | Estimating a level of similarity of two objects is a common problem in pattern recognition, clustering and classification.
Among these problems can be reviewer recommendation, similar text documents analysis, human pose detection in video,
species distribution clustering, recommendation in internet-shops etc. In case of categorical attributes an object is described
as a distribution of membership degrees over categories. Similarity metrics of such distributions are usually defined as a
superposition of objects’ similarities for each category. Most often it is a sum of similarities in separate categories. In addition to that each category is considered independently and in isolation from the others. Some practical problems have categories that are kinship. Therefore, it is expedient to consider objects’ similarity not only directly, as a similarity between
equivalent categories, but it is also necessary to consider an indirect similarity, cross-similarity through kinship categories. It
is such similarity metric of two categorical distributions that accounts for the kinship of different categories is proposed in this
paper. The metric has two components. The first component is defined as Czekanowski metric. It defines a direct similarity
of categorical distributions as a sum of intersection of distributions’ membership degrees of two objects. After the intersection the residuals are accounted for in the second component of the metric. The second metric’s component is defined as
element-wise product of two matrices: matrix of residuals composition from membership degrees of two categorical distributions and matrix of categories’ paired kinship. It is assumed that kinship indices for each pair of categories are known. As a
result, with a large number of categories the overall noisy contribution from weakly kinship categories is prominent. Therefore, it is proposed to filter the noise and account only for contribution from strongly kinship categories. | en |
dc.language.iso | uk_UA | uk_UA |
dc.publisher | ВНТУ | uk |
dc.relation.ispartof | Вісник Вінницького політехнічного інституту. № 2 : 49-57. | uk |
dc.relation.uri | https://visnyk.vntu.edu.ua/index.php/visnyk/article/view/2863 | |
dc.subject | категоріальний розподіл | uk |
dc.subject | споріднені категорії | uk |
dc.subject | метрика схожості | uk |
dc.subject | метрика Чекановського | uk |
dc.subject | розпізнавання поз | uk |
dc.subject | підбір рецензентів | uk |
dc.subject | узагальнений розподіл Парето | uk |
dc.subject | categorical distribution | en |
dc.subject | kinship categories | en |
dc.subject | similarity metric | en |
dc.subject | Czekanowski metric | en |
dc.subject | pose detection | en |
dc.subject | reviewer recommendation | en |
dc.subject | generalized Pareto distribution | en |
dc.title | Метрика схожості категоріальних розподілів, що враховує спорідненість різних категорій | uk |
dc.title.alternative | A similarity metric of categorical distributions that accounts for the kinship of different categories | en |
dc.type | Article | |
dc.identifier.udc | 004.852 | |
dc.relation.references | N. Sebe, J. Yu, Q. Tian, and J. Amores, “A New Study on Distance Metrics as Similarity Measurement,” in 2006 IEEE International Conference on Multimedia and Expo, Toronto, Ont., 2006, pp. 533-536. https://doi.org/10.1109/ICME.2006.262443 . | en |
dc.relation.references | Wang Wen-June, “New similarity measures on fuzzy sets and on elements,” Fuzzy sets and systems, no. 85.3,
pp. 305-309, 1997. https://doi.org/10.1016/0165-0114(95)00365-7 . | en |
dc.relation.references | Cha Sung-Hyuk. “Comprehensive Survey on Distance/Similarity Measures between Probability Density Functions,” International journal of mathematical models and methods in applied sciences, no. 1.4, pp. 300-307, 2007. | en |
dc.relation.references | Jie Yu, Qi Tian, J. Amores, and N. Sebe, “Toward Robust Distance Metric Analysis for Similarity Estimation,” in 2006
IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, pp. 316-322,
https://doi.org/10.1109/CVPR.2006.310 . | en |
dc.relation.references | S. Shtovba, and M. Petrychko, “An Algorithm for Topic Modeling of Researchers Taking Into Account Their Interests in
Google Scholar Profiles,” in CEUR Workshop Proceedings, vol. 2864 “Proceedings of the Fourth International Workshop on
Computer Modeling and Intelligent Systems”, pp. 299-311, 2021. https://doi.org/10.32782/cmis/2864-26 . | en |
dc.relation.references | S. Shtovba, and M. Petrychko, “Jaccard Index-Based Assessing the Similarity of Research Fields in Dimensions,” CEUR
Workshop Proceedings, vol. 2533 “Proceedings of the First International Workshop on Digital Content & Smart Multimedia”,
pp. 117-128, 2019. | en |
dc.identifier.doi | https://doi.org/10.31649/1997-9266-2023-167-2-49-57 | |