Інформаційна система ієрархічної категоризації науковців за відкритими даними з Google Scholar. Частина 1. Інтелектуальний аналіз даних
Abstract
У роботі представлено метод багатоярликової ієрархічної класифікації науковців за їх інтересами в системі Google Scholar. Розроблений метод дає можливість автоматично віднести науковця до декількох релевантних наукових спеціальностей та галузей в системі ANZSRC. Першим науковим результатом роботи є модель оцінювання схожості наукових спеціальностей на основі статистики публікацій в системі Dimensions на основі індексу Жаккара. Другим науковим результатом роботи є удосконалений алгоритм категоризації науковців, який: а) окрім окремих інтересів враховуються ще і пари інтересів науковця,; б) під час редукції списку спеціальностей враховується їх схожість за запропонованою моделлю. На основі наукових результатів створена відповідна інформаційна система. In the work, a method for multi-label hierarchical classification of researchers based on their interests in Google Scholar is presented. The method allows to automatically classify a researcher to a few research specialities and domains that fit for him the most in ANZSRC system. The first research result is the model to assess similarity of research specialities based on statistic of publications in Dimensions and Jaccard’s index. The second research result is improved categorization method that: a) in addition to interests the pair of interests of a researcher is used; b) research specialities reduction uses specialities’ similarity. Based on research results the information system was created.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/32592