Показати скорочену інформацію

dc.contributor.authorСавчук, Т. О.uk
dc.contributor.authorГоробець, Ю. В.uk
dc.date.accessioned2019-05-16T08:42:02Z
dc.date.available2019-05-16T08:42:02Z
dc.date.issued2018
dc.identifier.citationСавчук Т. О. Удосконалений метод виявлення ключових слів у WEB-тексті [Текст] / Т. О. Савчук, Ю. В. Горобець // Інформаційні технології та комп'ютерна інженерія. – 2018. – № 3. – С. 43-47.uk
dc.identifier.issn1999-9941
dc.identifier.issn2078-6387
dc.identifier.urihttp://ir.lib.vntu.edu.ua//handle/123456789/24816
dc.description.abstractУ роботі запропоновано удосконалення методу виявлення ключових слів і словосполучень у web-тексті. Розглянуто такі основні етапи формування множини ключових слів та словосполучень з метою знайти шляхи підвищення швидкодії індексації та реферування web-текстів, як токенізація вихідного тексту, виключення стоп-слів, відсікання основ і закінчень із тексту, формування ключових слів та словосполучень з вихідного тексту. Запропоноване удосконалення базується на використанні словника предметної області, складеного експертом. Словник формується з урахуванням частоти повторень ключових слів та словосполучень у web-тексті, що покращить їх релевантність. Було виконано порівняння якості виявлених ключових слів та словосполучень в україномовних та англомовних web-текстах системами «Експертні КС», «OpenCalais», «Extractor», а також системою, що базується на запропонованому методі з використанням словника, за такими метриками як повнота, точність та F-міра. Аналіз показав, що запропонований удосконалений метод виявлення ключових слів та словосполучень в україномовних і англомовних web-текстах, надасть можливість виявляти релевантні слова та словосполучення з підвищенням їх F-міри на 9.5%, а повноти та точності - на 15% .uk
dc.description.abstractВ работе предложено усовершенствование метода выявления ключевых слов и словосочетаний в web-тексте. Рассмотрены следующие основные этапы формирования множества ключевых слов и словосочетаний с целью найти пути повышения быстродействия ин дек-сации и реферирования web-текстов, токенизация исходного текста, исключение стоп-слов, отсечение основ и окончаний из текста, формирование ключевых слов и словосочетаний из исходного текста. Предложенное совершенствование базируется на использовании словаря предметной области, составленного экспертом. Словарь формируется с учетом частоты повторений ключевых слов и словосочетаний в web-тексте, улучшит их релевантность. Было выполнено сравнение качества выявле-ных ключевых слов и словосочетаний в украиноязычных и англоязычных web-текстах системами «Экспертные КС», «Open-Calais», «Extractor», а также системой, базирующейся на предложенном методе с использованием словаря, по таким метрикам как полнота, точность и F-мера. Анализ показал, что предложенный усовершенствованный метод выявления ключевых слов и словосочетаний в украиноязычных и англоязычных web-текстах, позволит выявлять релевантные слова и словосочитания с повышением их F-меры на 9.5%, а полноты и точности - на 15%.ru
dc.description.abstractThe paper proposes an improvement of the method of extracting key words and phrases in the web-text. The following main stages of the formation of a plurality of key words and phrases are considered in order to find ways to increase the speed of indexing and refereeing web texts, to accurate source text, exclude stop words, cut off bases and endings from the text, the formation of key words and phrases from the source text. The proposed improvement is based on the use of the vocabulary of the subject area compiled by the expert. The dictionary is formed taking into account the frequency of repetitions of keywords and phrases in the web-text, will improve their relevancy. The comparison of the quality of the revealing keywords and phrases in the Ukrainian and English language web texts with the systems Expert Review, Open-Calais, Extractor, as well as the system based on the proposed method using the dictionary, recall, accuracy and F-measure. The analysis showed that the proposed advanced method for extracting keywords and phrases in Ukrainian and English web-texts will allow to reveal relevant words and word-received with an increase of their F-measures by 9.5%, and completeness and accuracy by 15%.en
dc.language.isouk_UAuk_UA
dc.publisherВНТУuk
dc.relation.ispartofІнформаційні технології та комп'ютерна інженерія. № 3 : 43-47.uk
dc.relation.urihttps://itce.vntu.edu.ua/index.php/itce/article/view/719
dc.subjectNaturalLanguageProcessing: TextMiningen
dc.subjectKeywordsExtractionen
dc.subjectвиявлення термінівuk
dc.subjectвиявлення ключових слівuk
dc.subjectобробка природної мовиuk
dc.subjectкомп'ютерна лінгвістикаuk
dc.subjectизъятие сроковru
dc.subjectизъятие ключевых словru
dc.subjectобработка естественного языкаru
dc.subjectкомпьютерная лингвистикаru
dc.subjectwithdrawal of termen
dc.subjectkeyword extractionen
dc.subjectnatural language processingen
dc.subjectcomputer linguisticsen
dc.titleУдосконалений метод виявлення ключових слів у WEB-текстіuk
dc.title.alternativeУсовершенствованый метод выявления ключевых слов в WEB-текстеru
dc.title.alternativeImproved method of extraction of keywords in the WEB-texten
dc.typeArticle
dc.identifier.udc004.8
dc.relation.referencesBracewell, D. B., Ren F. Multilingual Single Document Keyword Extraction for Information Retrieval. Proceedings of NLP-KE, 2005, pp. 517-522.en
dc.relation.referencesБольшакова Є. І., Клишінскій Е. С., Ланде Д. В., Носков А. А., Пєскова О. В., Ягунова Є. В. Авто-матична обробка текстів на природній мові і комп'ютерна лінгвістика: навч. посібник. М .: МІЕМ, 2011. 272 с.uk
dc.relation.referencesHasan K. Automatic Keyphrase Extraction: A Survey of the State of the Art / K. Hasan, V. Ng // Pro-ceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. – 2011. – Vol 1. – pp. 1262-1273.en
dc.relation.referencesDictionary Based Annotation at Scale with Spark, SolrTextTagger and OpenNLP [Електронний ре-сурс] / Sujit Pal // Spark Summit 2015. Europe. - URL: https://spark-summit.org/eu-2015/events/dictionary-based-annotation-at-scale-with-spark-solrtexttagger-and-opennlp.en
dc.relation.referencesПлющ М.Я Граматика української мови: У 2-ч. Ч. 1. Морфеміка. Словотвір. Морфологія: Підруч-ник. — К.: Вища шк., 2005. — 286 сuk
dc.relation.referencesDostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. Proceedings of the Dateso 2011: Annual International Workshop on Databases, Texts, Specifications and Objects. Pisek, Czech Republic, 2011, pp. 140-145.en
dc.relation.referencesThe Porter Stemming Algorithm – Porter’s homepage. [Електронний ресурс]. – Режим доступу: http://tartarus.org/~martin/ PorterStemmer/. – Назва з титул. екрануen
dc.relation.referencesАгєєв, М. Додаток А. Офіційні метрики РОМІП 2010 / М. Агєєв, І. Кураленок, І. некрестьянам // Праці РОМІП'2010. СПб .: Изд-во НУ ЦСМ. -2010. - c. 172-187.uk
dc.relation.referencesExtractor [Електронний ресурс] – Режим доступу до ресурсу:https://extractor.com/.en
dc.relation.referencesOpenCalasis [Електронний ресурс] – Режим доступу до ресурсу: https://opencalasis.com/en
dc.relation.referencesЕкспертні КС [Електронний ресурс] – Режим доступу до ресурсу: https://expertcs;ua/.uk
dc.identifier.doihttps://doi.org/10.31649/1999-9941-2018-43-3-43-47


Файли в цьому документі

Thumbnail

Даний документ включений в наступну(і) колекцію(ї)

Показати скорочену інформацію