Шляхи відновлення текстової інформації, представленої у вигляді логіко-лінгвістичної моделі
Abstract
Обґрунтовано актуальність вирішення проблеми пошуку змістовних зв’язків в електронних текстових документах з метою подальшого їх порівняння за змістом та удосконалення роботи систем виявлення плагіату. При цьому важливим етапом є оцінювання достовірності сформованих формальних моделей. Тому метою цієї статті є дослідження алгоритму автоматичного аналізу логіко-лінгвістичних моделей електронних текстових документів для відтворення текстової інформації, що об’єднує в собі основні властивості тексту та його складових частин, відображає основні взаємозв’язки між структурними компонентами. Логіко-лінгвістична модель текстового документу представляє собою впорядковану четвірку та масив логіко-лінгвістичних моделей речень природної мови, що входять до тексту. Автором запропоновано декілька шляхів відновлення текстової інформації, що відштовхуються від структури логіко-лінгвістичної моделі електронного текстового документу, яка містить лінгвістичну та семантико-синтаксичну складову. Описано схеми здійснення відновлення текстової інформації, вибрано комбінований спосіб, що передбачає аналіз семантико-синтаксичної складової паралельно з аналізом текстової бази, зокрема, її компоненти – множини пропозицій, що містить зв’язки між логіко-лінгвістичними моделями речень тексту електронного текстового документу. Розроблено алгоритм відновлення текстової інформації, представленої у вигляді формальної логіко-лінгвістичної моделі електронного текстового документу, описано його етапи. Всі кроки алгоритму продемонстровано на прикладі аналізу конкретної заданої логіко-лінгвістичної моделі фрагменту електронного текстового документу. Проведено експерименти щодо відновлення текстової інформації для текстів наукового стилю. Виявлено, що до основних факторів, що впливають на відновлення текстової інформації, належить зняття омонімії, а також різна інтерпретація синонімічних конструкцій та інваріантних форм логіко-лінгвістичних моделей речень природної мови. The materials of the article substantiate the urgency of solving the problem of identifying meaningful links in electronic text documents in order to further compare their content and improve the operation of plagiarism detection systems. An important step is to assess the reliability of the formed formal models. Therefore, the aim of this article is to study the algo-rithm of automatic analysis of logic and linguistic models of electronic text documents for the reproduction of textual infor-mation, which combines the basic properties of the text and its components. The logic and linguistic model of a text docu-ment reflects the main relationships between structural components; it is an ordered quadruple and an array of logic and linguistic models of sentences of natural language, which are included in the text. The author proposes several ways of restoration of textual information, starting from the structure of the logic and linguistic model of an electronic text document, which contains a linguistic and semantic-syntactic component. The article describes the schemes of text information recov-ery, it chooses the combined method, which provides the analysis of semantic-syntactic component in parallel with the anal-ysis of the text base, in particular, its components - a set of sentences containing connections between logic and linguistic models of sentences of the text within electronic text document. It has been developed an algorithm for recovery of textual information presented in the form of a formal logic and linguistic model of an electronic text document, and there have been described the stages of abovementioned algorithm. All steps of the algorithm are demonstrated on the example of analysis of a specific given logic and linguistic model of a fragment of an electronic text document. The author conducted experi-ments on the restoration of textual information for scientific style texts. During experiments, it was revealed, that the main factors influencing the restoration of textual information include the removal of homonymy, as well as different interpretations of synonymous constructions and invariant forms of logic and linguistic models of sentences of natural language.
URI:
http://ir.lib.vntu.edu.ua//handle/123456789/36860