Архітектура системи дедублікації та розподілу даних у хмарних сховищах під час резервного копіювання

Русин, Б. П.; Погрелюк, Л. В.; Висоцька, В. А.; Осипов, М. М.; Варецький, Я. Ю.; Капшій, О. В.; Rusyn, B. P.; Pohreliuk, L. V.; Vysotska, V. A.; Osypov, M. M.; Varetsky, J. Y.; Kapshiy, O. V.; Русын, Б. П.; Погрелюк, Л. В.; Высоцька, В. А.; Осыпов, М. М.; Варецькый, Я. Ю.; Капший, А. В.

dc.contributor.author	Русин, Б. П.	uk
dc.contributor.author	Погрелюк, Л. В.	uk
dc.contributor.author	Висоцька, В. А.	uk
dc.contributor.author	Осипов, М. М.	uk
dc.contributor.author	Варецький, Я. Ю.	uk
dc.contributor.author	Капшій, О. В.	uk
dc.contributor.author	Rusyn, B. P.	en
dc.contributor.author	Pohreliuk, L. V.	en
dc.contributor.author	Vysotska, V. A.	en
dc.contributor.author	Osypov, M. M.	en
dc.contributor.author	Varetsky, J. Y.	en
dc.contributor.author	Kapshiy, O. V.	en
dc.contributor.author	Русын, Б. П.	ru
dc.contributor.author	Погрелюк, Л. В.	ru
dc.contributor.author	Высоцька, В. А.	ru
dc.contributor.author	Осыпов, М. М.	ru
dc.contributor.author	Варецькый, Я. Ю.	ru
dc.contributor.author	Капший, А. В.	ru
dc.date.accessioned	2020-09-21T10:08:56Z
dc.date.available	2020-09-21T10:08:56Z
dc.date.issued	2019
dc.identifier.citation	Архітектура системи дедублікації та розподілу даних у хмарних сховищах під час резервного копіювання [Текст] / Б. П. Русин, Л. В. Погрелюк, В. А. Висоцька [та ін.] // Інформаційні технології та комп'ютерна інженерія. – 2019. – № 2. – С. 40-63.	uk
dc.identifier.citation	Русин Б. П., Погрелюк Л. В., Висоцька В. А., Осипов М. М., Варецький Я. Ю., Капшій О. В. Архітектура системи дедублікації та розподілу даних у хмарних сховищах під час резервного копіювання. Інформаційні технології та комп'ютерна інженерія. 2019. № 2. С. 40-63.	uk
dc.identifier.issn	1999-9941
dc.identifier.issn	2078-6387
dc.identifier.uri	http://ir.lib.vntu.edu.ua//handle/123456789/30528
dc.description.abstract	Розроблена та детально описана концептуальна модель системи. Розроблена інтелектуальна система дедуплікації та розподілу даних у хмарному сховищі, описано опис програмного забезпечення, розглядаються етапи роботи користувача. Було проведено тестування роботи спроектованої системи. Описано кілька контрольних зразків, проаналізовано результати. Метою системи є дедублікації та розподілу даних у хмарних сховищах таким чином, щоб в кінцевому результаті резервного копіювання даних усунути повторюючі частини даних використовуючи потужності розподіленого обчислення та хмарних сховищ. Підібравши правильний підхід до розподілення завдань і даних під час дедублікації, можливо використати весь потенціал хмарних розподіле-них систем для збільшення швидкості резервного копіювання та його пропускної здатності. Проаналізовано (наведено недоліки та переваги використання різних підходів) та обрані ефективні методи вирішення задач: гібридну дедублікацію на рівні блоків, розбиття потоку даних на основі цифрового відбитку Рабіна, розподіл даних на основі хеш значень блоків дедублікації та викори-стання розподіленого індексу. Дедублікація на рівні блоків передбачає два типи розбиття потоків даних на блоки, це розбиття з фіксованою довжиною та змінною на основі алгоритму. Розбиття з фіксованої довжиною досить тривіальне і швидке відносно складності алгоритму, проте недоліком є зміщення даних на початку потоку, оскільки блоки які будуть слідувати після змін будуть вважатися як нові. Проте у випадку з розбиттям блоків зі змінною довжиною, точку власне розбиття визначає алгоритм. Даний алгоритм повинен працювати з безкінечними потоками даних використовуючи кільцеву хеш функцію. Алгоритм поглинає кожен вхідний байт даних з потоку, і як тільки значення кільцевої хеш функції відповідає заданому раніше шаблону, це і слугує точкою розбиття потоку на блоки. Таким чином, при змінені або зміщені даних на пару байтів, новим буде вважатись лише той блок даних який охоплює дані. Проте для того щоб відслідковувати зміни і правильно виставляти точки розбиття необхідно перевіряти вхідні дані на певний заданий цифровий шаблон – хеш значення. Поширеною практикою є обчислення хеш значення кожен раз на отри-мання вхідного байту в потоці даних. Точкою розбиття стане той момент, коли отримане хеш значення відповідатиме заданому шаблону. Щоб робити такі обчислення ефективно, було придумано алгоритм кільцевого хешу. Один із найпоширеніших алго-ритмів кільцевого хешу є цифровий відбиток Рабіна. В ході аналізу засобів вирішення задач було обрано мову програмування Rust для написання клієнтської частини, мову програмування Scala для серверної частини, інструментарій Akka для менеджменту розподілених обчислень та Amazon S3 в якості хмарного сховища.	uk
dc.description.abstract	Разработана и подробно описана концептуальная модель системы. Разработана интеллектуальная система дедуплика-ции и распределения данных в облачном хранилище, описано описание программного обеспечения, рассматриваются этапы работы пользователя. Было проведено тестирование работы спроектированной системы. Описаны несколько контрольных образцов, про-анализированы результаты. Целью системы является дедубликации и распределения данных в облачных хранилищах таким обра-зом, чтобы в конечном итоге резервного копирования данных усунуть повторяющиеся части данных, используя мощности распре-деленного вычисления и облачных хранилищ. Подобрав правильный подход к распределению задач и данных при дедубликации, возможно использовать весь потенциал облачных распределенных систем для увеличения скорости резервного копирования и его пропускной способности. Проанализированы (приведены недостатки и преимущества использования различных подходов) и вы-бранные методы решения задач: гибридную дедубликацию на уровне блоков, раз-биение потока данных на основе цифрового отпе-чатка Рабина, распределение данных на основе хэш значений блоков дедубликации и использования распределенного индекса. Дедубликация на уровне блоков предусматривает два типа разбиения потоков данных на блоки, это разбиение с фиксированной длиной и переменной на основе алгоритма. Разбивка с фиксированной длиной достаточно тривиальное и быстрое относительно сложности алгоритма, однако недостатком является смещение данных в начале потока, поскольку блоки, которые будут следовать после изменений, будут считаться как новые. Однако в случае с разбивкой блоков с переменной длиной, точку собственно разбие-ние определяет алгоритм. Данный алгоритм должен работать с бесконечными потоками данных, используя кольцевую хэш-функцию. Алгоритм поглощает каждый входной байт данных из потока, и как только значение кольцевой хэш-функции соответ-ствует заданному ранее шаблону, это и служит точкой разбиения потока на блоки. Таким образом, при изменении или смещены данных на пару байтов, новым будет считаться только тот блок данных, который охватывает данные. Однако для того чтобы от-слеживать изменения и правильно выставлять точки разбиения необходимо проверять входные данные на определенный заданный цифровой шаблон - хэш значения. Распространенной практикой является вычисление хэш значение каждый раз на полу-ния вход-ного байта в потоке данных. Точкой разбиения станет тот момент, когда полученное хеш значение будет соответствовать заданно-му шаблону. Для таких вычислений эффективно использовать алгоритм кольцевого хеша. Один из самых распространенных алго-ритмов кольцевого хеша является цифровой отпечаток Рабина. В ходе анализа средств решения задач был выбран язык программирования Rust для написания клиентской части, язык программирования Scala для серверной части, инструментарий Akka для менеджмента распределенных вычислений и Amazon S3 в качестве облачного хранилища.	ru
dc.description.abstract	The conceptual model of the system is developed and described in detail. An intelligent system of deduplication and distribution of data in the cloud storage is developed, the description of the software is described, the stages of the user's work are considered. Testing of the projected system was carried out. Several control samples are described and results are analyzed. The purpose of the system is to deduplicate and distribute data in cloud repositories in such a way that the end result of the backup is to eliminate duplicate pieces of data using distributed computing and cloud repositories. By picking the right approach to distribute tasks and data during deduplication, you can harness the full potential of cloud-based distributed systems to increase backup speed and bandwidth. Analyzes (disadvantages and advantages of using different approaches) are analyzed and effective methods of solution are selected: hybrid block-level deduplication, splitting of data flow on the basis of Rabin's digital imprint, distribution of data based on hash values of blocks of deduplication and use of distributed index. Block-level deduplication involves two types of data flow splitting into blocks, a fixed-length, algorithm-based split. Fixed-length partition-ing is rather trivial and fast with respect to the complexity of the algorithm, but the downside is that data is displaced at the beginning of the stream, since the blocks that will follow after the changes will be considered new. However, in the case of partitioning of blocks of variable length, the point of proper partitioning is determined by the algorithm. This algorithm should work with infinite data flows using the ring hash function. The algorithm absorbs each input byte of data from the stream, and as soon as the value of the annular hash function corre-sponds to the previously specified template, it also serves as a point of splitting the stream into blocks. Thus, if the data is changed or dis-placed by a couple of bytes, only the data block that covers the data will be considered new. However, in order to track changes and correctly set breakpoints, it is necessary to check the input data for a specific preset digital pattern - a hash value. It is a common practice to calculate a hash value every time an input byte is received in a data stream. The point of partition will be the moment when the resulting hash value matches the specified pattern. To do these calculations effectively, an algorithm has been devised for the ring hash. One of the most common ring hash algorithms is a digital Rabin imprint. During the analysis of the solutions, the Rust programming language for client-side writing, the Scala programming language for the server-side, the Akka distributed computing management tool, and Amazon S3 as the cloud reposi-tory were selected.	en
dc.language.iso	uk_UA	uk_UA
dc.publisher	ВНТУ	uk
dc.relation.ispartof	Інформаційні технології та комп'ютерна інженерія. № 2 : 40-63.	uk
dc.relation.uri	https://itce.vntu.edu.ua/index.php/itce/article/view/731
dc.subject	дедублікація даних	uk
dc.subject	розподіл даних	uk
dc.subject	хмарне середовище	uk
dc.subject	cloud computing	uk, ru, en
dc.subject	алгоритм Рабіна	uk
dc.subject	хешування даних	uk
dc.subject	гібрідна дедублікація	uk
dc.subject	дедубликация данных	uk
dc.subject	распределение данных	ru
dc.subject	облачную среду	ru
dc.subject	алгоритм Рабина	ru
dc.subject	хеширования данных	ru
dc.subject	гибридная дедубликация	ru
dc.subject	data deduplication	en
dc.subject	data sharing	en
dc.subject	cloud environment	en
dc.subject	Rabbin algorithm	en
dc.subject	data hashing	en
dc.subject	hybrid deduplication	en
dc.title	Архітектура системи дедублікації та розподілу даних у хмарних сховищах під час резервного копіювання	uk
dc.title.alternative	Архитектура системы дедубликации и распределения данных в облачное хранилище при резервном копировании	ru
dc.title.alternative	System architecture of data dedublation and distribution in cloud stores during backup	en
dc.type	Article
dc.identifier.udc	004.9
dc.relation.references	Understanding Data Deduplication [Електронний ресурс]. – Режим доступу: https://www.druva.com/understanding-data-deduplication	en
dc.relation.references	Explaining deduplication rates and single-instance storage to clients [Електронний ресурс]. – Режим доступу: https://searchitchannel.techtarget.com/tip/Explaining-deduplication-rates-and-single-instance-storage-to-clientshttp://zakon.rada.gov.ua/laws/show/2469-19	en
dc.relation.references	Inline vs. post-processing deduplication appliances [Електронний ресурс]. – Режим доступу: https://searchdatabackup.techtarget.com/tip/Inline-vs-post-processing-deduplication-appliances	en
dc.relation.references	Introduction to Data Deduplication [Електронний ресурс]. – Режим доступу: https://www.petri.com/data-deduplication-introduction	en
dc.relation.references	Rabin M. O. Fingerprinting by random polynomials / M. O. Rabin // Center for Research in Computing Technology Harvard University Report – Harvard, 1981.	en
dc.relation.references	Tanenbaum A.S. Distributed Systems / A.S. Tanenbaum, M. van Steen. – Upper Saddle River : Pearson Prentice Hall, 2017. – 15 c.	en
dc.relation.references	Amdahl G. The validity of the single processor approach to achieving large-scale computing capabilities. / G. Amdahl. – Atlantic City : Proceedings of AFIPS, 1967.	en
dc.relation.references	Using StorReduce for cloud-based data deduplication [Електронний ресурс]. – Режим доступу: https://cloud.google.com/solutions/partners/storreduce-cloud-deduplication	en
dc.relation.references	OpenDedup Overview [Електронний ресурс]. – Режим доступу: https://opendedup.org/odd/overview/	en
dc.relation.references	Rumbaugh J. The unified modeling language reference manual / J. Rumbaugh, I. Jacobson, G. Booch // Addison Wesley Longman Inc. – 1999.	en
dc.relation.references	Rolling hash, Rabin Karp, palindromes, rsync and others [Електронний ресурс]. – Режим доступу: https://www.infoarena.ro/blog/rolling-hash	en
dc.relation.references	Vysotska V. Methods based on ontologies for information resources processing / V. Vysotska, L. Chyrun, V. Lytvyn. - LAP Lambert Academic Publishing, 2016.	en
dc.relation.references	Vysotska V. Information technologies of gamification for training and recruitment / V. Vysotska, N. Shakhovska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.	en
dc.relation.references	Висоцька, В.А. Особливості проектування та впровадження систем електронної комерції. / В.А. Висоцька // Комп’ютерні науки та інформаційні технології, Вісник Національного університету “Львівська політехніка”. – Львів 2008. – № 629. – С. 34-45.	uk
dc.relation.references	Vysotska V. Web resources processing based on ontologies / V. Vysotska, V. Lytvyn. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.	en
dc.relation.references	Vysotska V. Tekhnolohiyi elektronnoyi komertsiyi ta Internet-marketynhu / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.	en
dc.relation.references	Vysotska V. Internet systems design and development based on Web Mining and NLP / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.	en
dc.relation.references	Vysotska V. Computer linguistics for online marketing in information technology: Monograph / V. Vysotska. - Saarbrücken, Germany: LAP LAMBERT Academic Publishing, 2018.	en
dc.relation.references	Lytvyn V. A Method of Construction of Automated Basic Ontology / V. Lytvyn, V. Vysotska, W. Wojcik, D. Dosyn // 1st International Conference Computational Linguistics and Intelligent Systems, COLINS’2017. – 21 April 2017, Kharkiv. – P. 75-83.	en
dc.relation.references	Lytvyn V. Intelligent System Structure for Web Resources Processing and Analysis / V. Lytvyn, V. Vysotska, L. Chyrun, A. Smolarz, O. Naum // 1st International Conference Computational Linguistics and Intelligent Systems, COLINS’2017. – 21 April 2017, Kharkiv. – P. 56-74.	en
dc.relation.references	Berko A. Features of information resources processing in electronic content commerce / Andriy Berko, Victoria Vysotska, Lyubomyr Chyrun // Applied Computer Science. ACS journal. – Volume 10, Number 2. – Poland, 2014. – ISSN 2353-6977 (Online), ISSN 1895-3735 (Print). – PP. 5-19.	en
dc.relation.references	Берко, А.Ю. Методи та засоби оцінювання ризиків безпеки інформації в системах електронної комерції / А.Ю. Берко, В.А. Висоцька, І.В. Рішняк // Інформаційні системи та мережі. Вісник На-ціонального університету “Львівська політехніка”. – Львів 2008. – № 610. – С.20-33.	uk
dc.relation.references	Vysotska Victoria. Web Content Processing Method for Electronic Business Systems / Victoria Vysotska, Lyubomyr Chyrun // International Journal of Computers & Technology. – Vol 12, No 2. – December 2013. – PP. 3211-3220.	en
dc.relation.references	Висоцька В.А. Моделювання етапів життєвого циклу комерційного web-контенту / В.А. Висоцька, Л.Б Чирун, Л.В. Чирун // Інформаційні системи та мережі. Вісник Національного університету “Львівська політехніка”. – Львів 2011. – № 715. – С. 69-87.	uk
dc.relation.references	Берко, А.Ю. Алгоритми опрацювання інформаційних ресурсів в системах електронної комерції / А.Ю. Берко, В.А. Висоцька, Л.В. Чирун // Комп’ютерні науки та інформаційні технології. Вісник Національного університету “Львівська політехніка”. – Львів 2008. – № 616. – Стор.128-136.	uk
dc.relation.references	Vysotska Victoria. Commercial Web Content Lifecycle Model: conference proceedings, November 16-19, 2011 / Victoria Vysotska, Lubomyr Chyrun, Lilya Chyrun // The 6th International Scientific and Technical Conference “Computer Sciences and Information Technologies” (CSIT’2011) which will be held November 16-19, 2011 at Lviv Polytechnic National University (Lviv, Ukraine) – Lviv 2011. – P. 160-163.	en
dc.relation.references	Берко А.Ю. Проектування навігаційного графу Web-сторінок бази даних систем електронної ко-мерції. / А.Ю. Берко, В.А. Висоцька // Комп’ютерні науки та інформаційні технології, Вісник На-ціонального університету “Львівська політехніка”. – Львів 2009. – № 638. – С. 3-14.	uk
dc.relation.references	Берко А.Ю. Семантична інтеграція неповних та неточних даних / А.Ю. Берко, В.А. Висоцька, В.В. // Збірник наукових праць «Системи обробки інформації. Безпека та захист інформації в інформа-ційних системах», Випуск 7 (79). – Харків 2009. – С. 93-98.	uk
dc.relation.references	Берко, А.Ю. Моделі та методи проектування інформаційних систем електронної комерції / А.Ю. Берко, В.А. Висоцька // Автоматизовані системи управління та прилади автоматики. Науково-технічний журнал. – Харків 2007. – № 138. – С.55-66.	uk
dc.relation.references	Алєксєєва К.А. Управління Web-ресурсами за умов невизначеності / К.А. Алєксєєва, А.Ю. Берко, В.А. Висоцька // Журнал «Технологический аудит и резервы производства». – Vol 2, No 2(22) (2015). – Харків, 2015. – ISSN (print) 2226-3780, ISSN (on-line) 2312-8372. – С. 4-7.	ru
dc.relation.references	Vysotska V. Designing features of architecture for e-commerce systems / Victoria Vysotska, Lyubomyr Chyrun // MEST Journal (Management Education Science & Society Technologie). – Vol.2 No.1. – P. 57-70.	en
dc.relation.references	Vysotska V. Set-theoretic models and unified methods of information resources processing in e-business systems / Victoria Vysotska, Lyubomyr Chyrun // Applied Computer Science. ACS journal. – Volume 10, Number 3. – Poland, 2014. – ISSN 2353-6977 (Online), ISSN 1895-3735 (Print). – P. 5-2.	en
dc.identifier.doi	https://doi.org/10.31649/1999-9941-2019-45-2-40-63

Файли в цьому документі

Ім'я:: Русин.pdf
Розмір:: 1.118Mb
Формат:: PDF

Відкрити

Даний документ включений в наступну(і) колекцію(ї)

Інформаційні технології та комп'ютерна інженерія. 2019. № 2 [6]

Показати скорочену інформацію