Etl pipeline на Python для аналізу даних агрегаторів у сфері авіаперевезень
Author
Дудник, О. В.
Циркун, В. В.
Шалаган, В. С.
Dudnyk, O. V.
Tsyrkun, V. V.
Date
2025Metadata
Show full item recordAbstract
У сучасній авіаційній галузі, що стрімко розвивається, ефективне управління та аналіз даних є ключовими факторами успішної діяльності компаній–агрегаторів авіаперевезень. Ця стаття зосереджується на створенні та впровадженні ETL–пайплайну (Extract, Transform, Load) з використанням мови програмування Python для збору, обробки та інтеграції даних про авіарейси. Розглянуто методологію побудови ETL–процесів, включаючи витягування даних з SFTP–серверів, фільтрація, нарізання записів та знаходження помилок за допомогою бібліотеки Pandas, і подальше завантаження в базу даних для аналітики. Особлива увага приділена використанню Apache Airflow як інструменту для автоматизації робочих процесів, що забезпечує гнучке керування завданнями та масштабованість системи. У статті аналізуються переваги впровадження таких рішень для підвищення точності та актуальності даних, що дозволяє агрегаторам надавати клієнтам найкращі пропозиції в режимі реального часу. Описані практичні аспекти впровадження ETL–пайплайнів та їх вплив на підвищення ефективності бізнес–процесів у сфері авіаперевезень. In the fast-growing aviation industry, effective data management and analysis are key factors for the success of airline
aggregator companies. This article focuses on creating and using an ETL pipeline (Extract, Transform, Load) with the
Python programming language to collect, process, and integrate flight data. The article explains the method of building
ETL processes, including extracting data from SFTP servers, filtering, splitting records, and finding errors using the
Pandas library. After that, the data is loaded into a database for analysis. Special attention is given to Apache Airflow, a
tool for automating workflows, which helps manage tasks flexibly and scale the system when needed. The article also
looks at the advantages of using such solutions to improve the accuracy and freshness of data. This allows aggregators
to offer the best options to clients in real time. The practical steps of setting up ETL pipelines and how they help make
business processes more efficient in the aviation industry are described.
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48665

