Etl pipeline на python для аналізу даних агрегаторів у сфері авіаперевезень
Анотації
У сучасній авіаційній галузі, що стрімко розвивається, ефективне управління та аналіз даних є ключовими факторами успішної діяльності компаній–агрегаторів авіаперевезень. Ця стаття зосереджується на створенні та впровадженні ETL–пайплайну (Extract, Transform, Load) з використанням мови програмування Python для збору, обробки та інтеграції даних про авіарейси. Розглянуто методологію побудови ETL–процесів, включаючи витягування даних з SFTP–серверів, фільтрація, нарізання записів та знаходження помилок за допомогою бібліотеки Pandas, і подальше завантаження в базу даних для аналітики. Особлива увага приділена використанню Apache Airflow як інструменту для автоматизації робочих процесів, що забезпечує гнучке керування завданнями та масштабованість системи. У статті аналізуються переваги впровадження таких рішень для підвищення точності та актуальності даних, що дозволяє агрегаторам надавати клієнтам найкращі пропозиції в режимі реального часу. Описані практичні аспекти впровадження ETL–пайплайнів та їх вплив на підвищення ефективності бізнес–процесів у сфері авіаперевезень. In the fast-growing aviation industry, effective data management and analysis are key factors for the success of airline aggregator companies. This article focuses on creating and using an ETL pipeline (Extract, Transform, Load) with the
URI:
https://ir.lib.vntu.edu.ua//handle/123456789/48665