Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/14587
Tipo: Trabalho de Conclusão de Curso
Título: Hydra Flow - Pipeline Automatizada para ETL de Dados
Autor(es): BIANCA MOTTA MARTINS
Primeiro orientador: CARLOS ALBERTO DA SILVA
Resumo: Este trabalho apresenta o Hydra Flow, uma pipeline de dados baseada na arquitetura ETL para coleta, transformação e armazenamento de dados provenientes de APIs web em formato JSON. A solução utiliza Apache Airflow para orquestração, MinIO como armazenamento compatível com S3 e Apache Parquet para persistência dos dados processados. A arquitetura é organizada em camadas raw, staged e curated, permitindo a separação entre dados brutos, tratados e refinados para consumo analítico. Durante a ingestão, expressões jq são utilizadas para extração e seleção inicial dos dados, enquanto etapas posteriores realizam sua padronização e transformação. Os resultados obtidos demonstram a viabilidade da utilização de ferramentas de código aberto para construção de pipelines de dados automatizadas, modulares e de fácil manutenção.
Abstract: This paper presents Hydra Flow, a data pipeline based on the ETL (Extract, Transform and Load) architecture for collecting, transforming, and storing data obtained from web APIs in JSON format. The solution uses Apache Airflow for orchestration, MinIO as S3-compatible storage, and Apache Parquet for persisting processed data. The architecture is organized into raw, staged, and curated layers, enabling the separation of raw, processed, and refined data for analytical purposes. During the ingestion stage, jq expressions are used for data extraction and initial filtering, while subsequent stages perform data standardization and transformation. The obtained results demonstrate the feasibility of using open-source tools to build automated, modular, and maintainable data pipelines.
Palavras-chave: ETL
Pipeline de dados
Airflow
MinIO
Engenharia de dados
País: 
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/14587
Data do documento: 2026
Aparece nas coleções:Sistemas de Informação - Bacharelado (FACOM)

Arquivos associados a este item:
Arquivo TamanhoFormato 
28624.pdf804,92 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.