Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/14587
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBIANCA MOTTA MARTINS-
dc.date.accessioned2026-06-29T19:19:52Z-
dc.date.available2026-06-29T19:19:52Z-
dc.date.issued2026pt_BR
dc.identifier.urihttps://repositorio.ufms.br/handle/123456789/14587-
dc.description.abstractThis paper presents Hydra Flow, a data pipeline based on the ETL (Extract, Transform and Load) architecture for collecting, transforming, and storing data obtained from web APIs in JSON format. The solution uses Apache Airflow for orchestration, MinIO as S3-compatible storage, and Apache Parquet for persisting processed data. The architecture is organized into raw, staged, and curated layers, enabling the separation of raw, processed, and refined data for analytical purposes. During the ingestion stage, jq expressions are used for data extraction and initial filtering, while subsequent stages perform data standardization and transformation. The obtained results demonstrate the feasibility of using open-source tools to build automated, modular, and maintainable data pipelines.-
dc.language.isopt_BRpt_BR
dc.publisherFundação Universidade Federal de Mato Grosso do Sulpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectETL-
dc.subjectPipeline de dados-
dc.subjectAirflow-
dc.subjectMinIO-
dc.subjectEngenharia de dados-
dc.subject.classificationEngenharia / Tecnologiapt_BR
dc.titleHydra Flow - Pipeline Automatizada para ETL de Dadospt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1CARLOS ALBERTO DA SILVA-
dc.description.resumoEste trabalho apresenta o Hydra Flow, uma pipeline de dados baseada na arquitetura ETL para coleta, transformação e armazenamento de dados provenientes de APIs web em formato JSON. A solução utiliza Apache Airflow para orquestração, MinIO como armazenamento compatível com S3 e Apache Parquet para persistência dos dados processados. A arquitetura é organizada em camadas raw, staged e curated, permitindo a separação entre dados brutos, tratados e refinados para consumo analítico. Durante a ingestão, expressões jq são utilizadas para extração e seleção inicial dos dados, enquanto etapas posteriores realizam sua padronização e transformação. Os resultados obtidos demonstram a viabilidade da utilização de ferramentas de código aberto para construção de pipelines de dados automatizadas, modulares e de fácil manutenção.pt_BR
dc.publisher.countrynullpt_BR
dc.publisher.initialsUFMSpt_BR
Aparece nas coleções:Sistemas de Informação - Bacharelado (FACOM)

Arquivos associados a este item:
Arquivo TamanhoFormato 
28624.pdf804,92 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.