Hydra Flow - Pipeline Automatizada para ETL de Dados

BIANCA MOTTA MARTINS

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/14587

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	BIANCA MOTTA MARTINS	-
dc.date.accessioned	2026-06-29T19:19:52Z	-
dc.date.available	2026-06-29T19:19:52Z	-
dc.date.issued	2026	pt_BR
dc.identifier.uri	https://repositorio.ufms.br/handle/123456789/14587	-
dc.description.abstract	This paper presents Hydra Flow, a data pipeline based on the ETL (Extract, Transform and Load) architecture for collecting, transforming, and storing data obtained from web APIs in JSON format. The solution uses Apache Airflow for orchestration, MinIO as S3-compatible storage, and Apache Parquet for persisting processed data. The architecture is organized into raw, staged, and curated layers, enabling the separation of raw, processed, and refined data for analytical purposes. During the ingestion stage, jq expressions are used for data extraction and initial filtering, while subsequent stages perform data standardization and transformation. The obtained results demonstrate the feasibility of using open-source tools to build automated, modular, and maintainable data pipelines.	-
dc.language.iso	pt_BR	pt_BR
dc.publisher	Fundação Universidade Federal de Mato Grosso do Sul	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	ETL	-
dc.subject	Pipeline de dados	-
dc.subject	Airflow	-
dc.subject	MinIO	-
dc.subject	Engenharia de dados	-
dc.subject.classification	Engenharia / Tecnologia	pt_BR
dc.title	Hydra Flow - Pipeline Automatizada para ETL de Dados	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	CARLOS ALBERTO DA SILVA	-
dc.description.resumo	Este trabalho apresenta o Hydra Flow, uma pipeline de dados baseada na arquitetura ETL para coleta, transformação e armazenamento de dados provenientes de APIs web em formato JSON. A solução utiliza Apache Airflow para orquestração, MinIO como armazenamento compatível com S3 e Apache Parquet para persistência dos dados processados. A arquitetura é organizada em camadas raw, staged e curated, permitindo a separação entre dados brutos, tratados e refinados para consumo analítico. Durante a ingestão, expressões jq são utilizadas para extração e seleção inicial dos dados, enquanto etapas posteriores realizam sua padronização e transformação. Os resultados obtidos demonstram a viabilidade da utilização de ferramentas de código aberto para construção de pipelines de dados automatizadas, modulares e de fácil manutenção.	pt_BR
dc.publisher.country	null	pt_BR
dc.publisher.initials	UFMS	pt_BR
Aparece nas coleções:	Sistemas de Informação - Bacharelado (FACOM)

Arquivos associados a este item:

Arquivo	Tamanho	Formato
28624.pdf	804,92 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas