Tese

Mestrado • Mestrado em Engenharia Informática

Automação de catálogos de dados: Uma revisão sistemática da literatura

Repositório

Autor

Nanita , António Pedro Barbedo

Acesso

Acesso livre

Palavras-chave

Automatização -- Automation

Inteligência artificial -- Artificial intelligence

Data governance

Machine learning -- Machine learning

Governança de dados

Catálogos de dados

Metadados -- Metadata

Data catalogs

Resumo

A crescente complexidade e diversidade dos ecossistemas de dados reforça a importância dos catálogos de dados na Governança de Dados, essenciais para a descoberta, gestão e rastreabilidade da informação, promovendo qualidade, conformidade e reutilização dos ativos. Contudo, o aumento exponencial de dados tornou inviável a catalogação manual, exigindo a automação através de Inteligência Artificial (IA) e "Machine Learning" (ML). Este trabalho visa identificar as principais funções dos catálogos de dados e avaliar o seu potencial de automação. Para isso, foi realizada uma Revisão Sistemática da Literatura segundo a metodologia de Kitchenham, complementada por uma análise de sete soluções tecnológicas (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas e LinkedIn DataHub) integrando o estado da arte académico e a prática industrial numa perspetiva comparativa. Os resultados obtidos permitiram identificar cinco categorias funcionais nucleares dos catálogos de dados que são: "Data Discovery", "Data Management", Metadata Management, "Data Lineage" (DL) e "Data Governance" (DG). Verificou‐se que as abordagens baseadas em IA e ML estão presentes em mais de 70% das automatizações identificadas, destacando‐se nas tarefas de classificação de dados, enriquecimento de metadados e deteção de linhagem. Foi ainda proposto um modelo de correspondência entre funções e automações, que pode servir de referência para a conceção, avaliação e evolução de catálogos de dados empresariais.

The growing complexity and diversity of data ecosystems reinforces the importance of Data Catalogs in DG, which are essential for the discovery, management, and traceability of information, promoting quality, compliance, and reuse of assets. However, the exponential increase in data has made manual cataloging unfeasible, requiring automation through IA and ML. This work aims to identify the main functions of data catalogs and assess their potential for automation. To this end, a Systematic Literature Review was conducted according to Kitchenham’s methodology, complemented by an analysis of seven technological solutions (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas, and LinkedIn DataHub), integrating the state of the art in academia and industrial practice from a comparative perspective. The results obtained allowed us to identify five core functional categories of Data Catalogs, which are: Data Discovery, Data Management, Metadata Management, Data Lineage, and DG. It was found that AI and ML‐based approaches are present in more than 70% of the automations identified, standing out in the tasks of data classification, metadata enrichment, and lineage detection. A model of correspondence between functions and automations was also proposed, which can serve as a reference for the design, evaluation, and evolution of enterprise data catalogs.

Automação de catálogos de dados: Uma revisão sistemática da literatura

Relacionadas

Mestrado em Gestão de Recursos Humanos e Consultadoria Organizacional

Mestrado em Gestão de Empresas

Mestrado em Gestão dos Serviços de Saúde

Mestrado em Engenharia de Telecomunicações e Informática

Política de Cookies