ATENÇÃO: Esta página foi traduzida automaticamente pelo Google Translate. Isto pode ter consequências inesperadas no conteúdo apresentado e, portanto, não nos responsabilizamos pelo resultado dessa tradução automática.


ATTENTION: this page has been automatically translated by Google Translate. This can have unexpected consequences and, therefore, we do not take responsibility for the result of that automatic translation.

menu
EN
menu
close
MestradoMestrado em Engenharia Informática

Automação de catálogos de dados: Uma revisão sistemática da literatura

Autor
Nanita , António Pedro Barbedo
Acesso
Acesso livre
Palavras-chave
Automatização -- Automation
Inteligência artificial -- Artificial intelligence
Data governance
Machine learning -- Machine learning
Governança de dados
Catálogos de dados
Metadados -- Metadata
Data catalogs
Resumo
PT
A crescente complexidade e diversidade dos ecossistemas de dados reforça a importância dos catálogos de dados na Governança de Dados, essenciais para a descoberta, gestão e rastreabilidade da informação, promovendo qualidade, conformidade e reutilização dos ativos. Contudo, o aumento exponencial de dados tornou inviável a catalogação manual, exigindo a automação através de Inteligência Artificial (IA) e "Machine Learning" (ML). Este trabalho visa identificar as principais funções dos catálogos de dados e avaliar o seu potencial de automação. Para isso, foi realizada uma Revisão Sistemática da Literatura segundo a metodologia de Kitchenham, complementada por uma análise de sete soluções tecnológicas (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas e LinkedIn DataHub) integrando o estado da arte académico e a prática industrial numa perspetiva comparativa. Os resultados obtidos permitiram identificar cinco categorias funcionais nucleares dos catálogos de dados que são: "Data Discovery", "Data Management", Metadata Management, "Data Lineage" (DL) e "Data Governance" (DG). Verificou‐se que as abordagens baseadas em IA e ML estão presentes em mais de 70% das automatizações identificadas, destacando‐se nas tarefas de classificação de dados, enriquecimento de metadados e deteção de linhagem. Foi ainda proposto um modelo de correspondência entre funções e automações, que pode servir de referência para a conceção, avaliação e evolução de catálogos de dados empresariais.
EN
The growing complexity and diversity of data ecosystems reinforces the importance of Data Catalogs in DG, which are essential for the discovery, management, and traceability of information, promoting quality, compliance, and reuse of assets. However, the exponential increase in data has made manual cataloging unfeasible, requiring automation through IA and ML. This work aims to identify the main functions of data catalogs and assess their potential for automation. To this end, a Systematic Literature Review was conducted according to Kitchenham’s methodology, complemented by an analysis of seven technological solutions (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas, and LinkedIn DataHub), integrating the state of the art in academia and industrial practice from a comparative perspective. The results obtained allowed us to identify five core functional categories of Data Catalogs, which are: Data Discovery, Data Management, Metadata Management, Data Lineage, and DG. It was found that AI and ML‐based approaches are present in more than 70% of the automations identified, standing out in the tasks of data classification, metadata enrichment, and lineage detection. A model of correspondence between functions and automations was also proposed, which can serve as a reference for the design, evaluation, and evolution of enterprise data catalogs.

Relacionadas