Tese

Mestrado • Mestrado em Sistemas Integrados de Apoio à Decisão

Análise e normalização de transcrições médicas através de PLN

Repositório

Autor

Dias, David Bernardes

Acesso

Acesso restrito

Palavras-chave

Named entity recognition

Processamento de linguagem natural - -- NLP Natural language processing

Transcriões médicas

Reconhecimento de entidades nomeadas

Normalização ontológica

Medical transcripts

Ontological normalisation

Resumo

O volume crescente de dados clínicos não estruturados - como transcrições, notas e relatórios - dificulta a extração de informação consistente e pertinente para apoio à decisão em saúde. Esta dissertação propõe uma abordagem de Processamento de Linguagem Natural (PLN) para analisar e normalizar transcrições médicas, transformando texto livre em dados estruturados úteis. O trabalho enquadra o problema e os seus desafios e define objetivos centrados na extração de entidades e no mapeamento ontológico para terminologias padronizadas. Adotou-se a metodologia CRISP-DM para conceber um "pipeline" reprodutível com quatro etapas: (i) reconhecimento de entidades clínicas (NER) com modelos de domínio geral e biomédico; (ii) normalização lexical e pós-processamento para recompor entidades; (iii) mapeamento para UMLS e codificação ICD-10; e (iv) avaliação por níveis de confiança e taxas de mapeamento, na ausência de "gold standard" anotado. Os resultados mostram a inadequação de modelos NER de uso geral em contexto clínico e a superioridade de modelos biomédicos na extração de categorias relevantes. O pós-processamento aumentou substancialmente a normalização. Um modelo da família BERT destacou-se na deteção inicial, enquanto o modelo BioGPT foi mais estável no mapeamento ontológico. Verificou-se ainda um compromisso entre cobertura e precisão, dependente dos limiares de similaridade e de confiança. O "pipeline" proposto constitui uma abordagem promissora que poderá contribuir para a viabilização da normalização semântica de transcrições médicas e poderá ser proposto para integração em Registos de Saúde Eletrónicos (RSE) e sistemas de apoio à decisão. Futuramente, propõe-se incorporar deteção explícita de negação, adaptação ao português clínico e estratégias híbridas de mapeamento.

The growing volume of unstructured clinical data - such as transcripts, notes, and reports - makes it difficult to extract consistent and relevant information to support healthcare decision-making. This dissertation proposes a Natural Language Processing (NLP) approach to analyse and standardise medical transcripts, transforming free text into useful structured data. The work frames the problem and its challenges and defines objectives focused on entity extraction and ontological mapping to standardised terminologies. The CRISP-DM methodology was adopted to design a reproducible pipeline with four steps: (i) clinical entity recognition (NER) with general and biomedical domain models; (ii) lexical standardisation and post-processing to recompose entities; (iii) mapping to UMLS and ICD-10 coding; and (iv) evaluation by confidence levels and mapping rates, in the absence of an annotated gold standard. The results show the inadequacy of general-purpose NER models in a clinical context and the superiority of biomedical models in extracting relevant categories. Post-processing substantially increased normalisation. The BERT model stood out in initial detection, while BioGPT approach was more stable in ontological mapping. There was also a trade-off between coverage and accuracy, depending on similarity and confidence thresholds. The proposed pipeline is a promising approach that could contribute to the feasibility of semantic normalisation of medical transcripts and could be proposed for integration into Electronic Health Records (EHRs) and decision support systems. In the future, we propose to incorporate explicit negation detection, adaptation to clinical Portuguese, and hybrid mapping strategies.

Análise e normalização de transcrições médicas através de PLN

Relacionadas

Mestrado em Sistemas Integrados de Apoio à Decisão

Mestrado em Engenharia Informática

Mestrado em Ciência de Dados

Mestrado em Sistemas Integrados de Apoio à Decisão

Política de Cookies