ATENÇÃO: Esta página foi traduzida automaticamente pelo Google Translate. Isto pode ter consequências inesperadas no conteúdo apresentado e, portanto, não nos responsabilizamos pelo resultado dessa tradução automática.


ATTENTION: this page has been automatically translated by Google Translate. This can have unexpected consequences and, therefore, we do not take responsibility for the result of that automatic translation.

menu
EN
menu
close
MestradoMestrado em Sistemas Integrados de Apoio à Decisão

Análise e normalização de transcrições médicas através de PLN

Autor
Dias, David Bernardes
Acesso
Acesso restrito
Palavras-chave
Named entity recognition
Processamento de linguagem natural - -- NLP Natural language processing
Transcriões médicas
Reconhecimento de entidades nomeadas
Normalização ontológica
Medical transcripts
Ontological normalisation
Resumo
PT
O volume crescente de dados clínicos não estruturados - como transcrições, notas e relatórios - dificulta a extração de informação consistente e pertinente para apoio à decisão em saúde. Esta dissertação propõe uma abordagem de Processamento de Linguagem Natural (PLN) para analisar e normalizar transcrições médicas, transformando texto livre em dados estruturados úteis. O trabalho enquadra o problema e os seus desafios e define objetivos centrados na extração de entidades e no mapeamento ontológico para terminologias padronizadas. Adotou-se a metodologia CRISP-DM para conceber um "pipeline" reprodutível com quatro etapas: (i) reconhecimento de entidades clínicas (NER) com modelos de domínio geral e biomédico; (ii) normalização lexical e pós-processamento para recompor entidades; (iii) mapeamento para UMLS e codificação ICD-10; e (iv) avaliação por níveis de confiança e taxas de mapeamento, na ausência de "gold standard" anotado. Os resultados mostram a inadequação de modelos NER de uso geral em contexto clínico e a superioridade de modelos biomédicos na extração de categorias relevantes. O pós-processamento aumentou substancialmente a normalização. Um modelo da família BERT destacou-se na deteção inicial, enquanto o modelo BioGPT foi mais estável no mapeamento ontológico. Verificou-se ainda um compromisso entre cobertura e precisão, dependente dos limiares de similaridade e de confiança. O "pipeline" proposto constitui uma abordagem promissora que poderá contribuir para a viabilização da normalização semântica de transcrições médicas e poderá ser proposto para integração em Registos de Saúde Eletrónicos (RSE) e sistemas de apoio à decisão. Futuramente, propõe-se incorporar deteção explícita de negação, adaptação ao português clínico e estratégias híbridas de mapeamento.
EN
The growing volume of unstructured clinical data - such as transcripts, notes, and reports - makes it difficult to extract consistent and relevant information to support healthcare decision-making. This dissertation proposes a Natural Language Processing (NLP) approach to analyse and standardise medical transcripts, transforming free text into useful structured data. The work frames the problem and its challenges and defines objectives focused on entity extraction and ontological mapping to standardised terminologies. The CRISP-DM methodology was adopted to design a reproducible pipeline with four steps: (i) clinical entity recognition (NER) with general and biomedical domain models; (ii) lexical standardisation and post-processing to recompose entities; (iii) mapping to UMLS and ICD-10 coding; and (iv) evaluation by confidence levels and mapping rates, in the absence of an annotated gold standard. The results show the inadequacy of general-purpose NER models in a clinical context and the superiority of biomedical models in extracting relevant categories. Post-processing substantially increased normalisation. The BERT model stood out in initial detection, while BioGPT approach was more stable in ontological mapping. There was also a trade-off between coverage and accuracy, depending on similarity and confidence thresholds. The proposed pipeline is a promising approach that could contribute to the feasibility of semantic normalisation of medical transcripts and could be proposed for integration into Electronic Health Records (EHRs) and decision support systems. In the future, we propose to incorporate explicit negation detection, adaptation to clinical Portuguese, and hybrid mapping strategies.

Relacionadas