Teses e dissertações

Mestrado
Sistemas Integrados de Apoio à Decisão
Título

MediAlbertina: A family of European Portuguese medical language models

Autor
Nunes, Miguel Joaquim Bonacho
Resumo
pt
Esta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal.
en
This dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records. To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks. Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models. Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence.

Palavras-chave

Saúde
Healthcare
Information extraction
Extração de informação
Processamento de linguagem natural - -- NLP Natural language processing
Language Model
Domain adaptation
European Portuguese
Modelo de linguagem
Adaptação de domínio
Português europeu

Acesso

Acesso restrito. Solicitar cópia ao autor.

Ver no repositório  
Voltar ao topo