Título
Da voz aos sentimentos: Transcrição automática com vista ao controlo de qualidade de chamadas telefónicas
Autor
Morais, Inês Filipa Correia
Resumo
pt
Este estudo explora o uso de tecnologias de transcrição automática de fala e análise de
sentimento no controlo de qualidade de chamadas de um contact center de uma seguradora.
Foram comparadas duas ferramentas de transcrição – WhisperX e Microsoft Azure
Speech-to-Text – com o objetivo de avaliar a viabilidade de soluções de código aberto
para substituir alternativas comerciais dispendiosas. Os resultados mostram que, apesar
de ambos os modelos gerarem transcrições compreensíveis, o WhisperX destaca-se pela
fluidez e precisão em captar nuances linguísticas e variações regionais do português. No
entanto, enfrenta desafios em contextos de áudio complexos, como múltiplos locutores e
variações de intensidade.
Além disso, foram propostas diversas aplicações práticas das transcrições para otimizar
o atendimento ao cliente, incluindo a análise de cumprimento de guiões, métricas de
diálogo e deteção de sentimentos. Para demonstrar o potencial destas aplicações, foi implementado
o modelo FinBERT-PT-BR nas transcrições, que permitiu captar sentimentos
predominantes nas interações e identificar momentos de insatisfação e incerteza.
Os principais contributos deste trabalho incluem a análise de desempenho de ferramentas
de transcrição aplicadas a interações em português europeu, bem como a proposta
de aplicação de um modelo de análise de sentimento orientado para a melhoria da qualidade
do atendimento ao cliente. Entre as limitações, destaca-se a necessidade de dados
anotados para uma avaliação mais rigorosa. Futuras investigações poderão beneficiar de
uma abordagem multimodal que combine transcrição e características acústicas para uma
análise emocional robusta, especialmente num contexto de contact center.
en
This study explores the use of automatic speech transcription and sentiment analysis
technologies in the quality control of call monitoring in an insurance contact center. Two
transcription tools – WhisperX and Microsoft Azure Speech-to-Text – were compared
to evaluate the feasibility of open-source solutions as alternatives to costly commercial
options. The results show that, while both models generate comprehensible transcriptions,
WhisperX stands out for its fluency and accuracy in capturing linguistic nuances and
regional variations of Portuguese. However, it faces challenges in complex audio contexts,
such as multiple speakers and varying intensity levels.
Furthermore, several practical applications of transcriptions were proposed to optimize
customer service, including script compliance analysis, dialogue metrics, and sentiment
detection. To demonstrate the potential of these applications, the FinBERT-PT-BR
model was implemented on the transcriptions, which enabled the capture of predominant
sentiments in interactions and identification of moments of dissatisfaction and uncertainty.
The main contributions of this work include a performance analysis of transcription
tools applied to european portuguese interactions, as well as the proposal of a sentiment
analysis model aimed at improving customer service quality. Among the limitations, the
need for annotated data for more rigorous evaluation can be highlighted. Future research
may benefit from a multimodal approach that combines transcription and acoustic features
for a more robust emotional analysis, particularly in a contact center context.