Título
Data augmentation with GANs applied to healthcare
Autor
Faria, Carlos Daniel Costa
Resumo
pt
Esta dissertação explora a aplicação de Redes Adversariais Generativas (GANs) para
gerar dados de séries temporais, com foco particular em sinais de eletrocardiograma (ECG)
usados para detecção de arritmias. A escassez de dados nas áreas médicas é agravada pelas
regulamentações de privacidade, pelas complexidades técnicas da recolha de dados e pela
raridade de certas patologias, que limitam o acesso a conjuntos de dados abrangentes.
Recorrendo `a base de dados de arritmia do MIT-BIH, este estudo aproveita uma
arquitetura Wasserstein GAN com Gradient Penalty (WGAN-GP) e altera a estrutura
do modelo adicionando camadas Long Short-Term Memory (LSTM) bidirecionais para
gerar sinais de ECG sintéticos realistas. Esses sinais sintéticos visam equilibrar conjuntos
de dados para classificação de arritmia, melhorando o desempenho do classificador onde
os métodos tradicionais de aumento de dados são insuficientes devido a restrições de
privacidade, raridade e complexidade em dados médicos.
O processo de treino do modelo GAN foi avaliado usando uma combinação de métricas
quantitativas, como Euclidean Distance e Dynamic Time Warping, juntamente com técnicas
visuais como PCA e t-SNE. Além disso, um modelo de classificação treinado com dados
de ECG aumentados demonstrou potencial na abordagem de desequilíbrios no conjunto
de dados e no aumento da precisão na detecção de eventos arrítmicos, demonstrando a
eficácia do GAN na melhoria do desempenho do modelo.
Este trabalho contribui para o campo da ciência de dados em saúde. Destaca o potencial
das GANs para superar desafios significativos, fornecendo conjuntos de dados diversos
que preservam a privacidade e melhoram a precisão do modelo de diagnóstico. Através
desta abordagem, os GANs oferecem uma ferramenta para a investigação médica, facilitando
o desenvolvimento de modelos preditivos robustos, mantendo ao mesmo tempo,
a integridade e a confidencialidade dos dados. Os resultados realçam o potencial de impacto
dos GANs, onde a maior acessibilidade e diversidade dos dados podem melhorar
significativamente os resultados dos pacientes na detecção de arritmia e muito mais.
en
This dissertation explores the application of Generative Adversarial Networks (GANs)
to generate time-series data, with a particular focus on Electrocardiogram (ECG) signals
used for arrhythmia detection. Data scarcity in medical fields is compounded by privacy
regulations, the technical complexities of data collection, and the rarity of certain
pathologies, all of which limit access to comprehensive datasets.
With a foundation in the MIT-BIH Arrhythmia Database, this study leverages a
Wasserstein GAN with Gradient Penalty (WGAN-GP) architecture and changes the
model’s structure by adding bidirectional Long Short-Term Memory (LSTM) layers to
generate realistic synthetic ECG signals. These synthetic signals aim to balance datasets
for arrhythmia classification, improving classifier performance where traditional Data
Augmentation (DA) methods fall short due to privacy, rarity, and complexity constraints
in medical data.
The GAN model’s training was evaluated using a combination of quantitative metrics
such as Euclidean Distance and Dynamic Time Warping (DTW), alongside visual
techniques like Principal Component Analysis (PCA) and t-distributed Stochastic Neighbor
Embedding (t-SNE). Additionally, a classification model trained on augmented ECG
data demonstrated potential in addressing dataset imbalances and enhancing accuracy in
detecting arrhythmic events, demonstrating the GAN’s effectiveness in enhancing model
performance.
This work contributes to the broader field of healthcare data science. It highlights
the potential of GANs to overcome significant challenges by providing privacy-preserving,
diverse datasets that improve diagnostic model accuracy. Through this approach, GANs
offer a tool for medical research, facilitating the development of robust predictive models
while maintaining data integrity and confidentiality. The results underscore the potential
for GANs to impact, where enhanced data accessibility and diversity can significantly
improve patient outcomes in arrhythmia detection and beyond.