PT
Esta tese aborda o problema da deteção de violência em excertos de filmes, com base
em características extraídas do audio e do video. A resolução deste problema é relevante
para um vasto leque de aplicações, incluindo evitar ou monitorizar a exposição de crianças
à violência que existe nos vários tipos de média, o que pode evitar que estas desenvolvam
comportamentos violentos. Analisámos e extraímos características áudio e vídeo diretamente do excerto de filme e usámo-las para classificar excertos de filme como violentos ou
não violentos. De forma a encontrar o melhor conjunto de caracteristicas e atingir a melhor
performance, as nossas experiências utilizam dois classificadores, nomeadamente: Support
Vector Machines (SVM) e Redes Neuronais(NN). Foi usado um conjunto balanceado de excertos de filmes, retirado da base de dados ACCEDE, conjunto esse, que contém 880 excertos de filme, anotados manualmente como violentos ou não violentos. Durante as primeiras
experiências, usando características incluídas na base de dados ACCEDE, testámos caracteristicas áudio e características vídeo, individualmente, e combinações de características
áudio e vídeo. Estes resultados estabeleceram o ponto de partida para as experiências
que os seguiram, usando outras características áudio, extraídas através de ferramentas
disponíveis, e outras características vídeo, extraídas através dos nossos próprios métodos. As conclusões mais relevantes a que chegámos são as seguintes: 1) características
áudio podem ser facilmente extraídas usando ferramentas já existentes e têm grande impacto na performance do sistema; 2) em termos de características vídeo, caracteristicas
relacionadas com o movimentos e transições entre planos numa cena, parecem ter mais impacto do que características relacionadas com cor e luminância; 3) Os melhores resultados
ocorrem quando se combinam características áudio e vídeo, sendo que, em geral, o classificador SVM parece ser mais adequado para o problema, apesar da performance dos dois
classificadores ser semelhante para o melhor conjunto de características a que chegámos.
EN
This thesis addresses the problem of automatically detecting violence in movie excerpts, based on audio and video features. A solution to this problem is relevant for a
number of applications, including preventing children from being exposed to violence in
the existing media, which may avoid the development of violent behavior. We analyzed and
extracted audio and video features directly from the movie excerpt and used them to classify the movie excerpt as violent or non-violent. In order to find the best feature set and
to achieve the best performance, our experiments use two different machine learning classifiers: Support Vector Machines (SVM) and Neural Networks (NN). We used a balanced
subset of the existing ACCEDE database of movie excerpts containing 880 movie excerpts
manually tagged as violent or non-violent. During an early experimental stage, using the
features originally included in the ACCEDE database, we tested the use of audio features
alone, video features alone and combinations of audio and video features. These results
provided our baseline for further experiments using alternate audio features, extracted using available toolkits, and alternate video features, extracted using our own methods. Our
most relevant conclusions are as follows: 1) audio features can be easily extracted using
existing tools and have a strong impact in the system performance; 2) in terms of video features, features related with motion and shot transitions on a scene seem to have a better
impact when compared with features related with color or luminance; 3) the best results
are achieved by combining audio and video features. In general, the SVM classifier seems
to work better for this problem, despite the performance of both classifiers being similar
for the best feature set