Título
Deteção de palavras emergentes em tweets portugueses e análise do seu percurso na redes sociais
Autor
Pinto, Afonso do Carmo Marques Mendes
Resumo
pt
Este trabalho aborda o problema da deteção de palavras emergentes numa língua, com base
em conteúdos de redes sociais. Propõe uma abordagem para a deteção de novas palavras
no Twitter, e relata os resultados alcançados para um dataset com dados geolocalizados
recolhidos entre Janeiro de 2018 e Junho de 2019 e publicados em território português com
um total de 8 milhões de tweets. Os primeiros seis meses de dados foram utilizados para
definir um vocabulário inicial, a partir do qual foram identificadas novas palavras nos 12
meses seguintes. O conjunto de palavras resultante foi analisado manualmente, revelando
uma série de eventos distintos e sugerindo que o Twitter pode ser um recurso valioso para
pesquisar a dinâmica do vocabulário de uma língua.
É proposta uma metodologia para o mapeamento da propagação das palavras anteriormente identificadas como emergentes, onde é localizada a origem da emergência e a
propagação das mesmas por Portugal através de diferentes meios sociais e geográficos.
Foram identificados padrões para a emergência, sejam eles religiosos, musicais, etc. Com
base nos resultados, foi identificada a cidade de Lisboa como a principal região para a emergência das palavras seguida a cidade do Porto, onde também está representada a maioria
dos utilizadores do Twitter.
Com o objetivo de disponibilizar os resultados alcançados neste trabalho recorreu-se ao
desenvolvimento de um "website", onde é possível de uma forma facilitada visualizar as palavras emergentes e a sua representação geográfica, assim como estatísticas relacionadas
com as mesmas.
en
This work tackles the problem of detecting emerging words on a language, based on social
networks content. It proposes an approach for detecting new words on Twitter, and reports
the achieved results for a collection of 8 million Portuguese tweets. This study uses geolocated tweets, collected between January 2018 and June 2019, and written in the Portuguese
territory. The first six months of the data were used to define an initial vocabulary, from
which new words were identified on the following 12 months. The set of resulting words
were manually analyzed, revealing a number of distinct events, and suggesting that Twitter
may be a valuable resource for researching the vocabulary dynamics of a language.
A methodology is proposed for mapping the propagation of the previous words identified as emerging, where the source of the emergency is located and the propagation by
Portugal through different social and geographical. Were identified patterns for the emergency, be they religious, musical, etc. Based on the results, the city of Lisbon was identified
as the main region for the emergence of words and followed by the city of Porto, where the
majority of Twitter users are also represented.
To make the results achieved in this work accessible, a website was developed, where
it is possible to visualize in an easy way the emerging words and their geographical representation, as well as statistics related to them.