ATENÇÃO: Esta página foi traduzida automaticamente pelo Google Translate. Isto pode ter consequências inesperadas no conteúdo apresentado e, portanto, não nos responsabilizamos pelo resultado dessa tradução automática.


ATTENTION: this page has been automatically translated by Google Translate. This can have unexpected consequences and, therefore, we do not take responsibility for the result of that automatic translation.

menu
EN
menu
close
MestradoMestrado em Engenharia Informática

Bridging AI and cybersecurity: Assessing open-source large language models for software vulnerability detection

Autor
Lopes, Diogo Gaspar
Acesso
Acesso restrito
Palavras-chave
Cibersegurança
Cybersecurity
Modelos de linguagem -- Language models
Deteção de vulnerabilidades no software
DeepSeek
Llama
Codestral
Software vulnerability detection
Resumo
PT
Esta dissertação investiga o potencial dos Grandes Modelos de Linguagem ("Large Language Models", LLMs) de código aberto para a deteção e classificação automáticas de vulnerabilidades em software, comparando o seu desempenho com ferramentas tradicionais de "Static Application Security Testing" (SAST). O estudo avalia se os modelos "Llama3 70B", "Codestral 2501" e "DeepSeek R1" conseguem identificar e categorizar vulnerabilidades em código-fonte de forma eficaz, e como os seus resultados se comparam com os das ferramentas "Semgrep" e "Flawfinder". A metodologia experimental incluiu dois testes: "Binary Detection", detetar a presença de uma vulnerabilidade, e"Specific Detection", ter a capacidade de classificá-la. Assim, foi utilizado um subconjunto obtido da coleção de dados "Big-Vul", alinhado com as categorias de vulnerabilidades "Common Weakness Enumeration" (CWE). Foi ainda realizada uma análise de custo-eficiência que avaliou as implicações computacionais da utilização destes modelos em fluxos de trabalho de cibersegurança. Os resultados demonstram que as "LLMs" atingiram elevada precisão na "Binary Detection", acima de 80%, evidenciando fortes capacidades de reconhecimento de padrões. Contudo, obtiveram-se elevadas taxas de falsos positivos e baixa consistência na classificação por "CWE", com resultados próximos de 16% de precisão. Conclui-se que, embora estas "LLMs" apresentem potencial como ferramentas auxiliares para triagem de vulnerabilidades e revisão de código, ainda não demonstram maturidade suficiente para uso autónomo em pipelines sensíveis à segurança. Este estudo contribui com dados empíricos e perceções práticas que podem apoiar a investigação e a adoção industrial da deteção de vulnerabilidades assistida por IA.
EN
This dissertation investigates the potential of open-source Large Language Models (LLMs) for automated software vulnerability detection and classification, contrasting their performance with traditional Static Application Security Testing (SAST) tools. The study aims to assess whether models such as Llama3 70B, Codestral 2501, and DeepSeek R1 can effectively identify and categorise vulnerabilities within source code, and how their results compare to the results of established tools like Semgrep and Flawfinder. The experimental methodology employed two complementary evaluation tests: Binary Detection, the ability to detect the presence of a vulnerability, and Specific Detection, the ability to classify it. To this end, using a curated subset of the Big-Vul dataset aligned with the Common Weakness Enumeration(CWE). Additionally, a cost-efficiency analysis quantified the computational implications of deploying these models in practical security workflows. Results show that LLMs achieved high accuracy in Binary Detection, with more than 80% across all the models, demonstrating strong pattern-recognition capabilities. However, this performance was accompanied by high false-positive rates and weak consistency in CWE-based classification, averaging only 16% accuracy across models. These findings indicate that while open-source LLMs hold promise as complementary tools for vulnerability triage and code review, they don’t yet appear to be mature enough for stand-alone use in secure sensitive pipelines. The study contributes an empirical benchmark and practical insights to guide both academic research and industrial adoption of AI-assisted vulnerability detection.

Relacionadas