Título
Improving code merging accuracy with transformations and member identity
Autor
Teles, André Duarte Rocha
Resumo
pt
Convencionalmente, o processo de merging de ficheiros de código é realizado de forma não
estruturada, utilizando algoritmos genéricos de merge baseados em linhas (e.g., diff3) que desconhecem
a sintaxe e a semântica da linguagem de programação em que o código está escrito,
resultando em vários conflitos que poderiam ser evitados. As técnicas de merge estruturada e
semiestruturada reduzem o número de conflitos, pois têm em consideração a sintaxe da linguagem
de programação. No entanto, ainda há problemas a serem resolvidos em relação a falsos positivos
(conflitos que poderiam ser evitados, e.g., em mudanças na assinatura de membros) e falsos
negativos (conflitos que não são detectados resultando em código não-compilável).
Esta dissertação apresenta uma técnica de merge que combina estratégias semiestruturadas
e baseadas em transformações. Desenvolvemos o Jaid, um protótipo de ferramenta de
merge para Java, com base no pressuposto de que os elementos estruturais do código evoluem
com UUIDs ”anexados” (identidade). Embora isto tenha inconvenientes e possa exigir editores
de código dedicados para uma boa usabilidade, tem a vantagem de permitir que os processos
de merge detectem com precisão a renomeação, a deslocação e a referência de elementos do
código. O Jaid tem em conta aspectos sintácticos e semânticos para fazer merge baseado em
transformações, tendo como principal diferença, em relação a abordagens anteriores, basear-se
na identidade para localizar e referenciar elementos do código. Realizámos uma experiência com
100 cenários de merge de três projectos open-source para testar a técnica e avaliar a sua viabilidade
na prática.
en
Conventionally, merging code files is performed in an unstructured manner, using generic linebased
merging algorithms (e.g., diff3) that are unaware of the syntax and semantics of the programming
language in which the merged code is written, resulting in several conflicts that could be
avoided. Structured and semistructured merging techniques take into consideration the programming
language syntax and are capable of merging processes that lead to fewer conflicts. However,
there are still issues to be solved regarding false positives (conflicts that could be avoided, e.g.,
member signature changes) and false negatives (conflicts that go undetected resulting in noncompilable
code).
This dissertation presents a merging technique that combines semistructured and transformationbased
strategies, where conflict detection is aware of syntactic and semantic aspects of the programming
language. We developed Jaid, a prototype merging tool for Java based on the assumption
that code structural elements evolve with “attached” UUIDs (identity). While this has drawbacks
and may require dedicated code editors for good usability, it has the advantage of allowing merging
processes to detect with precision renaming, moving, and referencing of code elements, and in
turn, avoid both false positives and false negatives. Jaid takes into account syntactic and semantic
aspects to apply a merge process based on transformations, having the key difference from previous
approaches of relying on identity to locate and reference code elements. We performed an
experiment with 100 merge scenarios from three open-source projects to test the technique and
assess its feasibility in practice.