Usando NLP para avaliar o conteúdo de mensagem de commits
Me siga no X | Me siga no LinkedIn | Apoie a Newsletter | Solicite uma consultoria
Durante o processo de desenvolvimento de software, pessoas desenvolvedoras frequentemente realizam commits com mudanças nos artefatos de código. Esses commits são indexados por ferramentas como o Git, que automatizam o versionamento dos programas.
Cada commit contem tanto as mudanças nos artefatos de código, bem como uma mensagem que explica as intenções trás da mudança. Boas mensagens de commits, na verdade, tendem a explicar quais foram as mudanças e também porque essas mudanças foram necessárias. Uma boa mensagem de commit ajuda a comunicar o contexto das mudanças aos colaboradores do projeto, facilita o processo de revisão de código e, para projetos mais antigos, talvez seja uma das únicas fonte de informação, uma vez que boa parte da equipe já pode ter saído do projeto.
No entanto, embora a qualidade do conteúdo da mensagem de um commit seja algo reconhecidamente importante, não é incomum encontrar mensagens que sejam vagas, ou até mesmo em branco. Ademais, embora existam guias técnicos que ajudem pessoas desenvolvedoras a escrever melhores mensagens de commit, como o guia de commit semânticos, esses guias nem sempre são conhecidos ou amplamente utilizados.
Nesse texto vamos explorar uma abordagem complementar para avaliação do conteúdo de mensagens de commit. Nessa abordagem, estamos interessados em descobrir quais são so termos frequentemente empregados nas mensagens de commits. Nossa hipótese é que alguns poucos termos possam expressar de maneira mais ampla sobre todo o histórico de mudanças.
Continue a leitura com um teste grátis de 7 dias
Assine ML4SE para continuar lendo esta publicação e obtenha 7 dias de acesso gratuito aos arquivos completos de publicações.