Please use this identifier to cite or link to this item: http://hdl.handle.net/123456789/5578
Title: UMA ABORDAGEM HÍBRIDA DE CORREÇÃO GRAMATICAL DE CONTEÚDOS PRODUZIDOS NA LÍNGUA PORTUGUESA
Other Titles: A HYBRID APPROACH TO GRAMMATICALLY CORRECT CONTENT PRODUCED IN THE PORTUGUESE LANGUAGE
Authors: SILVA, Arthur Azevedo da
Keywords: Correção de Erros Gramatical;
Processamento de Linguagens Naturais;
Língua Portuguesa;
Abordagem híbrida;
Sujeito-Verbo-Objeto;
N-grama;
Classificador;
Aprendizado de Máquina
Grammatical Error Correction;
Natural Language Processing;
Portuguese Language;
Hybrid Approach;
Subject-Verb-Object
Issue Date: 18-Jul-2022
Publisher: UFMA
Abstract: Este trabalho de conclusão de curso tem como objetivo desenvolver um sistema de correção de erros gramaticais (CEG) para a análise e correção de concordância verbal na língua portuguesa. A escrita possibilitou e ainda possibilita uma importante contribuição para o desenvolvimento da civilização humana. A importância de uma escrita correta é fundamental para que estudos, registros e entre outros, sejam benéficos para a sociedade, visto que erros gramaticais podem causar sérios danos ao correto entendimento, eliminando os benefícios obtidos. Porém são bastante custosos os métodos de correção de texto realizados por humanos. Por conta disso, dentro do processamento de linguagem natural (PLN), área que estuda de maneira computacional as linguagens naturais, existe a CEG, que se propõe para detectar e corrigir erros gramaticais. A CEG tipicamente tem três abordagens: estatística, baseada em regras gramaticais e híbrida. A abordagem híbrida, que une o melhor das outras duas abordagens, é uma solução salutar para esse problema. Neste trabalho, a abordagem baseada em regra, sujeito-verbo-concordância (SVC), foi empregada para a análise de erros de concordância verbal e a abordagem estatística n-grama com um classificador de aprendizado de máquina, para a correção dos erros. Este sistema usa três bibliotecas da linguagem python para as tarefas de PLN: spaCy, mlconjug3 e NLTK. A abordagem híbrida mostrou-se eficaz na tarefa de análise de erros, para frases simples, obtendo um recall de 94%, uma precisão de 89% e um f-score de 91%. Já a correção, mesmo tendo uma precisão abaixo de 50%, acabou tendo um bom desempenho, visto que em línguas como o português, existe mais de uma correção.
Description: The present research has the goal of developing a grammatical error correction (GEC) system for the analysis and correction of verbal agreement in the portuguese language. Writing has made and still makes possible to greatly contribute with the development of human civilization. The importance of proper writing is essential for studies, records, among others, that are beneficial to society as a whole, since grammatical errors can cause serious damage to the correct under standing, causing the loss of the benefits already obtained. However, human methods of text correction are very costly. For that reason, within natural language processing (NLP), a field that computationally studies natural languages, there is GEC, which aims to detect and correct grammatical errors. GEC typically has three main approaches: statistical, grammar rule-based, and hybrid. The hybrid approach, which brings together the best of the other two, is a salutary so lution to the problem presented. In this research, the rule-based, subject-verb-concordance (SVC) approach was employed for the analysis of verb agreement errors and n-gram statistical approach with a machine learning classifier. This system uses three libraries from python language for the NLP tasks: spaCy, mlconjug3 and NLTK. The hybrid approach proved to be effective in the error analysis task, for simple sentences, obtaining a recall of 94%, a precision of 89% and an f-score of 91%. The correction, even having a precision below 50%, ended up having a good performance, since in languages like portuguese, there are several correction options.
URI: http://hdl.handle.net/123456789/5578
Appears in Collections:TCCs de Graduação em Ciência da Computação do Campus do Bacanga

Files in This Item:
File Description SizeFormat 
Arthur Azevedo TCC.pdfTCC de Graduação16,83 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.