Informações:

Publicações do PESC

Título
Correção Automática de Provas por LLMs Multimodais com Dois Agentes
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
29/8/2025
Resumo

Avaliar respostas discursivas de trabalhos escolares (provas, por exemplo) que combinam texto, manuscritos e diagramas continua sendo um gargalo operacional na educação brasileira. Este trabalho propõe e valida um pipeline dois-agentes — Grader e Reviewer — baseado em Modelos de Linguagem Multimodais (LLMs) de última geração. O Grader atribui nota e feedback conforme rubrica estruturada; o Reviewer audita essa saída, gera um quality_score e dispara uma única revisão quando o escore é inferior a 4.

Três conjuntos de dados reais de graduação (Redes de Computadores, Introdução à Física e Introdução à Programação; N = 35 cadernos) foram corrigidos com Gemini-2.5-pro, Gemini-2.5-flash e o4-mini-high. O pipeline atinge concordância substancial com docentes (? ? 0,78) e MAE ? 0,15 sem fine-tuning. A presença do Reviewer reduz até 40% dos erros extremos (|? ? y| > 0,40) em provas ricas em manuscritos, ao custo adicional médio de US$ 0,02 por caderno — duas ordens de grandeza abaixo do custo humano (? US$ 2,75).

Para comprovar viabilidade prática, desenvolveu-se a aplicação web Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite), que executa o fluxo completo e processa cerca de 10 cadernos por minuto em ambiente serverless ou totalmente offline-first. O sistema, o código-fonte e os datasets encontram-se disponíveis em: https://github.com/CostaFernando/exam-ai-grader.

Os resultados indicam que LLMs multimodais, combinados a um laço leve de auto-revisão, podem oferecer correção automática confiável para avaliações universitárias em língua portuguesa.

Abstract

Evaluating open-ended answers from academic assignments that combine text, handwriting, and diagrams remains an operational bottleneck in Brazilian education. This work proposes and validates a two-agent pipeline — Grader and Reviewer — based on state-of-the-art Multimodal Language Models (LLMs). The Grader assigns a grade and feedback according to a structured rubric; the Reviewer audits this output, generates a quality_score, and triggers a single revision when the score is below 4.

Three real-world undergraduate datasets (Computer Networks, Introduction to Physics, and Introduction to Programming; N = 35 exam booklets) were graded using Gemini-2.5-pro, Gemini-2.5-flash, and o4-mini-high. The pipeline achieves substantial agreement with instructors (? ? 0.78) and MAE ? 0.15 without fine-tuning. The presence of the Reviewer reduces up to 40% of extreme errors (|? ? y| > 0.40) in exams rich in handwritten content, at an additional average cost of US$ 0.02 per booklet — two orders of magnitude below human grading cost (? US$ 2.75).

To demonstrate practical feasibility, the web application Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite) was developed. It executes the full pipeline and processes around 10 booklets per minute in a serverless or fully offline-first environment. The system, source code, and datasets are available at https://github.com/CostaFernando/exam-ai-grader.

The results indicate that multimodal LLMs, combined with a lightweight self-review loop, can provide reliable automated grading for university-level assessments in Portuguese.

Arquivo
Topo