Correção Automática de Provas por LLMs Multimodais com Dois Agentes
Autores
|
7635 |
3293,754
|
|
|
7636 |
3293,754
|
Informações:
Publicações do PESC
Avaliar respostas discursivas de trabalhos escolares (provas, por exemplo) que combinam texto, manuscritos e diagramas continua sendo um gargalo operacional na educação brasileira. Este trabalho propõe e valida um pipeline dois-agentes — Grader e Reviewer — baseado em Modelos de Linguagem Multimodais (LLMs) de última geração. O Grader atribui nota e feedback conforme rubrica estruturada; o Reviewer audita essa saída, gera um quality_score e dispara uma única revisão quando o escore é inferior a 4.
Três conjuntos de dados reais de graduação (Redes de Computadores, Introdução à Física e Introdução à Programação; N = 35 cadernos) foram corrigidos com Gemini-2.5-pro, Gemini-2.5-flash e o4-mini-high. O pipeline atinge concordância substancial com docentes (? ? 0,78) e MAE ? 0,15 sem fine-tuning. A presença do Reviewer reduz até 40% dos erros extremos (|? ? y| > 0,40) em provas ricas em manuscritos, ao custo adicional médio de US$ 0,02 por caderno — duas ordens de grandeza abaixo do custo humano (? US$ 2,75).
Para comprovar viabilidade prática, desenvolveu-se a aplicação web Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite), que executa o fluxo completo e processa cerca de 10 cadernos por minuto em ambiente serverless ou totalmente offline-first. O sistema, o código-fonte e os datasets encontram-se disponíveis em: https://github.com/CostaFernando/exam-ai-grader.
Os resultados indicam que LLMs multimodais, combinados a um laço leve de auto-revisão, podem oferecer correção automática confiável para avaliações universitárias em língua portuguesa.
Evaluating open-ended answers from academic assignments that combine text, handwriting, and diagrams remains an operational bottleneck in Brazilian education. This work proposes and validates a two-agent pipeline — Grader and Reviewer — based on state-of-the-art Multimodal Language Models (LLMs). The Grader assigns a grade and feedback according to a structured rubric; the Reviewer audits this output, generates a quality_score, and triggers a single revision when the score is below 4.
Three real-world undergraduate datasets (Computer Networks, Introduction to Physics, and Introduction to Programming; N = 35 exam booklets) were graded using Gemini-2.5-pro, Gemini-2.5-flash, and o4-mini-high. The pipeline achieves substantial agreement with instructors (? ? 0.78) and MAE ? 0.15 without fine-tuning. The presence of the Reviewer reduces up to 40% of extreme errors (|? ? y| > 0.40) in exams rich in handwritten content, at an additional average cost of US$ 0.02 per booklet — two orders of magnitude below human grading cost (? US$ 2.75).
To demonstrate practical feasibility, the web application Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite) was developed. It executes the full pipeline and processes around 10 booklets per minute in a serverless or fully offline-first environment. The system, source code, and datasets are available at https://github.com/CostaFernando/exam-ai-grader.
The results indicate that multimodal LLMs, combined with a lightweight self-review loop, can provide reliable automated grading for university-level assessments in Portuguese.



