Una investigación liderada por la Universidad de Cambridge analizó más de 700 ensayos universitarios calificados por profesores y por inteligencia artificial generativa, concluyendo que estas herramientas son aún insuficientes para evaluar adecuadamente trabajos académicos. En este debate participó como referente experta María Fernanda Rodríguez, doctora en Ciencias de la Ingeniería y académica de la Facultad de Educación y Ciencias Sociales de la U. Finis Terrae.
El estudio y sus hallazgos
La investigación utilizó modelos de IA generativa de última generación para corregir 761 ensayos de estudiantes de Psicología de tres universidades del Reino Unido. Si bien la IA logró coincidir con la categoría de nota asignada por evaluadores humanos entre un 35% y un 65% de los casos, los problemas más significativos aparecen en los extremos: la IA tendía a calificar muy bajo trabajos que los docentes consideraban excelentes, y sobrevaloraba ensayos que los evaluadores humanos ubicaban entre los de peor desempeño.
La razón, según el estudio, es que los sistemas de IA mostraron una marcada sensibilidad a características lingüísticas como la extensión de los textos, la complejidad del vocabulario y la estructura de las oraciones, independientemente de la calidad académica real de los trabajos.
La mirada de nuestra académica
Ante estos hallazgos, Rodríguez plantea que “la IA todavía tiene dificultades para distinguir entre una escritura sofisticada y una argumentación profunda”. Para la académica, los resultados del estudio recuerdan que “los sistemas de IA funcionan a partir de patrones estadísticos del lenguaje. Pueden reconocer señales asociadas a textos académicos de calidad, pero eso no es equivalente a evaluar con profundidad la originalidad de una idea, la profundidad de una interpretación o la calidad de un juicio crítico. Por esto, todavía debemos ser cautos cuando se trata de delegar las decisiones evaluativas de alto impacto”.
Rodríguez subraya además que los docentes evalúan dimensiones que van mucho más allá del texto: “Los profesores evalúan elementos como la pertinencia de los argumentos, las conexiones que establece el estudiante, la capacidad de cuestionar supuestos y de construir una posición propia. La evaluación académica incorpora elementos de la experiencia profesional y conocimiento disciplinar que no siempre están explícitos en una rúbrica”.
La académica también destaca el valor de la trayectoria del estudiante en el proceso evaluativo: “Los docentes suelen interpretar un trabajo considerando procesos previos, avances, dificultades y contextos específicos. Estos componentes disciplinares, profesionales y relacionales siguen siendo una fortaleza eminentemente humana”.
Finalmente, la académica llama a usar la IA como complemento y no como reemplazo: “El desafío es asegurar que estas herramientas fortalezcan y no reemplacen los procesos de reflexión, deliberación y juicio profesional, que siguen siendo centrales en educación”.
Esta nota fue elaborada a partir de la publicación original aparecida en El Mercurio. Ver Acá