Editorial
eISSN 2007-5057
Investigación educ. médica Vol. 12, no. 48, México, octubre-diciembre 2023
https://doi.org/10.22201/fm.20075057e.2023.48.23550
La inteligencia artificial generativa y la evaluación: ¿Qué pasará con los exámenes?
Generative artificial intelligence and assessment:
What will happen to exams?
“Con mucho, el mayor peligro de la inteligencia artificial es que las personas concluyen demasiado pronto que la entienden”.
Eliezer Yudkowsky
Recientemente, Daisy Christodoulou, una académica de Gran Bretaña, preguntó en su blog: “Si estamos haciendo exámenes que un robot puede contestar bien, ¿qué dice eso de nuestras evaluaciones?”1. Las sofisticadas herramientas de la inteligencia artificial generativa (IAGen), como ChatGPT, continúan creando muchas inquietudes en docentes e instituciones, ya que introducen aspectos éticos, técnicos y académicos que siguen sin tener una respuesta definida que satisfaga a todos los actores del proceso educativo2,3. Una de las áreas más controversiales es la que tiene que ver con los retos de evaluación del y para el aprendizaje que surgen con la IAGen. El proceso de evaluación del y para el aprendizaje, aún antes de la pandemia y de la revolución actual de inteligencia artificial, distaba de ser el ideal y, por diversas circunstancias, no era aplicado satisfactoriamente en los escenarios escolares y clínicos por el profesorado y las instituciones de salud y educativas. En esta Editorial comentaremos brevemente las implicaciones positivas y negativas de la IAGen para la evaluación, así como algunas posibles estrategias para enfrentarlas.
Tradicionalmente la evaluación del y para el aprendizaje es una tarea compleja, infravalorada, que con frecuencia no está alineada con el currículo, y que continúa teniendo un gran énfasis en exámenes y evaluaciones sumativas en contextos artificiales y poco auténticos. En tiempos recientes la pandemia causó una severa crisis en el mundo educativo en todos los niveles, al obligar a realizar evaluaciones a distancia con exámenes en línea en casa. Como consecuencia hubo cambios importantes en la educación en línea y en las formas de realizar las evaluaciones formativas y sumativas. Desafortunadamente de forma gradual parece ser que estamos regresando a la actitud prepandemia de minusvaloración de la evaluación, subestimando su rol en el proceso educativo.
Aunado al proceso postpandemia de regreso a nuestras zonas de comodidad, aparece un nuevo jugador en educación, la IAGen, que está generando cambios potencialmente disruptivos en la educación superior4,5. Reflexionemos sobre los tipos de instrumentos de evaluación que pueden ser más afectados por la IAGen. Actualmente los tipos de evaluación que se encuentran en la categoría de “evaluaciones escritas”, como el ensayo, las preguntas de opción múltiple, de respuesta corta, de compleción, y las disertaciones, son los que tienen mayor riesgo de ser influenciados por el uso de la IAGen por docentes o estudiantes. Sin embargo, existen otras formas de evaluación que podemos utilizar sin preocuparnos demasiado porque sean afectadas a corto plazo por la IAGen, como portafolios, reportes de pares, observación directa, listas de cotejo, registros de desempeño, exámenes clínicos objetivos estructurados, exámenes orales, entre otras. Es importante tomar en cuenta que el ritmo inaudito con el que están avanzando estas herramientas tecnológicas nos hace pensar que en un futuro cercano la IAGen modificará profundamente el escenario de evaluación, sobre todo cuando la inteligencia artificial multimodal (texto, audio y video) sea de uso cotidiano por la comunidad. Tal vez lo importante a considerar es que, aún con los instrumentos que pueden ser más afectados por la IAGen, podemos trabajar en equipo en un diálogo constante con el estudiantado, para aprovechar su potencial y mejorar el aprendizaje6.
Es un hecho que las herramientas de IAGen como ChatGPT tienen un enorme potencial de generar una disrupción real en evaluación educativa4,5. La comunidad docente y administradores de la educación estamos en un estado que pudiera considerarse de “pánico moral”, por la irrupción de IAGen en las evaluaciones tradicionales, como exámenes y ensayos. Hay quien dice que “¡se acabaron los exámenes y las tareas!”, ya que las nuevas herramientas son capaces de responder mejor algunos instrumentos de evaluación que los seres humanos, como ensayos y algunos exámenes de certificación profesional, poniendo a profesores y universidades en una posición difícil: ¿cómo estar seguro de que el resultado de la evaluación es válido y refleja realmente lo que sabe y sabe hacer el educando? Por ejemplo, ChatGPT 4 es capaz de obtener puntuaciones similares o superiores en exámenes sumativos de alto impacto dirigidos a médicos, abogados, entre otros, lo que nos hace preguntarnos ¿cuál es el futuro de este tipo de exámenes?7.
Las respuestas iniciales a IAGen en evaluación que ocurren en el profesorado generalmente caen en estas tres categorías8:
Las siguientes sugerencias pueden ser de utilidad para las y los docentes de hospitales y universidades:
Reflexionemos intensamente sobre estas herramientas, y comencemos a realizar trabajos de investigación educativa sobre IAGen y educación en profesiones de la salud. Por el momento la cantidad y calidad de trabajos sobre el tema están en sus albores, en su mayoría son “preprints” que no han pasado el arbitraje por pares, por lo que se requiere que con rigor académico documentemos investigaciones y experiencias locales sobre el tema.
Regresando al presente número de la revista, tenemos artículos originales sobre los siguientes temas: ambientes educativos y éxito académico; educación de geriatría en México; examen nacional del internado en Perú; flexibilidad cognitiva y rendimiento académico en estudiantes de medicina; simulación virtual en enfermería; curso virtual de lectura crítica en la pandemia; inteligencia emocional en médicos residentes; exposición oral en clases de docentes y estudiantes. Además, contamos con un artículo de revisión sobre el desarrollo y validación de las actividades profesionales a confiar (EPAs en inglés), así como un ensayo sobre la formación médica y un escenario político contingente, tema especialmente relevante en la época actual.
El advenimiento de la IAGen y sus múltiples herramientas, de las que ChatGPT es una de las más conocidas, están propiciando un escenario educativo global proclive a la innovación, por lo que es necesario explorarlas y combinarlas con las que ya utilizamos, en beneficio de los estudiantes.
Melchor Sánchez Mendiola
Editor en Jefe
Facultad de Medicina, UNAM
REFERENCIAS
1.Christodoulou D. If we are setting assessments that a robot can complete, what does that say about our assessments? The No More Marking Blog. Feb. 5, 2023. https://blog.nomoremarking.com/if-we-are-setting-assessments-that-a-robot-can-complete-what-does-that-say-about-our-assessments-cbc1871f502
2.Pearce J, Chiavaroli N. Rethinking assessment in response to generative artificial intelligence. Med Educ. 2023; 57(10):889-891. https://doi.org/10.1111/medu.15092
3.Swiecki Z, Khosravi H, Chen G, Martinez-Maldonado R, Lodge JM, Milligan S, Gašević D. Assessment in the age of artificial intelligence. Computers and Education: Artificial Intelligence. 2022;3:100075. https://doi.org/10.1016/j.caeai.2022.100075
4.Susnjak T. ChatGPT: The End of Online Exam Integrity? ArXiv, 2022, abs/2212.09292. https://doi.org/10.48550/arXiv.2212.09292
5.Farazouli A, Cerratto-Pargman T, Bolander-Laksov K, McGrath C. “Hello GPT! Goodbye home examination? An exploratory study of AI chatbots impact on university teachers’ assessment practices”, Assessment & Evaluation in Higher Education. 2023:1-13. https://doi.org/10.1080/02602938.2023.2241676
6.Karolinska Institutet. ChatGPT and assessment. 2023. https://staff.ki.se/chatgpt-and-assessment
7.Nori H, King N, McKinney SM, Carignan D, Horvitz E. Capabilities of GPT-4 on Medical Challenge Problems. ArXiv 2023. https://arxiv.org/abs/2303.13375v2 https://doi.org/10.48550/arXiv.2303.13375
8.Lindsay K. ChatGPT and the Future of University Assessment. Kate Lindsay Blogs. Jan 16, 2023. https://katelindsayblogs.com/2023/01/16/chatgpt-and-the-future-of-university-assessment/
9.Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi. Can AI-Generated Text be Reliably Detected? ArXiv 2023. https://arxiv.org/abs/2303.11156v2 https://doi.org/10.48550/arXiv.2303.11156
Este es un artículo Open Access bajo la licencia CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).