Metodología de investigación en educación médica
eISSN 2007-5057
Investigación educ. médica vol. 9, no. 34, México abr/jun. 2020
http://doi.org/10.22201/facmed.20075057e.2020.34.221
Amenazas a la validez en evaluación: implicaciones en educación médica
Blanca Ariadna Carrillo Avalosa,*, Melchor Sánchez Mendiolab, Iwin Leenenc
aDepartamento de Ciencias Morfológicas, Facultad de Medicina, Universidad Autónoma de San Luis Potosí, S. L. P., México.
bDivisión de Estudios de Posgrado, Facultad de Medicina, Universidad Nacional Autónoma de México, Cd. Mx., México.
cDivisión de Estudios de Posgrado, Facultad de Psicología, Universidad Nacional Autónoma de México, Cd. Mx., México.
Recibido: 10-diciembre-2019. Aceptado: 17-febrero-2020.
Resumen
Las amenazas a la validez en evaluación educativa son elementos que interfieren con la interpretación propuesta de los resultados de una prueba, pueden ocurrir tanto en exámenes escritos como en pruebas de desempeño y evaluación de competencias clínicas. Estas amenazas se suelen agrupar en dos clases principales: subrepresentación del constructo y varianza irrelevante al constructo. La primera se refiere a que en la prueba no haya suficientes ítems, casos u observaciones para generalizar apropiadamente al dominio completo que se pretende evaluar. La segunda tiene que ver con la presencia de sesgos que interfieren de manera sistemática con la interpretación de los resultados de una prueba, como pueden ser la calidad de los ítems y errores sistemáticos de los evaluadores, entre otros factores que pueden influir sobre la puntuación obtenida. En este artículo se describen las características de las amenazas principales, su importancia y algunas recomendaciones para evitarlas al elaborar y aplicar instrumentos de evaluación en ciencias de la salud. La comprensión de estas amenazas es útil para desarrollar pruebas cuyos resultados tengan niveles aceptables de validez que nos permitan conocer mejor el desempeño de los estudiantes.
Palabras clave: Amenazas a la validez; evaluación del aprendizaje; educación médica; México.
Threats to validity in assessment: implications in medical education
Abstract
Validity threats in educational assessment are elements that interfere with the proposed interpretation of a test score. They can occur in written tests as well as in performance and clinical competency assessments. They are usually grouped in two major categories: construct underrepresentation and construct-irrelevant variance. The former refers to tests with insufficient items, cases, or observations to make a proper generalization towards the full to-be-assessed domain. The latter is related to the presence of biases that can interfere systematically with the interpretation of a test score, such as item quality and raters’ systematic errors, among other factors that may have an effect on the obtained score. In this paper we describe the characteristics of some of these threats, their importance, and some recommendations to avoid them during the development of assessment instruments in health sciences education. The insights offered can be useful to devise tests and assessment instruments that allow us to draw more valid inferences about students’ knowledge and abilities.
Keywords: Validity; validity threats; learning assessment; medical education; Mexico.
INTRODUCCIÓN
El análisis de la validez de los usos e interpretaciones de las puntuaciones de una prueba nos informará sobre el grado en que son apropiados estos usos e interpretaciones para los fines de la evaluación. Sin embargo, la tarea de validación no termina aquí, ya que es necesario descartar otras hipótesis que puedan explicar resultados que no concuerden con la hipótesis original, e identificar elementos que puedan interferir con la interpretación apropiada de los resultados1-3. Estas hipótesis apuntan a posibles amenazas a la validez y considerarlas dará mayor fortaleza a las decisiones que se tomen con base en las puntuaciones del examen que estamos valorando. Este análisis cobra mayor relevancia mientras mayor sea el escrutinio al que esté sometido el proceso de evaluación, y mayores sean las potenciales consecuencias del uso de los resultados en los sustentantes, los docentes y las instituciones educativas.
En otro artículo revisamos el concepto moderno de validez en evaluación educativa y su relevancia en educación médica4. En este trabajo describiremos las principales amenazas a la validez que existen en evaluación educativa, sus implicaciones en educación en ciencias de la salud y algunas recomendaciones para evitarlas.
Las amenazas a la validez son factores que interfieren con la interpretación del significado de la puntuación obtenida en la evaluación2,3. Pueden encontrarse en cualquier tipo de evaluación, ya sea de conocimientos teóricos o prácticos, diagnóstica, formativa o sumativa3. En muchas ocasiones los exámenes que se aplican en las escuelas y facultades de medicina, enfermería y otras ciencias de la salud se hacen por medio de preguntas de opción múltiple (POM)5,6, en este artículo nos enfocaremos principalmente en este tipo de pruebas, aunque las amenazas a la validez se pueden presentar –y deben considerarse– también en evaluaciones prácticas como el examen clínico objetivo estructurado (ECOE). Con respecto a las evaluaciones con POM, se han publicado varios estudios que documentan que la calidad de los reactivos o ítems es limitada7-9, ya que con frecuencia no se elaboran con el profesionalismo necesario ni siguiendo los lineamientos técnicos para ello6.
Aunque se mencionan varios tipos de amenazas (por ejemplo, Crooks, Kane y Cohen consideran al menos 23, relacionadas con ocho inferencias)10, en general se agrupan en dos clases principales: la subrepresentación del constructo (SC) y la varianza irrelevante al constructo (VIC)11. A continuación explicamos estos dos conceptos.
Según la teoría clásica de los test (TCT), la puntuación observada (X) es una combinación de la puntuación verdadera (true = T), más un componente de error aleatorio (random error = Er):12,13
X = T + Er.
En esta fórmula, la puntuación verdadera T resulta de todos los factores que tienen un efecto sistemático sobre la puntuación observada X, incluyendo tanto el constructo de interés como otros factores sistemáticos que no son el objetivo de la medición (por ejemplo, gran severidad de un examinador en un ECOE que cause disminución sistemática de las puntuaciones). Por otro lado, el error aleatorio (Er) recoge el efecto de todas las circunstancias que afectan la puntuación observada de manera no sistemática, es decir factores que varían cada vez que se aplica la prueba, como el cansancio o estrés del alumno14. Tanto la puntuación verdadera como el error aleatorio son constructos hipotéticos y desconocidos, pero por medio de métodos de la TCT se pueden hacer conclusiones a partir de una muestra15.
La discusión anterior indica que la puntuación verdadera puede descomponerse en dos partes: la puntuación en el constructo de interés (ѳ) más la puntuación que se debe a otros factores sistemáticos. Como la segunda parte incluye efectos de factores no intencionados, Haladyna y Downing14 la denominan el error sistemático (Es) y obtienen la siguiente fórmula:
X = ѳ + Es + Er. (1)
A partir de esta fórmula, se definen los conceptos de SC y VIC. Por un lado, existe una amenaza a la validez cuando la medición de ѳ es a través de ítems que no son representativos del dominio completo a evaluar; es decir, cuando los ítems de la prueba evalúan de manera incompleta el constructo que se desea medir. Este caso se considera SC. Por otro lado, la VIC está asociada con el error sistemático Es, el cual es causado por la medición involuntaria de constructos irrelevantes –cuya medición no es el objetivo del examen–, por lo que interfieren con la medición del constructo original y por lo tanto con la validez de la interpretación de la puntuación2,11,14.
Mención aparte merece el componente Er de la fórmula (1). Por definición, este componente no produce SC ni VIC, ya que su efecto no es sistemático. Sin embargo, la varianza debido a Er no es deseable y también constituye una amenaza a la validez. En el marco de la TCT, los factores reunidos en Er conllevan una baja confiabilidad (y un error estándar de medición grande)2,9,16. En este sentido, la fórmula (1) permite ilustrar la diferencia entre validez y confiabilidad. Por un lado, tanto Er y Es se refieren a errores a la medición del constructo y, por lo tanto, ambos constituyen amenazas a la validez; por otro lado, solo Er causa varianza no sistemática y, por lo tanto, solo este factor está asociado con la (baja) confiabilidad. Esto aclara por qué confiabilidad se considera un prerrequisito para validez. En el resto de este artículo solo se considerarán amenazas a la validez relacionadas con factores sistemáticos: SC y VIC.
SUBREPRESENTACIÓN DEL CONSTRUCTO (SC)
En el caso de una prueba escrita, la SC se refiere a que, considerando el universo de ítems o preguntas posibles relevantes al dominio explorado, la prueba esté integrada por una muestra de ítems que puede:
La SC es una amenaza particularmente importante para la inferencia de extrapolación, ya que la interpretación de las puntuaciones es más limitada si los resultados no son representativos del constructo que se supone que la prueba evalúa18.
Utilizaremos para ilustrar las distintas amenazas a la validez un ejemplo de ciencias básicas: el tema de anatomía de la cabeza. Este tema, sin neuroanatomía, abarca 160 páginas del libro de “Anatomía con orientación clínica de Moore”19, uno de los libros más utilizados para la enseñanza de anatomía humana en México. Si aplicáramos el examen de la Tabla 1 con el objetivo de evaluar los conocimientos de anatomía representados en el libro de Moore, las amenazas a la validez con respecto a la SC serían las siguientes:
Tabla 1. Ejemplos de preguntas de un examen de anatomía de la cabeza
Pregunta |
Opciones de respuesta |
1.- ¿Cuántos huesos conforman el viscerocráneo? |
a. 11 b. 12 c. 13 d. 14 e. 15* |
2.- La siguiente estructura generalmente está inervada por el nervio laríngeo interno: |
a. Aritenoides oblicuo b. Cricoaritenoideo posterior c. Cricotiroideo d. Mucosa infralaríngea e. Mucosa supralaríngea* |
3.-En la coroides no ocurre lo siguiente: |
a. Contiene ramas de la arteria central de la retina* b. La lámina coroidocapilar es la más interna c. Produce el reflejo rojo del fondo de ojo d. Se encuentra entre la esclera y la retina e. Sus venas drenan en una vena vorticosa |
4.- Una mujer joven se golpea la cabeza con el cuadro de mandos del automóvil durante una colisión frontal. A continuación, sufre un desgarro de la parte frontal del cuero cabelludo con sangrado abundante. La herida se lava con suero fisiológico y se cubre con una venda estéril. Cuando la mujer llega al hospital tiene los dos ojos morados. En la exploración posterior no se aprecia ninguna lesión ocular19. ¿Cuál es la arteria que más probablemente se lesionó en este caso? |
a. Auricular posterior b. Facial, porción cervical c. Mentoniana d. Supraorbitaria* e. Temporal superficial |
5.- ¿Cuál es la acción principal del músculo recto inferior? I. Abducir el globo ocular II. Aducir el globo ocular III. Descender el globo ocular IV. Rotar lateralmente el globo ocular V. Rotar medialmente el globo ocular |
a. I, II y III b. II, III y IV* c. III, IV y V d. I, III y V e. I y IV |
6.- Which bone does NOT contribute to the orbit? |
a. Frontal bone b. Maxilla c. Palate bone d. Sphenoid bone e. Temporal bone* |
7.- Un boxeador recibió un golpe en la cara lateral de la nariz, quedando deformada y con los huesos nasales desplazados. Asimismo, presentaba una rotura de los cartílagos de la nariz, epistaxis y obstrucción de la vía respiratoria nasal. ¿Cuál es la arteria en donde se origina la epistaxis? |
a. Etmoidal anterior b. Nasal lateral* c. Supraorbitaria d. Supratroclear e. Transversa de la cara |
8.- ¿Cuál de los siguientes es un músculo de la cara? |
a. Bíceps braquial b. Dorsal ancho c. Esternocleidomastoideo d. Frontal* e. Psoas mayor |
* Respuesta correcta |
VARIANZA IRRELEVANTE AL CONSTRUCTO (VIC)
Como ya se mencionó, la VIC se origina del error sistemático debido a una variable irrelevante al constructo que se pretende medir14. A continuación, discutimos algunas características de un examen que suelen ocasionar VIC y las ilustramos con el mismo ejemplo del examen de 8 preguntas en la tabla 1:
CONCLUSIONES
Las amenazas a la validez resultan aspectos importantes a tomar en cuenta durante la planeación y desarrollo de una prueba, ya que su presencia disminuye la validez de sus resultados, confunde la interpretación propuesta de los mismos y lleva a conclusiones e inferencias erróneas.
Cuando planeamos y desarrollamos pruebas para evaluar eficazmente el constructo deseado, es necesario que capacitemos y motivemos a los elaboradores de preguntas de nuestras escuelas para que tengan “la voluntad de invertir bastante tiempo y esfuerzo en crear preguntas de opción múltiple efectivas”9. Tomar en cuenta las amenazas a validez descritas permite afrontarlas y corregirlas antes de que ocurran y afecten las interpretaciones de las puntuaciones de la prueba. Debemos adoptar una actitud más proactiva hacia la prevención de estas amenazas, incluyendo su descripción y efectos en las actividades de formación docente.
Con respecto a las amenazas por subrepresentación del constructo, una recomendación fundamental es establecer claramente, desde la tabla de especificaciones, los objetivos de aprendizaje y el dominio explorado, así como la importancia y la proporción de preguntas que deberán asociarse a cada subtema. Por otro lado, la varianza irrelevante de constructo puede disminuirse significativamente al desarrollar habilidades para la elaboración correcta de ítems de opción múltiple.
Debemos impartir talleres de elaboración de preguntas, tanto para ciencias básicas como para ciencias clínicas; un comité evaluador con experiencia en la elaboración correcta de preguntas debe revisar de forma colegiada el instrumento de evaluación antes y después de su aplicación. Asimismo, sería recomendable incluir en la prueba preguntas que consideren varios niveles de la pirámide de Miller, para ampliar y profundizar el abanico de evaluación de los profesionales de la salud.
*Autora para correspondencia: Blanca Ariadna Carrillo Avalos.
Av. Venustiano Carranza 2405, Col. Los Filtros, San Luis Potosí, San Luis Potosí, México. CP 78210. Teléfono: 4448 2623 45, ext.: 6635.
Correo electrónico: bariadna@gmail.com
La revisión por pares es responsabilidad de la Universidad Nacional Autónoma de México. 2007-5057/© 2020
Universidad Nacional Autónoma de México, Facultad de Medicina.
Este es un artículo Open Access bajo la licencia CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).