Expertos señalaron deficiencias en metodología utilizada en pruebas estandarizadas del MEP.

La Comisión Interinstitucional de Estándares de Calidad para Pruebas Estandarizadas de Alto impacto en el Contexto Académico y Profesional Costarricense (Ciepec), y el Colectivo Mujeres por Costa Rica, emitieron un pronunciamiento en el que señalaron que las Pruebas Nacionales Estandarizadas (PNE) reportados por el Ministerio de Educación Pública (MEP) "carecen de utilidad diagnóstica y educativa".

Las pruebas se aplicaron en estudiantes de primaria y secundaria y les clasifica en niveles "básico, intermedio y avanzado". En ellas se evaluaron las asignaturas con un máximo de ocho ítems de selección única.

Las organizaciones denunciaron que no se dio explicación de metodología utilizada lo que "imposibilita cualquier intento de generar, en forma válida, interpretaciones útiles y confiables para diagnosticar el logro educativo, por parte del estudiantado".

Lo que puede evaluarse con un número tan escaso de ítems, es solo un fragmento muy reducido del conjunto de aprendizajes meta establecidos en los programas de estudio vigentes".

Puntualizaron que el ministerio tampoco dio justificación para la división dada a los niveles de evaluación. Para 14 profesionales firmantes del Ciecpe la analogía brindada por el MEP de que el significado de las calificaciones se relaciona con los colores del semáforo es "pueril" y "simplista", y que "solo contribuye a reforzar su ausencia de utilidad educativa y rigurosidad científica". 

También criticaron que el MEP entregó los resultados a nivel del centro educativo y no por estudiante, lo que impide que docentes y estudiantes puedan atender de forma individual las deficiencias.

La escasa cantidad de ítems de selección única utilizados para evaluar cada asignatura, muy probablemente está provocando que una parte relevante de los resultados estén afectados por el mero azar, al existir, para cada pregunta, una probabilidad de respuesta correcta de un tercio, cuando se elige una de las tres opciones al azar, es decir adivinando".

Agregaron que las pruebas tampoco contaron previamente con una tabla de especificaciones, que incluyera los contenidos y los procesos a evaluar, así como la ponderación o puntuación para cada ítem, ejercicio o pregunta.

Para los profesionales, los resultados reportados pueden conducir a conclusiones equivocadas, dejando a la imaginación de cada persona lectora su posible significado.

A partir de esta situación es posible prever la generación de consecuencias negativas para el proceso educativo estudiantil y en la toma de decisiones de política educativa.

Detallaron que la prueba estandarizada educativa debe proveer, además de la nota numérica, una descripción cualitativa, válida y confiable, de lo que representan esos puntajes numéricos en términos del desempeño estudiantil, es decir, contestar a la pregunta, ¿qué puede o no hacer la persona examinada de acuerdo con el puntaje obtenido?. 

"Especialmente si se trata de fines diagnósticos, tal como era el alegado propósito de estas pruebas, se requiere que la prueba contenga un número suficiente de ítems o preguntas para representar adecuadamente los niveles de desempeño que se pretenden interpretar, máxime si se trata de contenidos curriculares que abarcan ciclos lectivos completos", indicaron.

Lea: Pruebas diagnósticas del MEP señalan poca diferencia entre centros educativos privados y públicos

Además, resaltaron que para el análisis de los resultados es necesario que se empleen modelos de medición que permitan generar esas descripciones de manera confiable y científicamente defendible.

Explicaron que en el caso de las pruebas PISA para el área de Alfabetización Científica, se definen seis niveles de desempeño que describen las competencias específicas requeridas para ubicar allí a una persona examinada.

Según se infiere de la información que se ha hecho pública, es preocupante que de los escasos recursos destinados a la educación se haya gastado una cantidad considerable en la construcción y aplicación de pruebas que no brindan evidencia de utilidad sustantiva para la toma de decisiones y la mejora de los aprendizajes del estudiantado, y que más bien pueden conducir a conclusiones equivocadas sobre estos.

Y continuaron:

Lamentamos todo el tiempo y esfuerzo empleados en la aplicación de estas pruebas, con tantas deficiencias técnicas, cuando se pudieron dedicar a los procesos de enseñanza y aprendizaje, canalizando recursos para elaborar planes, debidamente fundamentados, que orienten la recuperación educativa.

En este contexto, solicitaron al MEP y el Consejo Superior de Educación (CSE) a responder una serie de cuestionamientos como:

  1. ¿Qué evidencia de validez puede proveer para justificar una evaluación diagnóstica de cada estudiante, con únicamente entre 6 y 8 ítems de selección única por asignatura, y cubriendo los aprendizajes correspondientes a ciclos lectivos completos?
  2. ¿Qué metodología se siguió para la creación de los tres niveles de desempeño que se reportan y cuál es su validez técnico-científica?
  3. ¿Qué justificación técnico-científica fundamenta la decisión de nombrar esos tres niveles de desempeño como Básico, Intermedio y Avanzado?
  4. ¿Qué evidencia existe sobre el grado de validez de contenido de estas pruebas?, es decir ¿en qué medida cubren apropiadamente los aprendizajes establecidos en los programas de estudio, los cuales están diseñados según habilidades?
  5. ¿Cuál es la justificación para definir únicamente tres niveles de desempeño cuando la mayoría de las pruebas estandarizadas educativas a nivel internacional utilizan al menos cinco niveles, con el propósito de arrojar información más precisa?
  6. ¿Qué uso y qué utilidad se espera que den los centros educativos y las personas docentes a los resultados reportados de las pruebas?
  7. ¿De qué forma el MEP y el Consejo Superior de Educación utilizarán los resultados reportados de las pruebas para realimentar las políticas educativas que contribuyan al mejoramiento de nuestro sistema educativo?
  8. Estas pruebas solo evaluaron, en cada estudiante, fragmentos muy reducidos de todos los aprendizajes propuestos en los programas de estudio. ¿De qué forma se va a obtener información, válida y confiable, sobre el logro de esos otros aprendizajes, que son la gran mayoría, y no están representados en estos exámenes? Dichos aprendizajes no solo incluyen dimensiones cognitivas sino también actitudinales.
  9. ¿Qué criterios se utilizaron para justificar que se excluyeran de la realización de estas pruebas a personas estudiantes en condición de discapacidad y a personas migrantes?

Las personas firmantes del Ciepec on:

  • Graciela Ordóñez Gutiérrez, Doctora en Educación y Máster Académica en Evaluación Educativa.
  • María Julieta Solórzano Salas,  Doctora en Ciencias de la Educación y  Máster en Evaluación Educativa.
  • Eiliana Montero Rojas, Doctora en Evaluación Educativa.
  • Diana Arce Flores Doctora en Ciencias de la Educación y Máster en Evaluación Educativa Administrativa-docente
  • Sandra Zúñiga Arrieta, Máster en Evaluación Educativa Educadora.
  • Allen Quesada Pacheco, Doctor en Currículo e Instrucción y Máster en Tecnología educativa Programa de Evaluación en Lenguas Extranjeras.
  • Katalina Perera Hernández Docente e investigadora y Doctora en Educación con énfasis en Mediación Pedagógica.
  • María del Rocío Ramírez González, Máster en Analista Curricular.
  • Juan Carlos Mora Hernández, Máster en Tecnología Educativa (ITESM).
  • Dra. Vanessa Smith Castro Psicóloga, del Instituto de Investigaciones Psicológicas Escuela de Psicología Universidad de Costa Rica.
  • María Paula Villarreal Galera, Máster en Evaluación Educativa.
  • Yency Calderón Badilla, Profesora y  Máster Académica en Evaluación Educativa.
  • Luis Miguel Rojas Torres, Doctor en Educación y Máster en Estadística.
  • Laura Jiménez Umaña, Máster en Evaluación Educativa Investigadora y Evaluadora.