El objetivo final, cuando realizamos un estudio cuantitativo empleando una muestra, es lograr hacer inferencia o extrapolación hacia una población más grande.
Ante este objetivo primordial, surge una importante pregunta: ¿hay forma de garantizar que nuestros resultados sean realmente una lectura acertada de la población más grande? ¿Existe alguna forma de asegurarlo?
De esta pregunta, surge el concepto de representatividad estadística.
En palabras simples podríamos decir que la representatividad estadística de una muestra se da cuando las características de los individuos que la integran son similares a los de toda la población.
¿Suena sencillo? No lo es para nada. Esto por dos razones principales.
La primera: es casi imposible conocer las características de toda la población de estudio, lo que complica tener certeza acerca de la cercanía que tiene nuestra muestra con el universo del que fue tomada. Un ejemplo: voy a intentar valorar si mi selección para un estudio de opinión pública es representativa. Para esto voy a comparar el nivel educativo de mis entrevistados con total nacional del país. Bien. ¿Cómo sé cuál es el porcentaje de esta variable en todo Costa Rica? ¿El indicador del Instituto Nacional de Estadística y Censos más reciente? Lo que hacen ellos todos los años son encuestas (igual que la mía), con un margen de error asociado. ¿Lo consulto en el último Censo Nacional para asegurar un dato de toda la población? Excelente idea. Pero en Costa Rica el último fue en 2011. Suerte buscando allí datos que se hayan mantenido estables por 10 años.
La segunda, es que existe una cantidad inmensa de variables por las cuales se puede buscar esta representatividad. ¿Cómo se logra ser representativo por género, edad, nivel educativo, nivel socioeconómico, provincia de residencia, estado civil, zona urbana y rural, etc.?
¿Todo está perdido?
Tampoco. Hay formas de verificar progresivamente si una muestra estadística está bien balanceada, al menos para aspirar a entender a una población más grande. Mi socio y yo trabajamos al menos cinco años juntos diseñando estudios de Opinión Pública en toda Centroamérica. Él se encargaba de las preguntas, yo me encargaba del diseño de muestras.
El proceso (que a la fecha no ha dejado de ser válido) es el siguiente:
- Buscar información de referencia. Algunas veces hay censos nacionales relativamente recientes. Y si no hay censos, hay algunos estudios amplios, con muestras muy grandes y muy bien realizados. En el caso de Costa Rica, con un censo con 10 años de antigüedad, me ha tocado consultar con regularidad la Encuesta Nacional de Hogares del INEC. Si tienen dudas sobre la seriedad del proceso con el cual se realiza esta investigación por favor consulten este documento, al llegar a la página 22, podrán deleitarse con 12 páginas densas de metodología cuantitativa explicando de forma totalmente detallada cómo se realizó el estudio. El equipo profesional del INEC, allí, da un ejemplo de cómo debería presentarse la introducción de las encuestas políticas para poder ser transparente y dar seguridad sobre la calidad de sus resultados.
- Elegir nuestras variables. O sea, elegir las batallas. En mi trabajo diseñando muestras, intentaba buscar la representación geográfica con la elección de los lugares. Un buen inicio era contar con muchos lugares, con pocas encuestas cada uno. Sitios dispersos por todo el país que logren, desde la selección misma, una distribución adecuada según provincias, regiones y zonas (urbanas y rurales). Después de esto, tomaba algunas variables clave como el género y edad (en grupos pequeños) según el peso de la población.
- Revisar y volver a revisar. Con los datos de la encuesta en mano, revisar variables. Educación, nivel de ingresos, tenencia de artículos son algunos de los sospechosos usuales que, en el proceso de validación, le pueden indicar al investigador si la muestra se adecuó o no a la realidad del país.
Como les decía, este método sigue siendo válido hoy en día. Recuerdo leer en las pasadas elecciones un documento de una casa encuestadora que citaba en su metodología, haber visitado cerca de 25 comunidades distintas. Al revisar la lista observé como una gran cantidad de ellas pertenecían a las provincias correctas, pero en los sitios específicos se concentraban siempre en áreas urbanas. Y precisamente esa sobre estimación de la muestra en esa variable, se reflejaba en un mayor nivel educativo al que tenía la población en general. Un tema para revisar que no debió pasar desapercibido para el investigador.
En resumen, no podemos hablar de representatividad como tal. Pero como lectores críticos de las encuestas, estamos obligados a hacer preguntas sensibles acerca de cómo se componen las muestras de los estudios que estamos leyendo. Esto permite asegurarnos que no estemos ante un grave sesgo de datos por sobre representar o sub representar un segmento en particular.
En las siguientes entregas compararemos lo que se puede y lo que no se puede leer de nuestras encuestas actuales.