Periodismo y estadística

Hoy toca hablar sobre uno de esos temas que frecuentemente se convierte en algo espinoso al tratarlos, la estadística.
Algo tan presente en nuestro día a día pero que sin embargo casi siempre tiene un tupido velo cuando está presente o directamente se ignora.

En este caso, vamos a comentar sobre la estadística que subyace en el periodismo, en todos esos artículos que nos encontramos frecuentemente en periódicos o en telediarios donde se muestran y discuten los resultados de encuentras o gráficas que se presentan como evolución de tendencias, o relaciones causa-efecto, por poner un ejemplo.

Encuestas

Encuestas, amadas y odiadas a partes iguales, es quizá uno de los ejemplos perfectos donde mostrar el mal periodismo (o buen, en algún caso aislado y por pura coincidencia), y que es señal en su mayoría de la falta de cultura del articulista, ignorando de una forma atroz la estadística presente en los datos de la encuesta.

Cuando se hace una encuesta a pie de calle hay un factor crítico que da una idea de la confianza que puedes tener en los resultados que han obtenido: el número de gente al que has preguntado.

Creo que todo el mundo ve claro que a cuanta más gente preguntes, más fiables serán los resultados obtenidos, siempre confiando en la buena voluntad de los entrevistadores que evitarán en lo posible la aparición de sesgos en uno u otro sentido.
En ese caso, y suponiendo que se han entrevistado a N personas, dándoles a elegir entre distintas opciones, obtendremos el porcentaje de personas que han elegido una u otra opción.

En el caso de un buen estudio, junto a estos resultados (que es lo realmente interesante) se facilitará el número de personas a las que se ha entrevistado, o en su defecto, la incertidumbre (o margen de error) que contendrán estos resultados. Esto por supuesto suele pasar en determinados países pero no en otros, como por ejemplo el nuestro, en los que seguramente la mayoría de las personas que están publicando los resultados ni siquiera sabrán qué es eso de una incertidumbre.

¿Y por qué es importante este segundo valor? Pues muy sencillo. Los valores que obtienes de un estudio de este tipo no son valores exactos, si no que son estadísticos, y por lo tanto (y hablando mal) aproximados. Únicamente dan una cierta idea de cual puede ser el valor real.

Para muestras suficientemente grandes (muchas personas entrevistadas), observaremos cómo los resultados se aproximan al valor real (en caso de que pudiéramos conocerlo a priori). En general, se suele dar la desviación estándar de la media, σ, como valor referencia para la incertidumbre de los resultados.
Esta σ lo que viene a decir es que si en nuestra encuesta obtenemos que el porcentaje de gente que elegiría una opción determinada es p, entonces lo que realmente sabemos es que la confianza de que la gente elija p-σ y p+σ es del 68%, o del 95% si consideramos 2σ en lugar de σ.

Cuanta mayor gente preguntemos, más pequeño será σ y por tanto más certeza de que el valor se encuentra en torno al valor obtenido tendremos. Como referencia, σ decrece como la raíz cuadrada del número de personas, por lo que si aumentamos dicho número en un factor 4, σ únicamente se reduce en un factor 2.

Es decir, y con datos más concretos para aclararnos. Supongamos que hacemos una encuesta en la que preguntamos qué color prefiere la gente, entre rojo, verde y azul, preguntando en la calle a 1000 personas. Supongamos que obtenemos que el 40 % de la gente elige el rojo, el 22 % el verde y el 38 % el azul.

¿Qué es lo que suele pasar en ese caso? que leeremos en nuestro periódico de turno (si es uno de los medios no AEDE mejor, para ser más honrados) que el color rojo es el preferido por la gente, ligeramente por encima del azul, y a bastante distancia del verde. Y en lo siguiente una discusión largamente detallada de por qué el azul está ligeramente por detrás del rojo.

Sin embargo, ¿qué es lo que realmente podrían decir? pues si tenemos en cuenta las incertidumbres de cada resultado, que son de un 1.5%, 1.3% y 1.5%, respectivamente, vemos que podemos asegurar es que el rojo lo prefieren entre el 38.5 y el 41.5 % de la gente, y el azul entre el 36.5 y el 39.5 %. Y esos valores los podemos asegurar con una certeza del 68 %. Es decir, no podemos asegurar en absoluto que la gente no prefiera el azul al rojo. Simplemente con nuestra muestra de gente hemos obtenido que prefieren el rojo, pero no podemos asegurar que el resultado sea justo lo contrario.

Y un paso más, si al cabo de unos meses volvemos a realizar la misma encuesta, y obtenemos que los seguidores del color rojo han pasado del 40% al 41.3%, en nuestros medios tendremos titulares de que han aumentado las personas que prefieren el rojo… pero ya hemos visto que un cambio como ese  entra perfectamente dentro del error que teníamos en el valor del primer estudio, por lo fácilmente podría ser que haya el mismo número de gente que prefiera el rojo, o que incluso haya descendido ligeramente. Todas estas posibilidades son plausibles y no despreciables de acuerdo a la precisión de los datos. Por ello, no tiene ningún sentido analizar con tanto detalle resultados que no cuentan con la precisión suficiente para eso. A pesar de que es habitual verlo en nuestros diarios.

Para un mayor detalle de por qué pasa esto y ejemplos concretos, podéis ver la entrada de Ciencia Explicada acerca de una encuesta sobre la intención de voto en las elecciones autonómicas andaluzas de 2012.

Correlación no implica causalidad

Otro de los ejemplos de mal periodismo se encuentra en una cuestión que se comenta frecuentemente pero al final se ignora mucho más a menudo de lo deseado: el hecho de que correlación no implica causalidad. ¿Qué quiere decir esto? pues que si vemos para un hecho A dado, y otro B, el observar que a mayor A también involucra mayor B no nos asegura que A origine B. Esto queda muy obvio cuando usamos un ejemplo muy burro, como cuando comparamos la temperatura media del planeta frente al número de piratas estimado en el mundo (extraído de Gaussianos):

en este caso podemos ver que hay una clara correlación (de hecho se observa una dependencia casi lineal en este tramo, en donde a menor número de piratas mayor temperatura hay). Por supuesto, nadie va a pensar que los piratas son los responsables de la temperatura global y que tienen una influencia sobre la misma. Existe una correlación entre ambas magnitudes, pero obviamente no existen ninguna causalidad entre ellas (la evolución de una no produce el cambio en la otra).
O esta otra donde si comparamos cómo ha evolucionado el uso de Internet Explorer a lo largo de los años y el número de asesinatos (en porcentaje) en los Estados Unidos, podemos observar cómo con los años ambas magnitudes han ido decreciendo entre 2006 y 2011. Se observa una correlación entre ambas cosas, con una evolución bastante similar. Sin embargo, no existe ninguna causalidad entre ambas (por mucho que alguien que use Internet Explorer sea ampliamente odiado internacionalmente).


Esto, que en estos ejemplos parece obvio, es relativamente frecuente observarlo en noticias donde se plantea por ejemplo que “según un estudio” los niños con pies grandes aprenden mejor matemáticas, que los creyentes son menos inteligentes. Ni en una ni en otra, una cosa implica la otra, aunque se pueda establecer una correlación entre ambas magnitudes.

En Xataka Ciencia exponen varias correlaciones que no tienen ninguna contrapartida causal, a pesar de que la correlación sea francamente buena (como por ejemplo el número de películas en las que aparece Nicolas Cage y los accidentes mortales de helicóptero).

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s