74. Contraste de hipótesis
Imprimir
Escrito por Alfonso Jesús Población Sáez   
Miércoles 07 de Noviembre de 2012

No siempre las películas con algún contenido o referencia matemática son buenas películas. Traemos este mes un diálogo de una de ellas sobre conceptos no demasiado utilizados en el cine, y probablemente desconocidos para muchos, aunque habituales en Estadística.

Al hilo de la introducción, también existen algunas películas magníficas que la pifian por no asesorarse adecuadamente desde un punto de vista científico, o por sospechar que algunos argumentos podrían no ser entendidos y causar rechazo en el espectador. Desde estas páginas siempre hemos defendido lo contrario: no importa cuan difícil, específica o rebuscada sea una idea; si es real, utilizable y aporta información, no debe rechazarse. No todos los espectadores van a estar interesados, seguramente un porcentaje ínfimo, pero para éstos será de utilidad porque se molestarán en averiguar en qué consistía. ¿Rechazaríamos una referencia a un cuadro, un libro, un filósofo, un personaje histórico por no ser, digamos, “popular”?

Recientemente, el 18 de mayo de 2012, se estrenó en nuestro país la siguiente película, una de tantas de persecuciones, espías, asesinatos en serie, etc., con actor atractivo (aunque ya entradito en arrugas) y la publicidad típica de este tipo de producciones. Bien realizada, pero con numerosos defectos argumentales, particularmente me resultó soporífera, más aún cuando casi desde el título original se sabe que va a pasar. Previsible, discreta, fácilmente olvidable en suma, salvo por un diálogo, recitado a toda velocidad, como siempre, pero que analizado con detenimiento nos presenta un procedimiento para intentar determinar si un determinado suceso es compatible con los datos conocidos de una población.

Pero vayamos por partes. En primer lugar, una breve ficha técnica y artística de la película:

LA SOMBRA DE LA TRAICIÓN

contraste de hipótesisTítulo Original: The double. Nacionalidad: EE. UU., 2011. Director: Michael Brandt.  Guión: Michael Brandt y Derek Haas. Fotografía: Jeffrey L. Kimball, en Color. Montaje: Steve Mirkovich. Música: John Debney. Producción: Patrick Aiello, Ashok Amritraj, Andrew Deane y Derek Haas. Duración: 98 min.

Intérpretes: Richard Gere (Paul Shepherdson), Topher Grace (Ben Geary), Martin Sheen (Tom Highland), Tamer Hassan (Bozlovski), Stephen Moyer (Brutus), Chris Marquette (Oliver), Odette Annable (Natalie Geary), Stana Katic (Amber), Yuri Sardarov (Leo), Ivan Fedorov (Scrounger), Ed Kelly (Senador Dennis Darden), Jeffrey Pierce (Agente Weaver), Lawrence Gilliard Jr. (Agente Burton), Mike Kraft (Director del FBI Roger Bell).

Argumento: La película comienza con el misterioso y sigiloso asesinato de un senador en plena calle. El modus operandi remite a un asesino soviético, Cassius, dado por muerto, que trajo en jaque durante mucho tiempo a la policía, la CIA y demás instituciones norteamericanas contra el crimen. Un joven agente del FBI, Ben Geary (Topher Grace) es el que sostiene esta teoría, en contra de Paul Shepherdson (Richard Gere),  agente retirado de la CIA que estuvo obsesionado con darle caza mientras estuvo en activo. Como todos los indicios apuntan a que el supuesto Cassius va a seguir cometiendo crímenes, Ben y Paul parecen abocados a colaborar, a pesar de las reticencias del segundo.

El diálogo (casi monólogo)

contraste de hipótesisBen recurre en un momento dado a un compañero, Oliver, que recopila información sobre los asesinatos de Cassius junto a fotografías tomadas por la policía de los lugares de los crímenes (diferentes ciudades del mundo) y las relaciones entre ellos (ver imagen).

Oliver: He colocado las fotos de todos los asesinatos por orden cronológico. Esta línea roja marca cuando se volvieron erráticos e inexplicables. Lo único que tienes que hacer es establecer una hipótesis nula y tratar de demostrarla. Si no puedes demostrarla, es que tu hipótesis debe ser cierta.

Ben Geary: Espera, espera,….

Oliver: De acuerdo, tomemos un hecho. Dices que crees que Cassius siempre vuelve al lugar del crimen, ¿verdad? Y tienes fotos de todos sus crímenes. Establece una hipótesis, por ejemplo, que Stephen Hawking es Cassius, lo que te da la hipótesis nula de que Stephen Hawking no es Cassius. Revisa las fotos y demuestra la hipótesis nula de que Supermán no es Cassius. Si lo consigues, querrá decir que tu hipótesis es incorrecta; si no lo consigues dependiendo del valor p, demuestras estadísticamente que tu hipótesis es cierta (Ben pone cara de no entender nada; está completamente alucinado), o que Stephen Hawking es Cassius. Sí. Algunos no nos dormíamos en clase de Estadística en Harvard.

Un par de comentarios respecto a las diferencias entre la versión original y la doblada. En la versión original no se habla para nada de “Supermán”, sino que textualmente dice “y trata de demostrar la hipótesis nula de que Rolling Thunder no es Cassius”. contraste de hipótesisRolling Thunder es el nombre que se dio a una operación militar norteamericana en la Guerra de Vietnam (de penosos resultados, por cierto).  Sin embargo la cita se refiere a una película, El expreso de Corea (Rolling Thunder, John Flynn, EE. UU., 1977), interpretada por William Devane y un jovencito Tommy Lee Jones. Se trata de una película notable, minusvalorada en su momento, retrato intimista de los traumas y perturbaciones que la Guerra del Vietnam dejó en sus integrantes (todos recordaremos otras que han tratado el mismo asunto). Uno de los factores que han provocado su olvido es su violencia extrema, pero no por ello falsa (el argumento, a grandes rasgos es el siguiente: el mayor Rane vuelve como un héroe de la guerra pero se encuentra con que su esposa se ha vuelto a casar creyendo que había muerto, y su hijo ni lo recuerda. Un día unos ladrones asaltan su casa, asesinando brutalmente a toda su familia, perdiendo él una de sus manos. Aparentemente amnésico, su único objetivo será la venganza), junto a un trasfondo calificado de racista (los asesinos serán mejicanos). Pero tiene el mérito de ser una de las primeras en abordar este tema, ya que las más populares que mencionábamos anteriormente, son posteriores: El regreso (Coming Home, Hal Ashby, 1978), El cazador (The Deer Hunter, Michael Cimino, 1978),  Apocalypse Now (F. F. Coppola, 1979), Jacknife (David Hugh Jones, 1989) o Nacido el cuatro de julio (Born on the Fourth of July, Oliver Stone, 1989).

Otra circunstancia de la versión doblada que llama la atención es la inaudible frase en la versión doblada de “si no lo consigues dependiendo del valor p”. Se ve que a los dobladores no les sonaba a nada eso del valor de p.

Breve explicación

Una hipótesis estadística (o hipótesis, a secas) es una afirmación acerca de ciertos valores de las características de un espacio muestral (por ejemplo el promedio del valor del diámetro de un tubo, o la proporción de tornillos defectuosos realizados por un mismo fabricante). Para determinar si esos valores son estadísticamente ciertos o no, se consideran dos hipótesis contradictorias, intentando dirimir cuál de ellas es correcta. A esta prueba se le denomina Contraste (o test) de hipótesis, procedimiento que se encuadra dentro de la inferencia estadística. La afirmación inicialmente favorecida o que se supone que es la verdadera se le llama hipótesis nula (denotada habitualmente por H0), mientras que las utilizadas auxiliarmente se las llama hipótesis alternativas, y se denotan por Ha, donde a puede ser un número o una letra. La hipótesis nula se presume verdadera hasta que una prueba estadística basada en una prueba empírica de la hipótesis indique lo contrario. Pero cuidado: si la hipótesis nula no es rechazada, esto no quiere decir que sea verdadera. En otras palabras, H0 nunca se considera probada, pero puede ser rechazada por los datos.

No pretendemos dar en estas breves notas un curso de estadística (para eso ya están los libros específicos que lo hacen mejor), pero para entender un poco estos tests necesitamos conocer algunos otros conceptos. Así tenemos los llamados procedimientos de prueba, que son unas reglas basadas en datos muestrales para determinar si se rechaza o no H0. Un procedimiento de prueba se especifica por:

1.- Un estadístico de prueba: una función de los datos de la muestra en los que la decisión (rechazar H0 o no) debe basarse.

2.- Una región de rechazo: conjunto de valores para los que H0 será rechazada.

La hipótesis nula será entonces rechazada si, y sólo si, el valor observado o calculado del estadístico de prueba está en la región de rechazo.

Elegir una región de rechazo también requiere de cierto estudio. Para ello se analizan los errores que se pueden cometer, que básicamente se clasifican en error de tipo I (rechazar la hipótesis nula H0 cuando es verdadera) y error de tipo II (no rechazar H0 cuando es falsa).

Finalmente, en el diálogo se menciona el “valor de p”. En muchas situaciones en las que hay que tomar una decisión, hay cierta dependencia del punto de vista de la persona que la toma. Cada individuo tiene su propio nivel de significación (algunos pueden rechazar H0 mientras otros podrían concluir que la información que se tiene no manifiesta contradicción suficiente para justificar el rechazo). Se define entonces el valor p como el mínimo nivel de significación en el que H0 sería rechazada al emplear un procedimiento de prueba especificado en un conjunto dado de información. Una vez que se determina el valor p, la conclusión en cualquier nivel a particular resulta de comparar p con a:

1.- Si el valor p £ a, entonces se rechaza H0 al nivel a.

2.- Si el valor p > a, entonces no se rechaza H0 al nivel a.

Los valores del nivel a más usuales con los que se compara suelen ser 0.05 o 0.01, que indican que aceptamos equivocarnos el 5% o el 1% de las veces, respectivamente, si repitiéramos el experimento.

A menudo suelen encontrarse algunas confusiones al manejar estos conceptos. Entre los más extendidos está el identificar el valor p con la probabilidad de que la hipótesis nula sea cierta, o que el valor p es lo mismo que la tasa de error del tipo I.

Dos ejemplos comentados sobre el valor p

Tratemos de poner en práctica lo anteriormente dicho mediante dos situaciones clásicas, de las muchas que aparecen en los textos clásicos (yo de hecho las he tomado de la wikipedia, aunque contadas “a mi aire”; mil disculpas si incurro en algún error)

1º) Dos amigos están en un bar tomándose unas copas. Uno de ellos afirma que es capaz de distinguir, sin lugar a dudas, un whisky barato de uno caro. Como el otro amigo no lo cree, deciden hacer una prueba. El amigo bravucón asegura que acierta qué tipo de whisky está tomando el 90% de las veces, ya que a veces los hielos le distorsionan la cata. Deciden que pruebe 20 whiskys (en días distintos, por supuesto), resultando que acertó sobre el contenido del vaso que estaba probando en 14 ocasiones. Dado que dijo que acertaría el 90% de las veces y sólo acertó el 70% de ellas (14 de 20 noches), ¿podemos creerle, o nos está engañando? ¿Es posible que fallara por mala suerte, y que si le dejamos seguir intentándolo a la larga acertará el 90%?

Está claro que si hubiera acertado todas las veces, o incluso 19 de ellas, le creeríamos sin lugar a dudas; análogamente, si hubiera fallado todas o casi todas le desmentiríamos sin discusión, pero con 14 sobre 20 la cosa no está tan clara. Esto es lo que tratamos de medir con el valor p.

Si suponemos que la hipótesis nula H0 (el amigo es capaz de acertar el 90% de las veces) es cierta, esto significaría que las catas seguirían una distribución binomial de parámetro 0.9, y entonces la probabilidad de acertar 14 de las 20 veces sería

p(14 aciertos) = contraste de hipótesis (0.9)14 (1 – 0.9)6 0.008867

La probabilidad de tenga al menos 14 aciertos es la suma de las probabilidades de que no acierte ninguna vez, más la de que tenga un acierto, más la de que tenga dos, y así hasta la de que tenga catorce aciertos, es decir

p(al menos 14 aciertos) = contraste de hipótesis (0.9)k (1 – 0.9)20–k ≈ 0.01125313416

Este es el valor p. ¿Qué indica? Significa que si realmente suponemos que nuestro amigo acierta el 90% de las veces que prueba una copa, y ha probado 20 copas, la probabilidad de que acierte menos de 15 copas es del 1.125%. Por tanto, si damos una potencia de contraste usual de 0.05 (que significa que aceptamos equivocarnos el 5% de las veces si repitiéramos el experimento), como el valor p es inferior a la potencia del contraste, rechazamos la hipótesis nula, y declaramos que nuestro amigo es un fanfarrón. Estadísticamente, esto lo hacemos porque el resultado observado (14 aciertos de 20 intentos) es muy poco probable si suponemos que acierta el 90% de las veces, por lo tanto asumimos que no era cierta la hipótesis nula.

¿Que hubiera pasado si hubiera acertado las 20 veces? En ese caso el valor p saldría 1, con lo que no rechazamos la hipótesis nula, que no es lo mismo que decir que la aceptamos. Diríamos que es verosímil que acierte el 90% de las veces, es posible que lleve razón, no tenemos evidencias en contra de ello. Es importante decir que no se acepta la hipótesis nula, ya que también sería lógico aceptar que acierta el 100% de las veces y, o bien acierta el 90% o bien acierta el 100%, pero ambas no pueden ser válidas a la vez.

2º) Se realiza un experimento para determinar si una moneda está equilibrada (probabilidad del 50%, tanto para caras como para cruces) o sesgada (probabilidad ≠ 50% en cualquiera de los resultados). Supongamos que los resultados muestran que la moneda ha mostrado 14 caras de 20 lanzamientos. ¿Podríamos concluir que la moneda está sesgada?

Establecemos en este caso la hipótesis nula H0 de que la moneda no está sesgada. Estudiemos en este caso el valor p relativo al experimento realizado, que sería la probabilidad de que una moneda equilibrada devolviera al menos 14 caras en 20 lanzamientos. La probabilidad para una moneda equilibrada de que de 20 lanzamientos se obtengan al menos 14 caras (14 caras o más), viene dada por la siguiente suma:

p(14 caras) + p(15 caras) + …. + p(20 caras) = contraste de hipótesis ≈ 0.0576

Al preguntarnos si una moneda es “normal”, lo que pretendemos es averiguar lo “desviada” que se encuentra de la igualdad entre caras y cruces. En nuestro caso, esa desviación es en dos direcciones, es decir tanto si obtenemos 14 caras y 6 cruces, como si se trata de 14 cruces y 6 caras (es decir, una desviación de 4 en ambos casos). Como la distribución binomial es simétrica en el caso de una moneda equilibrada, el valor p viene dado sencillamente por el doble del valor calculado anteriormente, esto es, 0.115.

Como dijimos en el ejemplo anterior, cuando este valor es menor o igual al grado significativo que aceptemos (un fenómeno es estadísticamente significativo cuando las observaciones o experimentos realizados reflejan una tendencia más que una probabilidad), la hipótesis nula se rechaza; en caso contrario, no. El valor p calculado es superior a 0.05, de modo que es consistente con la hipótesis nula (el resultado observado de 14 caras en 20 lanzamientos puede atribuirse a la casualidad) ya que cae dentro del rango de lo que puede pasar el 95% de las veces siendo la moneda realmente equilibrada. Por tanto no rechazamos la hipótesis nula al nivel del 5%. Aunque la moneda no proporciona un resultado uniforme (igualdad de caras y cruces), la desviación del resultado es lo suficientemente pequeña como para ser consistente con la probabilidad.

Sin embargo, con una cara más, el valor p obtenido hubiera sido 0.0414 (4.14%). En este caso, la hipótesis nula – que el resultado observado de 15 caras en 20 lanzamientos pueda atribuirse a la casualidad – sería rechazado utilizando un 5% de porcentaje de corte. La moneda en este caso podría estar sesgada.

Volvemos a la película

contraste de hipótesisUna vez que Oliver ha explicado el procedimiento, el agente Geary se dispone a ponerlo en práctica. Establece como hipótesis nula, “Paul no es Cassius”, y lupa en mano se dispone a examinar las fotográfías tomadas en el lugar de los asesinatos. Descubre entonces que en todas ellas (diferentes lugares del mundo, diferentes épocas) aparece siempre su compañero Paul Shepherdson. Así concluye (de un modo un tanto elemental, evidentemente) que no es casual que Paul se encuentre en lugares tan distantes nada más cometerse el crimen (que es cuando se toman las fotos), y por tanto la hipótesis nula se rechaza. Hubiese sido más creíble que, en algún momento de la película, se descubriera que, por ejemplo, el asesino observaba la escena del crimen después de cometerlo, por lo que estaría presente en todas las fotos. En fin, una resolución bastante defectuosa, basada en un procedimiento real. De hecho, las técnicas de contraste de hipótesis son de amplia aplicación en muchas situaciones, como ensayos clínicos de nuevos medicamentos, control de calidad de productos, encuestas, etcétera. Eso sí, apoyadas en datos más consistentes que el esgrimido en la película.

Si alguien desea ver la película, a pesar de todo, lo tiene fácil: http://www.youtube.com/watch?v=lKzw_z60WE0. Íntegra y en castellano.

Y otra de regalo

Durante la pasada SEMINCI (57 Edición), en la sección oficial se presentó a concurso (claramente para rellenar) una comedia titulada

AMOR Y LETRAS

contraste de hipótesisTítulo Original: Liberal Arts. Nacionalidad: EE. UU., 2012. Director: Josh Radnor. Guión: Josh Radnor. Fotografía: Seamus Tierney, en Color. Montaje: Michael R. Miller. Música: Ben Toth. Producción: Josh Radnor. Duración: 97 min.

Intérpretes: Josh Radnor (Jesse Fisher), Elizabeth Olsen (Zibby), Richard Jenkins (Prof. Peter Hoberg), Allison Janney (Prof. Judith Fairfield), Elizabeth Reaser (Ana), John Magaro (Dean), Kate Burton (Susan), Robert Desiderio (David).

Escrita, dirigida, producida e interpretada por Josh Radnor, es una comedia simpática (con algún toque melodramático), cuyo argumento gira en torno al paso del tiempo, a cómo prácticamente sin enterarnos, la vida nos supera y nos ponemos en la treintena (o en la jubilación, en el caso de un antiguo profesor del protagonista). Y digo que el tiempo nos supera porque a Jesse, el protagonista, a sus 35 tacos le siguen atrayendo las jóvenes de 19 (en este caso, una llamada Zibby). Plantea por tanto el difícil paso a la madurez (y el desencanto de ésta, en la persona de otra profesora de Jesse; cuatro edades por tanto se ven tratadas). Entremedias, la pasión por la lectura, lo desapercibidas que pasan otras personas que están ahí, algunos momentos de crítica a lo fácil que los departamentos universitarios sustituyen a docentes de prestigio, los prejuicios morales de los "mayores", etc., etc. Decae en algún momento, con una resolución convencional, y muy muy políticamente correcta. Suena a ya vista.

Bueno pues este chaval, de formación puramente literaria, echa mano de las matemáticas en un momento dado: escribe en un papel dos columnas

Cuando yo tenía                         Ella tenía

20                                                 4       (esto le horroriza)

16                                                 0

Cuando yo tenga                         Ella tendrá

60                                                 44       (esto le tranquiliza)

En otro momento, Jesse trata de ayudar a un alumno con problemas psicológicos, muy inteligente, y con gustos literarios parecidos a los que él tenía a su edad. ¿Os imagináis qué estudia? No, os habéis equivocado: Lógica. En resumen, tampoco perdería mucho el tiempo viéndola.

 
Volver