Clase2Texto 1 La probabilidad - analisis-estadistico.cl · También es importante mostrar que las...

Pontificia Universidad Católica de Chile

Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos

Guido del Pino, Lina Wistuba, Apolo Coba

COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010

1

1

1

Texto n° 1 Probabilidades

Profesores

Guido del Pino Ph.D. en Estadística

Lina Wistuba y Apolo Coba

Magister en Didáctica de Matemática y Estadística

1.‐ Introducción.

El presente documento contiene material que sirve de base para el desarrollo de los elementos de la Teoría de Probabilidades, con un énfasis en las necesidades de la inferencia estadística en el curriculum de Enseñanza media. De esta forma, se describe de manera bastante exhaustiva el problema de seleccionar muestras aleatorias, sin recurrir a los resultados generales de la teoría de probabilidad. Esto está contenido entre las secciones 2 y 6.

Esta estructura del texto tiene la ventaja de motivar los elementos probabilísticos por el problema práctico de seleccionar muestras que respalden las conclusiones estadísticas. Esto representa una contribución científica de primer nivel, que está muy alejada de las presentaciones más usuales, en las que se sigue el hilo histórico. En ellas todo se motiva por los juegos de azar, lo que acá recién aparece en la sección 8, estando precedidad por una discusión de los modelos de urna en la sección 7,





2

2

2

El pensamiento probabilístico y el pensamiento estadístico tienen gran importancia en la vida cotidiana, excediendo ampliamente su papel como uno de los varios contenidos de matemáticas.

Hacer tambalear las intuiciones incorrectas que las personas tienen sobre problemas en que se aplica la probabilidad, hacer patente los prejuicios habituales y entregar herramientas para educar la intuición probabilística son objetivos muy relevantes. También es importante mostrar que las aplicaciones de la probabilidad exceden ampliamente los juegos de azar, abarcando la vida personal y la vida ciudadana.

Las evaluaciones formales en pruebas nacionales estandarizadas se ven afectadas negativamente por los siguientes factores:

1. Los contenidos de probabilidad suelen no estar adecuadamente cubiertos.

2. Hay un número mínimo de ítemes que miden este eje, los que además están ubicados al final de la prueba.

3. Los ítemes se concentran más en la memorización de definiciones y la aplicación mecánica de ciertas “recetas”.

No cabe duda que el papel del profesor tiene que ir mucho más allá de preparar una prueba, pero tiene el desafío de superar 1, el cual condiciona los puntos 2 y 3.

2.‐ Vinculación con el Análisis Exploratorio de Datos

En la Sesión 1 se discutieron técnicas de análisis que apuntan a describir la variabilidad en los datos. Ellas pueden aplicarse de la misma manera a los datos provenientes de una población completa (que muy excepcionalmente están disponibles), o a aquellos obtenidos en una muestra particular. Lo normal es que lo que realmente nos interesa es realizar afirmaciones o sacar conclusiones sobre el comportamiento de las variables en la población completa.

El papel de la muestra es meramente instrumental, ya que no interesan por si mismos los valores de las variables para cada unidad en la muestra. La idea intuitiva es que, al menos para una muestra de gran tamaño, el comportamiento de las variables en la





3

3

3

muestra se asemeje a este comportamiento en la población. El proceso de extraer conclusiones sobre la población a partir de una muestra particular se denomina inferencia inductiva, en contraposición con las conocidas inferencias deductivas, donde lo que se requiere es lógica y matemáticas. La teoría de la inferencia estadística provee herramientas para evaluar cuan alto es el grado de aproximación, con un cierto nivel de confianza.

Pregunta abierta: ¿Qué piensa usted de la información que se obtiene cuando se pide a los televidentes de determinado programa que envíen mensajes de texto pronunciándose a favor o en contra de un proyecto de ley?

3.‐ Probabilidad y a producción de datos:

3.1 Diseños muestrales. Un procedimiento bien definido para seleccionar una muestra se denomina muestreo, esquema de muestreo o diseño muestral. Entre los diseños muestrales más conocidos están el muestreo aleatorio simple (m.a.s), el muestreo estratificado, el muestreo por conglomerados, y el muestreo multietápico, palabras que el lector probablemente haya visto en artículos que describen la metodología de las encuestas.

La validez de las inferencias estadísticas depende crucialmente de que se use un mecanismo aleatorio en la selección de la muestra, es decir, que el azar intervenga en dicha selección. Se habla entonces de muestras aleatorias o de muestreo aleatorio.

Por ser la base de otros diseños muestrales más complejos, sólo se discutirá acá en detalle el m.a.s.‐ Su principal limitación es que en poblaciones grandes él resulta muy oneroso, por lo que es importante contar con alternativas (Busque ejemplos en la prensa y piense en el aspecto presupuestario).

3.2 El lenguaje del muestreo. Supongamos que la población consta de N unidades y que se desea seleccionar (alias extrae, escoger) n unidades para conformar la muestra. En poblaciones humanas las unidades se denominan habitualmente sujetos o personas. Decimos alternativamente que hay N unidades poblacionales, que hay n unidades muestrales, que el tamaño de la población es N y que el tamaño de la muestra es n.





4

4

4

Una decisión importante es si se permite que alguna unidad poblacional aparezca más de una vez en la muestra (Muestreo con repetición) o si esto se prohíbe (Muestreo sin repetición). En el contexto de la inferencia estadística la situación más importante es la segunda y supondremos implícitamente que ella que se cumple, a menos que se diga lo contrario. Sin embargo, como veremos más adelante, el muestreo con repetición es la base de un procedimiento muy eficiente para seleccionar muestras sin repetición, lo que es fundamental si N es grande. Además, la implementación computacional del procedimiento es muy sencilla.

Un aspecto relevante para el cálculo de las probabilidades es distinguir si se anota o no el orden en que aparecen las unidades muestrales en las extracciones sucesivas. Se habla así de muestras ordenadas y no ordenadas.

• Si para alguna de las posibles muestras no ordenadas es imposible dilucidar si el suceso de interés (ver Sección 10) ocurrió o no, es necesario usar muestras ordenadas. Por ejemplo, si interesa estudiar cuántos hombres son seleccionados antes de que aparezca la primera mujer en la muestra, es imprescindible contar con el género de cada persona en la muestra ordenada.

• Si para cualquier muestra no ordenada es factible dilucidar si el evento de interés ocurrió o no, se pueden usar indistintamente muestras ordenadas o no ordenadas. Qué decisión adoptar es aquí un tema de conveniencia, y sobre esto nos permitimos efectuar de inmediato una advertencia (sin justificarla por ahora):

Advertencia: Cuando se desee calcular probabilidades, no usar nunca muestras no ordenadas con repetición

En el lenguaje matemático, la población se identifica por un conjunto universo de cardinalidad N y la muestra no ordenada se identifica con un subconjunto de cardinalidad n. Las unidades corresponden a elementos de estos conjuntos. La notación de conjuntos tiene la ventaja de sugerir implícitamente que el orden en que aparezcan las unidades en la muestra carece de importancia.

4.‐ Muestreo aleatorio simple.





5

5

5

4.1 Definición. Denotemos por T al número de muestras posibles de tamaño n extraídas de una población de tamaño N. , El muestreo aleatorio simple es un diseño muestral que se caracteriza por asignar a cada una de estas T muestras la misma probabilidad de ser seleccionadas, es decir, son equiprobables

(las reglas de probabilidad implican que esta probabilidad común es 1/T, pero no necesitamos este hecho).

A primera vista pareciera que se precisa hacer un listado exhaustivo de las T muestras y luego seleccionar, al azar, una de ellas. El problema es que en las situaciones más habituales el valor de T es astronómico, por lo cual hacer tal listado sería una labor ardua y costosa. Por ejemplo, hay 847.660.528 muestras de 10 alumnos de un curso de tamaño 40 (más adelante explicaremos como se calcula este número).

Para superar la dificultad anterior lo que hacemos esencialmente es seleccionar muestras ordenadas con reemplazo, descartando las eventuales repeticiones. Explicamos esto a continuación, agregando además la consideración adicional de que lo que realmente interesa no son las unidades seleccionadas (por ejemplo, los nombres de las personas), sino el valor de cierta variable y, ya sea categórica (por ejemplo el género) o cuantitativa (por ejemplo el ingreso).

choose (40, 10) =847.660.528

4.2.‐ Un procedimiento secuencial para el muestreo aleatorio simple.

Consideramos primero el caso de muestras de tamaño n, seleccionadas al azar a partir de una población de tamaño N, siendo estas muestras ordenadas y sin repetición.

1. Enumerar la población de 1 a N mediante alguna regla bien definida, por ejemplo, alfabéticamente o por RUT. De esta forma tiene sentido hablar de la k‐ésima unidad poblacional, donde k=1,2,…,N. El valor de la variable y para esta unidad se denotará por yk .

2. Seleccionar, al azar, un número del conjunto {1,2,…,N}. Si k es este número la primera unidad muestral seleccionada es la k‐ésima unidad poblacional.





6

6

6

3. Repetir el paso 2 asegurándose que las extracciones sucesivas sean independientes entre sí.

4. En el eventual caso que el número seleccionado en paso 2 ya haya aparecido, o sea, se produce una repetición, se descarta la selección y se vuelve al paso 2.

5. Terminar cuando se hayan obtenidos k números, los que son automáticamente distintos dado la condición impuesta en el paso 4.

Si se identifica la población con {1,2,…,N} y se denota por

k(1), k(2),…, k(n)

a los n números seleccionados, la muestra es simplemente el conjunto {k(1), k(2),…, k(n)}‐

Si se denota por xi a yk(i) , se dice también que (x1, x2, …, xn) es una muestra aleatoria simple ordenada de la variable y, concepto de gran importancia en inferencia estadística.

Nota pedagógica: Aunque lo habitual es usar la misma letra para denotar valores de la variable en la población y valores de la variable en la muestra (o sea, usar y en vez de x), esta notación no permite dilucidar si yk es el valor de la variable en la k‐ésima extracción, o el valor de la variable para la k‐ésima unidad en la población, con respecto a la enumeración adoptada en el paso 1.

Advertencia: Si bien k(1), k(2),…, k(n) son distintos entre sí, no ocurre necesariamente lo mismo con x1, x2, …, xn , en cuyo caso {x1, x2, …, xn} tendrá una cardinalidad r <n. Por esta razón, no es válido definir la muestra no ordenada de la variable y como {x1, x2, …, xn}. Una alternativa correcta es indicar, para cada valor de y en la población, cuantas veces apareció en la muestra (se asigna el número 0 si el valor no aparece en la muestra).

En lo sucesivo denotaremos Ny al número de valores posibles de la variable y. Con esta notación r no puede exceder Ny. Por ejemplo, la variable género tiene solo dos valores:





7

7

7

Masculino y Femenino, de modo que r es a lo más igual a 2. La muestra no ordenada, con repetición, equivale a indicar el número de hombres y el número de mujeres en la muestra. Como el número total es n, esto equivale a su vez a indicar el número de mujeres (o el número de hombres).

5.‐ ¿Importa el orden en la muestra?

En aplicaciones a inferencia estadística el orden es irrelevante. Aunque no podamos demostrar esto acá en toda su generalidad, es posible ilustrar este principio con algunos casos concretos:

1. Cuando y es una variable categórica lo único que interesa de la muestra son las frecuencias relativas de cada categoría, las cuales no dependen del orden en que fueron apareciendo los valores de la variable a medida que se seleccionaban las unidades muestrales. En el caso de una variable dicotómica, es decir, con dos categorías, basta indicar el número de unidades muestrales que caen en una categoría preestablecida.

2. Cuando y es una variable cuantitativa, las frecuencias relativas de interés son aquellas asociadas ciertos intervalos de valores de la variable y tal como en 1. el orden es de nuevo irrelevante.

3. Las medidas de resumen, tales como la media, los percentiles, y la desviación estándar, no se alteran si se modifica el orden en que aparecen las unidades poblacionales en la muestra. Denotando por g a la función que asocia a la muestra ordenada (x1, x2, …, xn) el valor de la medida resumen, esta condición significa que g(x1, x2, …, xn) es invariante bajo permutaciones de sus argumentos.

Por ejemplo, g(1,2,6)= g(1,6,2)= g(2,1,6)= g(2,6,1)= g(6,1,2,)= g(6,2,1). En particular la media muestral es igual a 3 y la mediana muestral es igual a 2 en cualquiera de las 6 muestras ordenadas.

6.‐ Elementos de teoría combinatoria aplicada al muestreo.





8

8

8

La ley multiplicativa implica que el número de muestras ordenadas sin repetición es el producto “descendente”

M=N x (N‐1) x …x (N‐n+1),

que consta de n factores. Una forma matemáticamente más elegante, pero menos conveniente para el cálculo manual es

M = N! / (N‐n)! ,

donde k! = 1 x 2 x … x k y 0! =1 por convención.

En el software estadístico R (http://www.r‐project.org/) k! se obtiene mediante la instrucción factorial(k) .

Cuando n=N la muestra ordenada se puede identificar con una permutación de los elementos de {1,2, … ,N}, de modo que k! es el número de maneras en que se puede reordenar k elementos. Así hay 52! = factorial(52) = 8.065818e67resultados de barajar un naipe.

De esta forma, a cada muestra no ordenada le corresponden m= n! muestras ordenadas. Si recordamos que T denotaba el número de muestras posibles de tamaño n, una segunda aplicación de la ley multiplicativa implica que M = T x n!, de donde se desprende la fórmula

T= M/m = N! / [n! x (N‐n)!],

la cual el lector probablemente reconocerá como un coeficiente binomial CnN

Nota de software: El lenguaje R calcula T mediante la instrucción choose(N, n). Por ejemplo, choose(7,3)= 35 y choose (40, 10) = 847.660.528 (este es justamente el número de muestras de 10 alumnos de un curso de tamaño 40.

Combinaciones: Cabe hacer notar que cada muestra no ordenada está en correspondencia uno a uno con un subconjunto de cardinalidad n de un conjunto de tamaño N, al cual se lo puede identificar con {1,2,…,N}. Tales subconjuntos se





9

9

9

denominan combinaciones de n entre N elementos y el número de combinaciones está así dado por Cn

N .

Desafío matemático: ¿Porqué es M/m un número entero?) .

Sugerencia para el cálculo manual de CnN .

choose (N,n) = choose (N,N‐n) = choose(N,s), con s = min(n,N‐n)

Ejemplo: Para N= 7 y n=4, hay 7x6x5x4 = 840 muestras ordenadas, 4!=24, y por tanto hay 35 = 840/24 muestras no ordenadas. Por otro lado

choose (7,4) = 7! / [4! X 3!] =5040 / [24 X 6] = 5040 / 144 = 35,

que es más dificultoso de obtener “a mano”. El método más eficiente es

choose(7,4) = choose(7,3) = (7x6x5)/6=35.

Ejercicio: Considerar una población de 7 personas y listar todas las muestras de tamaño 2 y todas las muestras de tamaño 3. Si no se le ha olvidado ninguna y si no se han producido duplicaciones, los resultados debieran ser 21 y 35 respectivamente. Este ejercicio ilustra un rol de las matemáticas: la economía del pensamiento.

7.‐ Modelo de urna.

Consideremos nuevamente la población enumerada usando los identificadores de 1 a N, o bien las primeras letras del alfabeto si N es pequeño. Supongamos además que se dispone de una planilla de cálculo en que a cada identificador se le asignan los valores de las variables correspondientes a la unidad poblacional representada por este identificador.

En una urna se colocan N fichas numeradas de 1 a N y se extraen secuencialmente n fichas.

Distinguimos dos situaciones alternativas:





10

10

10

Muestreo sin reposición o sin reemplazo:

1. Se revuelven bien las fichas de la urna y se extrae una de ellas, anotando el número de la ficha.

2. No se restituye la ficha a la urna.

3. Se repiten los pasos 1 y 2 hasta completar la cuota de n fichas extraídas.

4. El resultado es una sucesión de n números, que se puede identificar con una muestra ordenada.

5. Si el orden de los números en la muestra no es relevante, se genera a partir de ella una muestra no ordenada.

Una alternativa a la notación de conjuntos es identificar la muestra por la sucesión de números reordenados de acuerdo a su valor numérico o un orden preestablecido, como el alfabético. Por ejemplo, si la muestra ordenada, sin reposición, de la población {a, b, c, d, e} es (e,a,c), la muestra no ordenada se puede representar alternativamente por {e, a, c } = {a, c, e}, o bien por ace.

Las muestras ordenadas son equiprobables y lo mismo sucede con las no ordenadas.

Muestreo con reposición o con reemplazo:

1. Se revuelven bien las fichas y se extrae una de ellas, anotando su número.

2. Se restituye la ficha a la urna.

3. Se repiten los pasos 1 y 2 hasta completar la cuota de n fichas extraídas.

4. El resultado es una sucesión de n números, que se puede identificar con una muestra ordenada.





11

11

11

5. Si el orden de los números no es relevante se genera una muestra no ordenada, la que debe indicar para cada número en la muestra cuantas veces aparece cada uno (la suma de estos números debe ser igual a n) .

La principal diferencia con el muestreo sin reposición es el paso 2. Por otro lado, las muestras ordenadas son equiprobables (al igual que para el muestreo sin reposición), pero esto no sucede con las muestras no ordenadas.

Cabe hacer notar que el muestreo con y sin repetición equivale matemáticamente al muestreo con y sin reposición, respectivamente.

Convenciones notacionalesl: Considere la población {a,b,c,d,e,f}, de la cual se extrae una muestra de tamaño 8 con reposición (notar que es posible que n exceda N en un muestreo con reposición. Si la muestra ordenada es

(e, d, b, a, d, e, a, e),

y no se desea tomar en cuenta el orden, el resultado podría expresarse como

Tríos: e, Pares: a, d, Single: b

Una notación bastante eficiente y que enfatiza la irrelevancia del orden es

a2bd2e3 , o bien, a2b c0d2e3.

La segunda expresión tiene la ventaja de que se traduce fácilmente en una expresión matemática que no usa las letras, sino que hace un uso implícito de la enumeración poblacional: (z1, z2, z3 z4, z5 ) = (2,1,0,2,3).

Notar que los zi son enteros no negativos cuya suma es n. Como ya se ha mencionado, estas muestras no ordenadas con reposición no satisfacen la condición de equiprobabilidad.

8.‐ Juegos de azar.

El muestreo aleatorio simple, ya sea con muestras ordenadas como no ordenadas es uno de los casos excepcionales en que los que los resultados del experimento aleatorio son equiprobables por un argumento de simetría. Otro ámbito en que esto suele ser





12

12

12

posible (con una elección adecuada de qué elegimos considerar como resultado), es el de los juegos de azar. En general, es posible utilizar modelos de urna para analizar los problemas y calcular las posibilidades.

El muestreo con reposición es especialmente importante, pues proporciona un modelo concreto y sencillo para el concepto abstracto del siguiente “experimento aleatorio multietápico”:

En cada una de las n etapas se realiza un experimento aleatorio elemental, asegurándose de las distintas realizaciones de este experimento sean independientes entre sí (usamos la palabra realizaciones en vez de repeticiones para no generar confusiones con su uso previo). La idea intuitiva de independencia es que “la historia no tiene importancia”: Lo que haya ocurrido en las primeras r realizaciones del experimento no afecta en absoluto las probabilidades de lo que pueda acontecer en la (r+1)‐ésima realización.

Ejemplo: Consideremos la población es {a,b,c} y que el primer elemento seleccionado sea b. Analicemos los dos casos:

• Muestreo con reposición: El resultado de la segunda extracción es a, b y c con igual probabilidad (1/3 cada una).

• Muestreo sin reposición: El resultado de la segunda extracción es a y c con igual probabilidad. Dado que es imposible obtener b, las propiedades de la probabilidad implican que las probabilidades de a y c son ambas iguales a ½. Se puede decir también que la probabilidad condicional de obtener c en la segunda extracción dado que se obtuvo b en la primera es ½.

En los juegos de azar los experimentos más típicos se basan en lanzamientos de una moneda, de un dado, o de la bolita en la ruleta. Aunque físicamente los experimentos no corresponden a extracciones de una urna, los modelos matemáticos respectivos equivalen al modelo de urna con reposición, para ciertos valores de N. En los tres casos mencionados los valores de N son 2, 6 y 38 respectivamente. En todo caso, lo que verdaderamente importa son los supuestos de equiprobabilidad e independencia, pero el modelo de urna garantiza automáticamente estas condiciones.





13

13

13

Ejemplo: Si se lanza 3 veces un dado equilibrado, el resultado se puede identificar con una de las 63 =216 muestras con reposición de tamaño 3, de la población {1, 2, 3, 4, 5, 6}. Esto es clave para demostrar que la probabilidad de un trío es 6/216, la probabilidad de 3 numeros distintos es 120/216 y la probabilidad de un par es 90/216.

Ejemplo: Si se lanza 10 veces una moneda al aire, hay 210= 1024 resultados equiprobables. Esto es clave para demostrar que la probabilidad de que hayan exactamente k caras en los 10 lanzamientos es Ck

10 /1024. La probabilidad mas alta se alcanza para k=5 y su valor es choose(5,10)/1024 = 252/1024 = 0.246.

9.‐ Probabilidad en la vida cotidiana

La palabra probabilidad es de uso muy común, aunque su significado exacto es poco claro. Si buscamos esta palabra en diferentes medios de comunicación y en la vida daría, la veremos con frecuencia. Así, se nos dice que es poco probable un cambio brusco de temperatura ó un diario nos informa que es muy probable que nuestro equipo salga “campeón” en el mundial de futbol. En la vida personal uno podría pensar en la probabilidad de encontrar su media naranja en los próximos dos años o de que un hijo se titule. Una característica de estas aplicaciones es que la probabilidad parece depender de quien “la evalúe”, y en este sentido es un concepto subjetivo. Notar que no hay nada peyorativo en el uso de este calificativo, sino que refleja una realidad. Las diferentes evaluaciones pueden atribuirse a aspectos psicológicos, sino a las distintas informaciones con que cuentan los que evalúan las probabilidades.

Sin embargo, hay muchas situaciones en que el enfoque subjetivo resulta insuficiente , En particular esto ocurre cuando la evaluación de las probabilidades es de altas consecuencias, y por tanto se requiere de conocimientos más precisos respecto de un fenómeno aleatorio. Así, se sabe que las compañías de seguros extienden sus productos teniendo información





14

14

14

histórica y aplicando cálculos probabilísticos para diseñar las pólizas, Supongamos que una compañía de seguros va a extender una póliza por seguro de catástrofe frente a eventos telúricos. Ella debería tener en consideración que este tipo de evento está condicionado por la ubicación geográfica entre otros factores. Por ejemplo, está el caso de Chile, que es el país con más actividad sísmica en el mundo y, por lo mismo, las probabilidades de ocurrencia de un terremoto son mayores en comparación con países en otras latitudes. Hasta ahora no existen herramientas científicas, para predecir el lugar, fecha y magnitud de un posible evento de esta naturaleza.

Tenemos también el caso de los seguros de vida. No será suficiente saber que es poco probable que la vida del futuro asegurado sobrepase los 80 años o que es probable que sobrepase los 70, sino que será conveniente valorar correctamente estas probabilidades. Esta información no corresponde a una ley natural, como en la Física, sino que se basa nuevamente en datos históricos y cálculos matemáticos.

10. Nociones elementales de la Teoría de Probabilidad

La Teoría de Probabilidad indica las reglas que debe cumplir toda evaluación o asignación de probabilidades a una familia de sucesos de interés. Estos sucesos suelen expresarse en términos de proposiciones que pueden resultar verdaderas o falsas, sin saber a priori cual de los dos casos es el correcto. La condición clave se refiere a los sucesos mutuamente excluyentes, es decir, a lo más uno de ellos puede ocurrir. Por ejemplo, no puede salir al mismo tiempo un par y un trío cuando se lanzan tres dados. Si Ak es el suceso: sale un as en el k‐ésimo lanzamiento de un dado, los sucesos A1 , A2 y A3 no son mutuamente excluyentes. De hecho, todos pueden ocurrir a la vez y esta probabilidad es 1/216.

El Axioma de aditividad establece que si A1 , A2 , … , Am son mutuamente excluyentes, entonces la probabilidad de que ocurra al menos uno de ellos es la suma de sus probabilidades.

Se agrega a este axioma dos más sencillos, que indican que las probabilidades no pueden ser negativas y que la probabilidad de un suceso seguro es 1.





15

15

15

A partir de estos axiomas se pueden deducir una serie de propiedades. Usando la notación P( ) para indicar “la probabilidad del suceso dentro del paréntesis”, los axiomas son:

1. Si A1 , A2 , … , Am son mutuamente excluyentes, P(ocurre uno de ellos) = P(A1) + P(A2) + . . . + P(Am) .

2. P(A) es no negativa para todo suceso A.

3. P(suceso seguro)=1.

Propiedades

4. P(no ocurra A) = 1 –P(A).

5. Si A1 , A2 , … , Am son mutuamente excluyentes y equiprobables, P(ocurre uno de ellos) = m P(A1).

6. Si A1 , A2 , … , Am son mutuamente excluyentes, equiprobables, y uno de ellos debe ocurrir necesariamente, (ocurre uno de los sucesos A1 , A2 , … , Ak) = k/n.

La propiedad 6, a la que se suele denominar Regla de Laplace, es la base de todos los cálculos probabilísticos asociados con el muestreo aleatorio, los modelos de urna y los juegos de azar. Se la suele denominar también definición clásica, o a priori, lo que es una pésima idea en el Siglo 21. Usar la regla de Laplace: “ número de casos favorables dividido por el número de casos posibles “ la versión probabilística de un “mono con navaja”. Para muestra un botón: Hay dos posibilidades excluyentes cuando juego al Loto: o gano o no gano. Al aplicar la regla de Laplace la probabilidad de ganar el Loto ¡sería ½ ! ¿Creería usted este resultado?

Advertencia: La validez de la regla de Laplace requiere que se cumplan a la vez la condición de que los sucesos sean mutuamente excluyentes y que ellos sean equiprobables. Para que los resultados tengan una relevancia práctica, ¡estas condiciones no se pueden imponer! El arte del cálculo de probabilidades consiste en enfocar el problema de modo que estas condiciones se cumplan. Es por esto que





16

16

16

hemos insistido en que para el muestreo aleatorio con reposición es necesario considerar muestras ordenadas, aunque el evento de interés no dependa del orden.

La “gracia” del enfoque axiomático es que tanto los axiomas como las propiedades que se desprenden de ellos son válidos independientes de la interpretación o la definición de probabilidad. Aparte del la Regla de Laplace y el enfoque subjetivo, existe una definición frecuentista que se basa en la posibilidad de repetir indefinidamente un experimento, de modo que estas repeticiones sean independientes entre sí.

Si pM (A) es la frecuencia relativa del suceso A en las primeras M repeticiones de un experimento aleatorio, P(A) es el límite de pM (A) cuando M tiende a infinito. En la formulación axiomática se puede demostrar matemáticamente que el límite existe y coincide con la probabilidad. Este resultado es la famosa Ley de los Grandes Números, que en su versión general fue recién demostrado a principios de la década del treintaen el siglo pasado.

La demostración es muy compleja, pero es fácil verificarlo empíricamente usando experimentos físicos o simulaciones computacionales. Estas últimas se pueden hacer con el programa SIMPUC o con el software R.

Hay muchísimas situaciones en que solo pensar en esto causa risa: Probabilidad de una sobrevida de 5 años en un cáncer al colon, probabilidad de que me vaya bien en mi matrimonio, probabilidad de que la Universidad de Chile sea campeón de la Copa Libertadores de américa el año 2010. No obstante lo anterior, la interpretación frecuentista es muy útil para fundamentar la elección de los axiomas. En particular, es poco intuitivo explicar el supuesto de probabilidad desde el punto de vista subjetivo.

11.‐ Algunas ideas sobre el concepto de probabilidad.

• La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la matemática, la ciencia y la filosofía para sacar





17

17

17

conclusiones sobre la probabilidad de sucesos potenciales y la mecánica subyacente de sistemas complejos.

• Este es el objetivo del Cálculo de Probabilidades: , medir probabilidades relacionadas con cierto fenómeno aleatorio dado. Medir significa asignar a cada probabilidad un número determinado, esto nos permitiría obtener un conocimiento más preciso del fenómeno.

• De acuerdo a la teoría axiomática, tal y como se conoce hoy, iniciada por Kolmogorov, los sucesos aleatorios se presentan como conjuntos, y la probabilidad como una medida normada de estos conjuntos.

• Por experimento entendemos cualquier acción que pueda dar lugar a resultados identificables. Suponemos que es posible repetir el experimento gran número de veces bajo las mismas condiciones y que todos los posibles resultados son conocidos antes de la realización del experimento. Por ejemplo, si el experimento consiste en lanzar un dado, éste puede repetirse todas las veces que deseemos. También podemos observar que antes de lanzarlo conocemos cuáles son los posibles resultados (cualquier número entre 1, 2, 3, 4, 5 o 6 ) y no sabemos cuál de estos posibles resultados aparecerá.

• Las asignaciones de probabilidad subjetiva se dan con más frecuencia cuando los eventos se presentan sólo una vez o un número muy reducido de veces. Según lo señalan Richard Jeffrey y Amanda Dure, "Antes de la mitad del siglo XVII, el término 'probable' significaba aprobable, y se aplicaba en ese sentido, unívocamente, a la opinión y a la acción. Una acción u opinión probable era una que las personas sensatas emprenderían o mantendrían, en las circunstancias." ET. Jaynes (2003)

12. Un poco de historia PRECURSORES La probabilidad matemática tiene sus orígenes en los juegos de azar, principalmente los juegos con dados y cartas, muy populares desde tiempos antiguos. Los primeros estudios “científicos” sobre fenómenos aleatorios se centraban en dos problemas:





18

18

18

1. Contabilizar el número de posibles resultados de lanzar un dado varias veces. 2. Distribuir las ganancias entre jugadores cuando el juego se interrumpía antes de finalizar, conocido como el ‘problema del reparto de apuestas’. Una respuesta al primer problema se puede encontrar en el poema De Vetula, de Richard de Fournival (1200– 1250), donde afirma correctamente que si se lanzan tres dados hay 216 combinaciones posibles y calcula correctamente los diferentes valores para la suma de los tres dados. Aunque ahora puede parecer una cuestión trivial, en aquella época no lo era, y otros autores erraron al intentar resolverla, generalmente porque no tenían en cuenta las posibles permutaciones de una misma combinación. El segundo problema fue abordado por Luca Pacioli (1445–1517), quien en 1487 propuso estos dos similares problemas particulares: un juego en el que el premio es de 22 ducados que consiste en alcanzar 60 puntos se interrumpe cuando un equipo lleva 50 puntos y el otro 30; y tres arqueros que compiten por un premio de 6 ducados lanzan flechas hasta que uno de ellos haga 6 dianas, siendo interrumpidos cuando el primero de ellos lleva 4 dianas, el segundo 3 y el tercero 2. ¿Cómo deben repartirse los premios entre los contendientes? Pacioli propuso que el premio debería ser repartido en función de las victorias obtenidas anteriormente: así, el premio del primer problema se dividía en 60×5/8 ducados para el primer equipo y en 60×3/8 para el segundo; para el problema de los arqueros, el premio se dividía en la proporción 4/9, 3/9 y 2/9. Como más tarde se pondría de manifiesto, esta solución es incorrecta. GIROLAMO CARDANO Y NICCOLO TARTAGLIA La primera obra importante relacionada con el cálculo de probabilidades en juegos de azar fue el Libro de los Juegos de Azar, de Girolamo Cardano (1501–1576), escrito en 1565, aunque no publicado hasta 1663. Cardano era un jugador empedernido y su obra es más bien un manual para jugadores; contiene descripciones de juegos y las precauciones a tomar para que los rivales no hagan trampas, y sólo una pequeña parte está dedicada al estudio del azar: problemas tales como calcular todos los resultados posibles al lanzar dos o tres dados y las frecuencias con que aparecían, hallar la probabilidad de que al lanzar un dado una serie de veces salga un determinado número al menos una vez, o calcular las frecuencias de los valores de la suma de las caras de una tirada de dos dados. En la resolución de estos problemas, Cardano trabajó con los conceptos de la definición clásica de la probabilidad, aunque no los definió. En concreto, Cardano introdujo la idea de asignar una probabilidad p entre 0 y 1 a un suceso cuyo resultado se desconoce, considerando el número total de resultados y el número de resultados favorables, y esbozó de una forma rudimentaria lo que ahora se conoce como la “ley de los grandes números”, al afirmar que si la probabilidad de una suceso es p, después de un número n grande de repeticiones lo más razonable es





19

19

19

apostar a que ocurrirá alrededor de np veces. Sin embargo, Cardano no alcanzó a reconocer la importancia teórica de estos conceptos, ya que consideraba estas relaciones como meramente aritméticas, más que como una medida de la posibilidad de ocurrencia de un suceso aleatorio. Cardano se había ocupado previamente del problema del reparto de apuestas. En 1539 escribió que la solución de Pacioli era incorrecta porque al considerar tan sólo el número de juegos ganados por cada equipo, no contaba cuántos juegos debían ganar para hacerse con el premio; como solución propuso que si n es el número de juegos totales y a y b los juegos ganados por cada equipo, el premio debía repartirse de la siguiente manera [1+2+…+(n‐b)]: [1+2+…(n‐a)]. Esta solución es, en general, incorrecta y sólo da resultados válidos en casos particulares. El problema del reparto de apuestas también fue abordado por Niccolo Tartaglia (1499–1557), quien en 1556 publicó un libro sobre aritmética en el que criticaba la solución dada por Pacioli («Si un bando ha ganado 10 puntos y el otro ninguno, entonces todo el premio sería para el primer jugador, pero esto no tiene ningún sentido») y dio su propio solución: si un equipo ha ganado a puntos y el otro b, se juega a n puntos y el premio total es P, las ganancias deberían repartirse de la forma (P/2)±P[(a‐b)/n], siendo la cantidad mayor para el equipo que tenga más victorias. Sin embargo, Tartaglia fue consciente de que su solución no era la correcta y le dio un carácter más jurisdiccional que matemático. GALILEO GALILEI Galileo Galilei (1564–1642) también se dedicó a resolver problemas sobre dados. Su obra Sobre la Puntuación en Tiradas de Dados calculaba el número de resultados posibles tirando tres dados. A pesar de que ya se sabía desde mucho tiempo antes que hay 216 posibilidades diferentes, Galileo fue el primero que llegó a esta conclusión a través del simple cálculo 216 = 6³. Luego atacaba el problema de calcular de cuántas maneras diferentes se pueden lograr cada una de las puntuaciones entre 3 y 18. Para hacer esto, Galileo numeró los dados —primero, segundo, tercero— y fue considerando cada una de las combinaciones de los tres dados que sumaban una determinada cantidad, pero sólo entre 3 y 10. Galileo encontró que sólo hay una manera de obtener tres puntuaciones iguales, tres maneras de obtener dos puntuaciones iguales y otra diferente, y seis maneras de obtener tres puntuaciones diferentes. Su conclusión fue que es preferible apostar por el 10 antes que por el 9 porque el 10 se puede obtener de 27 maneras por 25 del 9. El resto de posibilidades —de 11 a 18— se obtenían sin cálculos, directamente por simetría: 18 igual que 3, 17 igual que 4, etc. A pesar de la simplicidad del problema, Galileo reconoció que quedó exhausto.





20

20

20

Sin embargo, la principal contribución de Galileo a la teoría de la probabilidad fue la creación de la teoría de la medida de errores. Según Galileo, los errores de medida son inevitables y los clasificó en dos tipos: los errores ‘sistemáticos’, debidos a los métodos y las herramientas de medida; y los errores ‘aleatorios’, que varían impredeciblemente de una medida a otra. Esta clasificación sigue en vigor actualmente. Galileo fue muy cuidadoso al analizar las propiedades de los errores aleatorios y estableció que son más frecuentes los errores pequeños que los grandes; que los errores por defecto son tan frecuentes como los errores por exceso; y que la mayoría de las mediciones se agrupan alrededor del verdadero valor. Con estas ideas, Galileo no sólo contribuyó al desarrollo de la teoría de la probabilidad, sino que puso las bases para el nacimiento de la estadística. BLAISE PASCAL Y PIERRE DE FERMAT El desarrollo de la teoría de la probabilidad experimentó un gran avance en Francia a mediados del siglo XVII con la correspondencia que mantuvieron Blaise Pascal (1623–1662) y Pierre de Fermat (1601‐1665) durante 1654. Antoine Gombaud, caballero de Méré, filósofo y literato que jugaba compulsivamente, pidió a Pascal que le resolviese el problema del reparto de apuestas. Pascal y Fermat lo resolvieron correctamente por medios diferentes pero equivalentes, aunque el desconocimiento de la teoría general les hizo pensar que no lo eran. El acierto de ambos consistió en darse cuenta de que el reparto de las apuestas debe hacerse en función de la probabilidad de ganar que tuviese cada jugador en el momento de interrumpirse el juego. Para hallar la solución correcta se valieron de una rigurosa metodología desconocida hasta entonces; sin embargo, Pascal falló en su intento de extender el procedimiento al caso en que hubiera tres o más jugadores. Once años más tarde, en 1665, Pascal publicaba su Tratado sobre el Triángulo Aritmético, la más importante contribución realizada hasta entonces en el campo de la combinatoria. El libro comienza con la construcción de lo que se dio en llamar el triángulo de Pascal, aunque era conocido desde hacía más de 500 años en diversas partes del mundo. El triángulo es de la siguiente forma:





21

21

21

Donde el valor de la k‐ésima entrada de la n‐ésima fila es el número combinatorio

Pascal demostró algunas propiedades importantes del triángulo: cada elemento es la suma de todos los elementos de la columna anterior hasta la fila anterior (es decir, Y la suma de todos los elementos de la fila nésima es: Para demostrar estos argumentos usaba algo parecido al principio de inducción, pues demostraba un caso y, a continuación, que eso implicaba el caso inmediatamente siguiente. La última gran propiedad del triángulo que demostró Pascal fue que: Demostrándolo por inducción e identificando ese número como el número de combinaciones de k elementos en un conjunto de n elementos. Finalmente, Pascal aplicó todos estos resultados para producir una solución sistemática del problema del reparto de apuestas: si al jugador A le faltan r juegos para ganar y al jugador B le faltan





22

22

22

s (con r+s≥1), las apuestas deberían dividirse de manera que al jugador A le correspondiera una parte proporcional al cociente entre Donde n=r+s‐1. Pascal aplicó los razonamientos probabilísticos sobre la toma de decisiones a la teología y trató de demostrar la existencia de Dios. Su argumento era el siguiente: Dios existe o no existe; si no existe, da igual creer en él que no creer; si existe, creer que no existe provoca la condenación eterna, mientras que creer trae la salvación. Como la salvación es preferible a la condenación (en términos probabilísticos, la ganancia es mayor), una persona ‘razonable’ actuará como si Dios existiera, aunque crea que la probabilidad de que exista es pequeña. CHRISTIAAN HUYGENS Los trabajos de Pascal y Fermat fueron continuados por el científico holandés Christian Huygens (1629–1695). Su interés por la probabilidad nació en 1655 durante el transcurso de un viaje a París, donde coincidió con otros científicos y discutió con ellos el problema del reparto de apuestas. Fue así como Huygens entró en conocimiento de las obras de Pascal y Fermat y sus métodos. En 1656 salía publicado su tratado Sobre los Cálculos en los Juegos de Azar, el cual constaba de un breve prefacio y 14 proposiciones. En las tres primeras, Huygens introducía el concepto de esperanza matemática para variables aleatorias que toman dos o tres valores, definida como la ganancia media si se repitiera el juego muchas veces; la palabra ‘esperanza’ apareció por primera vez en la historia en la traducción al latín del original en holandés. En las seis siguientes proposiciones Huygens proponía su solución al problema del reparto de apuestas, muy similar a la de Pascal, pero lo llevó más allá, pues Huygens fue capaz de extender el problema al caso de tres jugadores; sobre esto último, no dio una solución general, sino que indicó cómo aplicar al caso general los casos particulares previamente resueltos. Las otras cuatro proposiciones trataban sobre problemas varios. En particular, en la proposición 11 del libro aparece un problema planteado por De Méré a Pascal y Fermat— ¿cuántas veces hay que lanzar dos dados para que sea más probable ganar que perder apostando a que saldrá al menos un doble 6?— que tanto Cardano como De Méré habían resuelto incorrectamente (18 y 24 tiradas, respectivamente) y que Huygens fue el primero en resolver correctamente: 25 tiradas. Al final del libro, se incluían cinco problemas propuestos sin solución para el lector. En 1687 se publicó un libro anónimo en el que se resolvía el primero se esbozaba la solución del resto. Más





23

23

23

tarde, se comprobó que el autor de ese libro era el filósofo holandés de origen judeo–portugués Benito Espinoza.

La idea de que la “probabilidad” se debe interpretar como un “grado subjetivo de creencia en un asunto” fue propuesta independientemente por Bruno de Finetti en Italia, en Fondamenti Logici del Ragionamento Probabilistico (1930) y por Franco en Inglaterra, en Los fundamentos de de las matemáticas (1931).[5] La teoría subjetivista se basa en las acciones frente a una serie de apuestas.

Referencias

1. ET. Jaynes. Teoría de las probabilidades: La lógica de la ciencia Prensa de la universidad de Cambridge, (2003). ISBN 0‐521‐59271‐2

2. Richard T. $cox, álgebra de la inferencia probable, la prensa de la universidad de Johns Hopkins, 2001

3. de Finetti, B. (1974) Teoría de la probabilidad (2 vols.), J. Wiley & Sons, Inc., Nueva York

4. COOKE, ROGER, The History of Mathematics. A Brief Course, John Wiley & Sons Inc, 1997

5. DE GROOT, MORRIS H., Probabilidad y Estadística, Addison–Wesley Iberoamericana, 1988

6. GNEDENKO, BORIS, Theory of Probability, Gordon & Breach Science Publications, 1997

7. TODHUNTER, ISAAC, History of the Theory of Probability, Chelsea Publishing Company, 1965

INTERNET





24

24

24

• “The MacTutor History of Mathematics archive”: www.groups.dcs.st‐and‐ac‐uk/~history

• “Figures from the History of Probability and Statistics”: www.economics.soton.ac.uk/staff/aldrich/Figures.htm

• “Earliest Known Uses of Some of the Words of Mathematics”: members.aol.com/jeff570/mathworld.html

• “A short History of Probability and Statistics” www.leidenuniv.nl/fsw/verduin/stathist/stathist.htm• “History of Science: Origins of Modern Probability Theory” www.mala.bc.ca/~johnstoi/darwin/sect4.htm

• http://es.wikipedia.org/wiki/Probabilidad • http://www.worldlingo.com/ma/enwiki/es/Thomas_Bayes

Clase2Texto 1 La probabilidad - analisis-estadistico.cl · También es importante mostrar que las...

Documents

Transcript of Clase2Texto 1 La probabilidad - analisis-estadistico.cl · También es importante mostrar que las...