Axiomas de kolmogorov parte i para modelos finitos de probabilidadb PDF

Title Axiomas de kolmogorov parte i para modelos finitos de probabilidadb
Course Estadísticas I
Institution Universidad Nacional de Ingeniería Nicaragua
Pages 14
File Size 255.8 KB
File Type PDF
Total Downloads 43
Total Views 146

Summary

Probabilidades básico, principalmente para los años básicos....


Description

Los Axiomas de Kolmogorov. Parte I. 1

El problema de la clase de eventos y de la medida de probabilidad

La paradoja del C´ırculo m´ aximo de Bertrand El matem´a tico franc´es Joseph Bertrand, plante´o en 1889 1 diversos problemas, llamados paradojas, que hac´ıan creer que no era posible llegar a una teor´ıa matem´a tica de la probabilidad, a la manera como las geometr´ıas o el ´a lgebra por ejemplo. Uno de ellos sucit´o muchas controversias entre los matem´a ticos de la ´epoca y de algunos a˜nos posteriores. El problema. En una esfera se elige un par de puntos. ¿Cu´a l es a probabilidad de que la distancia entre ellos sea menor de 10 minutos?2 Dice Bertrand, Le premier point peut ˆ etre suppos´ e connu, la position qu’iloccupe, quelle qu’elle soit, ne change rien ` a la probabilit´ e cherc´ ee. Esto es, podemos suponer que la posici´on de uno de los puntos elegidos es conocida. Soluci´ on geom´ etrica. Esta es la segunda soluci´on que ofrece Bertrand. Con el primer punto fijo, lo que debemos calcular es la proporci´on, con relaci´on a la superficie total de la esfera, de la regi´on de la superficie de todos los puntos que se encuentran a menos de 10 minutos del punto fijado. Esta regi´on es un casquete esf´ erico, cuyo arco mide 20 minutos, por lo que, si R es el radio de la esfera, la altura del casquete es 2R sin2

π 20′ = 2R sin2 5′ = 2R sin2 = 2R(2.1154 × 10−6 ), 4 2, 160

de modo que la proporci´on buscada es (2.1154 × 10−6 )3 . Esta es la soluci´on cl´a sica. 1 Bertrand, Joseph. Calcul des Probabilit´ e s. Gauthier-Villars, Paris, 1889. P´a gs. 6 y 7. El libro completo puede bajarse en http://gallica.bnf.fr/ark:/12148/bpt6k99602b. 2 Cantidades sexagesimales: 1◦ (1 grado=1 hora)=60 minutos(60′ ), 1 minuto=60 segundos(60′′ ). Como arco, 1 minuto es π/10, 800 radianes. 3 La superficie de la esfera es 4πR2 . La superficie de un casquete esf´ erico de arco θ es 2πRh, donde h = 2R sin2 4θ es la altura.

1

El error de Bertrand. Sin embargo Bertrand no dio esta soluci´on. Escribe, La rapport de la surface de cette zone ` a celle de la sph` ere est 0, 00000042308 =

1 . 236362

Esto es 2 × (2.1154 × 10−6 ). No se sabe con certeza porqu´e Bertrand cometi´o este descuido, seg´un Glenn Shafer y Vladimir Vovk, The formula Bertrand gives is correct, and it evaluates to this number. Unfortunately, he then gives a numerical value that is twice as large, as if the denominator of the ratio being calculated were the area of a hemisphere rather than the area of the entire sphere. (Later in the book, on p. 169, he considers a version of the problem where the point is drawn at random from a hemisphere rather than from a sphere.) Bertrand composed his book by drawing together notes from decades of teaching, and the carelessness with which he did this may have enhanced the sense of confusion that his paradoxes engendered.4 Soluci´ on alternativa de Bertrand. Esta es la soluci´on controvertida. De nueva cuenta, despu´es de fijar uno de los puntos, escribe Bertrand, Le grand cercle qui r´ eunit les deux points peut ˆ etre ´ egalment suppos´ e connu, les chances possibles sont les m` emes dans toutes les directions. Es decir, seg´un Bertrand, podemos asumir que el c´ırculo m´a ximo que une ambos puntos es conocido, dado que el azar de escoger cualquier c´ırculo m´a ximo es “igualmente probable”. Es este argumento la fuente de la pol´emica. Desde el punto de vista geom´etrico, la superficie de cualquier c´ırculo sobre la esfera es nula en proporci´on con la superficie total de la esfera. As´ı, el azar de elegir cualquiera de ellos tiene probabilidad cero. ¿Qu´e sentido tiene entonces considerar eventos de probabilidad cero, y m´a s a´un, c´omo resolver un problema suponiendo conocido uno de tales eventos de probabilidad cero? Al parecer Bertrand pretend´ıa extender la idea del modelo cl´a sico de probabilidad, no s´olo como una proporci´on 4 The origins and legacy of Kolmogorov’s Grundbegriffe. Glenn Shafer and Vladimir Vovk.

2

(que es el caso de las probabilidades geom´etricas), sino desde el concepto de que cada muestra es igualmente probable, y dar una soluci´on desde esta perspectiva que le parec´ıa igualmente v´a lida. La soluci´on de Bertrand continua del siguiente modo: El arco del c´ırculo m´a ximo que une ambos puntos tiene 360 grados, o bien, 2, 160 arcos de 10′ cada uno. Si pensamos el punto fijado previamente como un polo de la esfera, entonces el segundo punto debe ser elegido ´unicamente de alguno de los dos arcos vecinos (de 10′ cada uno), si la distancia entre estos ha de ser menor a 10′ . Luego, la probabilidad buscada es 2/2160, o equivalentemente, 9.2593 × 10−4 . Un n´umero considerablemente mayor que el obtenido en la soluci´on geom´etrica. El problema radica en dos cosas. Una, Bertrand no precisa lo que debe entenderse por elecci´on al azar de un punto en la esfera, de la misma manera que sus famosas parad´ojas geom´etricas (la cuerda y el tri´a ngulo inscrito), por lo que las dos interpretaciones las considera igualmente v´a lidas. En segundo lugar, y m´a s importante, no hay una clara definici´on del concepto de evento, sin este, puede cometerse el equ´ıvoco conceptual de Bertrand.

An´ a lisis del problema El problema anterior puede expresarse as´ı: Al lanzar un dado, la probabilidad del evento {1, 6} es 1/5, la probabilidad del evento {1, 5} es 1/4. Con esta informaci´on, ¿podemos construir un modelo de probabilidad para este fen´omeno? Si es as´ı, ¿se trata de un modelo cl´a sico? ¿Es un modelo finito? M´a s a´un, ¿qu´e es un modelo de probabilidad? En primer lugar, el espacio muestral de este fen´omeno es Ω = {1, 2, 3, 4, 5, 6}. Ahora bien, hasta donde sabemos, si las preguntas anteriores tienen respuesta afirmativa, deber´ıa ser entonces posible calcular la probabilidad de eventos tales como {2, 4, 6}, o {2, 5}, y de hecho para cualquier subconjunto A ⊂ Ω. Digamos que P es esta supuesta medida de probabilidad. Definimos A = {1, 6} y B = {1, 5}. Adem´a s de que P(∅) = 0 y P(Ω) = 1, las probabilidades triviales son 4 1 P(Ac ) = P({2, 3, 4, 5}) = 1 − = . 5 5 3 1 P(B c ) = P({2, 3, 4, 6}) = 1 − = . 4 4 Sin embargo, resulta casi obvio notar que es imposible deducir la probabilidad P(A ∩ B) = P({1}),

Modelos de probabilidad con informaci´ on incompleta El dado cargado. Supongamos que al lanzar un dado cargado, la probabilidad de obtener 1 ´o 6 es 1/5, mientras que la probabilidad de obtener 1 ´o 5 es 1/4. No contamos con ninguna otra informaci´on. ¿Es posible calcular con esta informaci´on la probabilidad de que el dado caiga en 1? ¿Es posible calcular la probabilidad de que el dado caiga en n´umero par, o n´umero impar? Supongamos ahora que obtenemos la informaci´on extra de que la probabilidad de obtener n´umero impar es la misma para 1, 3 y 5, y es igual a alg´un n´umero p. ¿Es posible resolver las mismas preguntas? ¿Es posible calcular el n´umero p? ¿Es posible calcular la probabilidad de que el dado caiga en 2? Este problema, en apariencia inocente, toca ciertas cuestiones bastante profundas. En primer lugar nos hace ver las limitaciones de la teor´ıa de la probabilidad. En segundo lugar, nos remite al problema de qu´e entendemos por evento, por modelo de probabilidad y c´omo construir modelos de probabilidad cuando solo contamos con informaci´on incompleta.

solo con la informaci´on original sobre las probabilidades de los eventos A y B . Por otro lado, con la informaci´on extra, tenemos, P({1}) = P({3}) = P({5}) = p, de donde

1 = P({1, 5}) = P({1}) + P({5}) = 2p, 4 y por tanto p = 1/8. De este modo,

P({6}) =

3 1 1 − = 5 8 40

y

P({2, 4}) = P({2, 4, 6}) − P({6}) =

Luego, con la regla de la aditividad finita, es posible calcular la probabilidad de cualquier evento que pueda escribirse como una uni´on disjunta de los eventos, {1}, {3}, {5}, {6} y {2, 4}. Por ejemplo, 4 P({2, 3, 4, 5}) = P({2, 4}) + P({3}) + p({5}) = . 5

3

5 3 11 − = 20 8 40

4

(1)

Notamos adem´a s que las probabilidades de los eventos (1) son consistentes. En efecto, P(Ω) = P({1}) + P({3}) + P({5}) + P({6}) + P({2, 4}) = 1. Por otra parte, no hay modo de obtener probabilidad para {2} ´o {4}. No obstante, si decidimos excluir los conjuntos {2} y {4}, el modelo sigue siendo consistente, en el sentido descrito anteriormente: cualquier evento que pueda expresarse como uniones de los conjuntos (1), tiene probabilidad. Como conclusi´on, dada la informaci´on adicional, es posible determinar de forma ´unica un modelo de probabilidad, siempre y cuando los conjuntos {2} y {4} no sean tomados como eventos, es decir, no sujetos de probabilidad. Sin esta informaci´on, no es posible deducir un modelo de probabilidad para el fen´omeno en cuesti´on, aunque vale la pena se˜nalar que esto no significa que no exista ning´un modelo apropiado, sino m´a s bien que no es posible determinarlo de forma ´unica.

2

El sexto problema de Hilbert

3

Los Axiomas de Kolmogorov

Sea Ω un conjunto. Recordemos que una clase de subconjuntos de Ω es un conjunto que re´une subconjuntos de Ω. Es un conjunto de conjuntos. Por ejemplo, en R la clase de todos los intervalos abiertos es la familia I = {(a, b) ⊂ R : a ≤ b}. El conjunto potencia P(Ω) es tambi´en un ejemplo de clase de subconjuntos de un conjunto Ω. Otras clases t´ıpicas (sobre todo en l´ogica matem´a tica) son los conjuntos {∅}, {{∅}}, {{{∅}}}, etc. El concepto de clase de subconjuntos juega un papel fundamental en la teor´ıa de la probabilidad moderna. Definici´ on 1 (Campo de conjuntos). Una clase de conjuntos F es llamada campo de conjuntos si para cualesquiera dos conjuntos A y B en F, los conjuntos A ∪ B, A ∩ B, y A\B,

Los conceptos de evento y de modelo de probabilidad deben ser ahora m´a s precisos. Este problema fue planteado por Hilbert, como parte del sexto problema: Mathematical Treatment of the Axioms of Physics, en el famoso International Congress of Mathematicians, de Paris en 1900. Hilbert plantea,

pertenecen tambi´ en a la clase F. En particular, cualquier campo no vac´ıo contiene al conjunto nulo ∅.

The investigations on the foundations of geometry suggest the problem : To treat in the same manner, by means of axioms, those physical sciences in which mathematics plays an important part ; in the first rank are the theory of probabilities and mechanics.5

Sea Ω un conjunto, cuyos elementos ser´a n llamados eventos elementales y sea F una clase de subconjuntos de Ω, cuyos elementos ser´a n llamados eventos aleatorios.

Hubo muchos matem´a ticos, antes y despu´es de esta exposici´on de Hilbert, centrados en esta tarea, en cuanto a la probabilidad. En 1933, Kolmogorov culmina este trabajo con la publicaci´on de su peque˜no libro Grundbegriffe der Wahrscheinlichkeitsrechnung.6

Axiomas de Kolmogorov para la Teor´ıa de la Probabilidad.

Axioma I La clase F es un campo de conjuntos. Axioma II Ω ∈ F. Axioma III Para cada evento aleatorio A ∈ F, existe un n´umero real nonegativo P(A). Este n´umero es llamado la probabilidad del evento A. Axioma IV P(Ω) = 1.

5 David Hilbert. Mathematical problems. Bulletin of American Mathematical Society, Vol 8. P´ a gs. 437-479, 1902. El texto completo puede encontrarse en http://www.ams.org/journals/bull/1902-08-10/S0002-9904-1902-00923-3/. 6 El libro completo en su segunda edici´ o n inglesa puede bajarse en http://www.socsci.uci.edu/∼bskyrms/bio/readings/kolmogorov theory of probability small.pdf

5

Axioma V (Aditividad finita) Si A y B son eventos aleatorios mutuamente excluyentes, entonces P(A ∪ B) = P(A) + P(B ).

6

Un sistema compuesto por el conjunto Ω, la clase F y la asignaci´on P(A) que satisfacen los axiomas I-V es llamado campo de probabilidad. Observaciones La clase F es no vac´ıa, puesto que Ω ∈ F. Con ello ∅ ∈ F y en general, para cualquier otro evento aleatorio A ∈ F, Ac = Ω\A ∈ F . Por otro lado, es f´a cil probar por inducci´on que para cualquier colecci´on finita de eventos aleatorios A1 ,...,An , esto es Ai ∈ F, i = 1, ..., n, los conjuntos A1 ∪ A2 ∪ · · · ∪ An

y

A1 ∩ A2 ∩ · · · ∩ An ,

son tambi´en eventos aleatorios, esto es, est´a n en F .

Interpretaci´ on de los axiomas. Supongamos que Ω es el espacio muestral de un fen´omeno aleatorio. Ya hemos visto que no siempre es posible considerar todo subconjunto A de Ω como un evento, es decir, no todos los resultados posibles forman sucesos sujetos de probabilidad. Nos preguntamos entonces qu´e caracter´ısticas deben satisfacer los subconjuntos que pueden ser considerados eventos. Obviamente, la respuesta depende de las condiciones particulares del fen´omeno en cuesti´on. Esta pregunta no es relevante si queremos llegar a un modelo abstracto de probabilidad. La cuesti´on importante no debe estar relacionada directamente con las caracter´ısticas particulares de un fen´omeno o experiemento aletorio. Suponiendo que podemos “reunir” en una sola colecci´on todos los eventos, y con ello excluir aquellos conjuntos que no lo son, debemos pensar sobre cu´a les son las condiciones m´ınimas que dicha colecci´on cumple. Podemos entonces interpretar los axiomas del siguiente modo. Axioma I La clase de eventos F es un campo: Si tenemos en cuenta que F “re´une” los sucesos considerados como eventos, entonces cualquier composici´on entre ellos debe ser a su misma vez un evento. Consideremos el ejemplo sencillo de las condiciones meterel´ogicas del d´ıa de hoy. Pensemos en los siguientes eventos: o bien llueve o bien hay tormenta el´ectrica; hay tormenta el´ectrica y no llueve; llueve y hay tormenta el´ectrica. Todos ellos son composiciones de un par de eventos relacionados con el mismo fen´omeno, raz´on suficiente para ser ellos mismos eventos del mismo fen´omeno. En lenguaje conjuntista la descripci´on de esta propiedad corresponde a las propiedades de campo de la clase F . Axioma II Ω ∈ F. Esta condici´on es una mera formalidad l´ogica. El modelo matem´a tico debe ser autorreferente. En otras palabras, si Ω es 7

la descripci´on muestral de un fen´omeno aleatorio, es en s´ı mismo una posibilidad aleatoria, es decir un evento que puede suceder o no. Axioma III Para cada evento aleatorio A ∈ F, existe un n´ umero real nonegativo P(A). Este n´ umero es llamado la probabilidad del evento A. Un modelo matem´a tico de un fen´omeno real debe proporcionar medidas cuantitativas (probabilidades, en nuestro caso) de hechos cualitativos (fen´omenos aleatorios, en nuestro caso). Una buena eleci´on es considerar n´umeros no-negativos. Axioma IV P(Ω) = 1. Ciertamente, muchos modelos matem´a ticos contienen variables cuantitativas infinitas. Sin embargo, a la luz de la experiencia emp´ırica (Principio de Regularidad de las Frecuencias Relativas), una probabilidad deber´ıa por lo menos estar acotada por 1. De modo que un evento A es muy poco probable si P(A) es cercano a cero, y es muy probable si este n´umero es muy cercano a 1. Esta idea corresponde a la interpretaci´on del modelo. Que la probabilidad de Ω sea 1, significa que “algo est´a en proceso”. Algo sucede con toda seguridad. No tendr´ıa sentido modelar fen´omenos donde nada sucede. Quiz´a ni siquiera tiene sentido hablar de ellos. Axioma V Aditividad finita. Recordemos que dos eventos son mutuamente excluyentes cuando la ocurrencia de cualquiera de ellos excluye la ocurrencia del otro. Luego si debemos medir la probabilidad de que uno u otro eventos suceda, ´esta debe ser la probabilidad del uno m´a s la probabilidad del otro. Esta idea tambi´en es consecuencia de la experiencia. Algunos Ejemplos. Ejemplo 1. Si Ω es un conjunto no vac´ıo, entonces es f´a cil notar que la clase F = {∅, Ω} es un campo de subconjuntos de Ω. De hecho es la m´ınima clase de subconjuntos no vac´ıa que satisface el Axioma I. Esta clase satisface tambi´en el Axioma II. Por otro lado, si definimos ( 1 si A = Ω, P(A) = 0 si A = ∅, entonces P satisface el resto de los axiomas. Esta medida de probabilidad es conocida como medida de probabilidad trivial, ya que es el modelo m´a s sencillo que satisface los Axiomas I-V. Sin embargo, puede tener alg´un referente emp´ırco, aunque singular. Pensemos por ejemplo el fen´omeno de lanzar una 8

moneda que tiene sol en ambas caras. Por otro lado, note que Ω es cualquier conjunto, incluso puede ser infinito. Ejemplo 2. Para cualquier conjunto Ω, el conjunto potencia P(Ω) es de hecho un campo de subconjuntos de Ω. En particular, si Ω es un conjunto finito no vac´ıo, entonces los modelos de probabilidad discretos que hemos estudiado (el modelo cl´a sico y su generalizaci´on en los modelos finitos) satisfacen los axiomas de Kolmogorov. Ejemplo 3. La idea de los modelos finitos de probabilidad puede extenderse a espacios muestrales numerables. Un vector de probabilidad es una sucesi´on pi, i ∈ N, de n´umeros no negativos tal que ∞ X

pi = 1.

i=1

Sobre el conjunto de los n´umeros naturales Ω = N, y su potencia F = P(N), definimos la probabilidad, X  pi si A 6= ∅, P(A) = i∈A  0 si A = ∅, para todo conjunto A ⊂ Ω.

4

Versi´ on moderna de los axiomas de Kolmogorov

´ de conjuntos). Sea Ω un conjunto no vac´ıo. Decimos Definici´ on 2 ( Algebra que una clase F de subconjuntos de Ω es un ´a lgebra de subconjuntos si a1) Ω ∈ F. a2) Si A ∈ F entonces Ac ∈ F . a3) Propiedad de cerradura. Si A y B son elementos de F, entonces A ∪ B ∈ F. Algunos textos toman la anterior definici´on como campo (field). En estas notas solo usaremos la definici´on que usa Kolmogorov (Definici´on 1) para campo. Definici´ on 3. Sea Ω un conjunto no vac´ıo, l lamado espacio muestral y cuyos elementos ser´ an llamados muestras o eventos elementales. Supongamos que F es un ´ algebra de subconjuntos de Ω, l lamado ´a lgebra de eventos o clase de eventos y cuyos elementos son l lamados eventos. Una funci´ on P definida sobre F es una medida de probabilidad si P1) 0 ≤ P(A) ≤ 1, para todo A ∈ F . P2) P(Ω) = 1. P3) Aditividad finita. Si A y B son dos eventos mutuamente excluyentes, entonces P(A ∪ B) = P(A) + P(B). Las propiedades de un ´a lgebra de conjuntos as´ı como las axiomas P1-P2-P3 tienen una clara interpretaci´on pr´a ctica, de la misma forma que los axiomas originales de Kolmogorov. Lo que debe ser claro es que ambas axiom´a ticas son equivalentes. Para ver esto con mayor certeza, probamos un resultado importante sobre las caracter´ısticas de un ´a lgbra de conjuntos. Proposici´ on 1. Si F es un a´lgebra de subconjuntos de Ω (seg´ un la Definici´on 2), entonces es tambi´ en un campo (seg´ un la Definici´ on 1). Esto es, para cualesquiera dos conjuntos A y B en F , A∩B ∈ F

y

A\B ∈ F.

Inversamente, si la clase F satisface las propiedades de campo (Definici´on 1) y Ω ∈ F, entonces F es un a´lgebra (Definici´ on 2). 9

10

Demostraci´ on. Por la propiedad a2), Ac ∈ F y B c ∈ F, de donde Ac ∪ B c ∈ F en vista de a3). Finalmente, por a2) de nueva cuenta, A ∩ B = (Ac ∪ B c )c ∈ F .

Entonces F es un a´lgebra de subconjuntos de Ω. Sobre F definimos ( 1 si Ac es finito, P(A) = 0 si A es finito.

De aqu´ı es claro tambi´en que A\B = A ∩ B c ∈ F .

Entonces P es una medida de probabilidad sobre F .

Por consiguiente, un ´a lgebra de eventos es tambi´en un campo, Axioma I de Kolmogorov, y por la propiedad (a1) de ´a lgebra, el Axioma II es v´a lido tambi´en. Inversamente, si una clase F satisface los Axiomas I y II, entonces es un a´lgebra. El resto de los axiomas de Kolmogorov son exactamente los axiomas P1-P2-P3 .

Ejemplo 7. Sea Ω un conjunto (como N o R). Sea x ∈ Ω un punto fijo (y arbitrario). Sobre el conjunto potencia P(Ω) definimos ( 1 si x ∈ A, P(A) = 0 si x ∈ / A.

Ejemplo 4. En general, sobre cualquier conjunto Ω, el conjunto potencia P(Ω) es el “m´a s grande” a´lgebra de subconjuntos. Los modelos cl´a sicos y su generalizaci´on en el modelo finito de probabilidad son ejemplos de modelos de probabilidad en donde la medida P est´a defin...


Similar Free PDFs