Teorema del límite central
Este teorema (del que damos únicamente una idea general, sin establecer las hipótesis matemáticas reales) establece la importancia de la distribución normal. Su resultado es que, cuando se suma un número grande de variables aleatorias, la variable resultante es una variable con distribución aproximadamente igual a la distribución normal. Incluso, el término
número grande
(porque matemáticamente el teorema se establece cuando tiende a infinito) no lo es tanto, porque, en la práctica, con tener que sea un número mayor o igual a , la aproximación ya proporciona buenas resultados.
Además, el teorema es cierto independientemente de la distribución que sigan las variables que se sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita es saber su media y su varianza.
La proporción muestral de una característica A es el número de veces que dicha característica aparece en una muestra. Por ejemplo, si representa tener una enfermedad cualquiera, es la probabilidad de que una persona tenga la enfermedad.
Si se seleccionan, de manera independiente, personas, tenemos una muestra de individuos de esa población, y la proporción muestral es:En vez de tener una enfermedad, puede representar
estar de acuerdo o no con algo
, tener trabajo o no
, etc (cualquier cosa que admita solo 2 posibilidades complementarias).
Cada vez que consideramos una persona, podemos considerar la variable de Bernoulli =
tiene la enfermedad (o característica) A
. Esta variable toma los valores con probabilidad y con probabilidad .
De esta manera, la proporción muestral que acabamos de definir se puede considerar comodonde es la variable en el individuo ,…, es la variable en el individuo , es decir vale o en cada individuo, según tenga la característica o no la tenga.
De manera que, si es grande, por el teorema central del límite, la variable suma ++…+ se aproximará mediante una distribución normal, de media la suma de las medias (cada variable de Bernoulli tiene de media ) y de desviación típica la raiz cuadrada de la suma de varianzas (y cada variable de Bernoulli tiene de varianza ). En consecuencia, la variable suma verificará:donde y .
Supongamos ahora que lanzamos una moneda. La variable que vale si sale cara y si sale cruz es una variable de Bernoulli. Si lanzamos una moneda, por ejemplo, veces, la variable que mide el número de caras que salen es una suma de variables ( cuenta o si sale cara en el lanzamiento ).
Supongamos que repetimos esta operación veces (cada operación es lanzar la moneda veces). La primera vez pueden salir caras, la segunda , etc. Se supone que el número de caras andará cerca de (es la media, ).
Podemos simular el experimento con R:
y=rbinom(10,200,0.5)
y
## [1] 102 94 98 103 114 109 94 90 109 109
Si en vez de repetirlo veces, lo hacemos , tenemos mil valores de la variable. Dibujamos su histograma:
y=rbinom(1000,200,0.5)
hist(y, col="lightblue")
abline(v=100, col="red")
Como vemos, se parece mucho a la campana de Gauss, con media y desviación típica
Consideremos de nuevo una proporción. Según acabamos de ver, la proporción muestral esy, como la suma de arriba es aproximadamente una distribución normal, de parámetros media y varianza , la proporción muestral también sigue aproximadamente una distribución normal.
Comentarios
Publicar un comentario