Teorema del límite central

Este teorema (del que damos únicamente una idea general, sin establecer las hipótesis matemáticas reales) establece la importancia de la distribución normal. Su resultado es que, cuando se suma un número grande de variables aleatorias, la variable resultante es una variable con distribución aproximadamente igual a la distribución normal. Incluso, el término número grande(porque matemáticamente el teorema se establece cuando n tiende a infinito) no lo es tanto, porque, en la práctica, con tener que n sea un número mayor o igual a 30, la aproximación ya proporciona buenas resultados.
Además, el teorema es cierto independientemente de la distribución que sigan las variables que se sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita es saber su media y su varianza.
La proporción muestral de una característica A es el número de veces que dicha característica A aparece en una muestra. Por ejemplo, si A representa tener una enfermedad cualquiera, p=P(A) es la probabilidad de que una persona tenga la enfermedad.
Si se seleccionan, de manera independiente, n personas, tenemos una muestra de n individuos de esa población, y la proporción muestral es:p^=número de individuos en la muestra con esa enfermedadnEn vez de tener una enfermedad, A puede representar estar de acuerdo o no con algotener trabajo o no, etc (cualquier cosa que admita solo 2 posibilidades complementarias).
Cada vez que consideramos una persona, podemos considerar la variable de Bernoulli X=tiene la enfermedad (o característica) A. Esta variable toma los valores 1 con probabilidad p y 0 con probabilidad 1p.
De esta manera, la proporción muestral que acabamos de definir se puede considerar comop^=X1+X2+...Xnn,donde X1 es la variable X en el individuo 1,…, Xn es la variable X en el individuo n, es decir vale 1 o 0 en cada individuo, según tenga la característica A o no la tenga.
De manera que, si n es grande, por el teorema central del límite, la variable suma X1+X2+…+Xn se aproximará mediante una distribución normal, de media la suma de las medias (cada variable de Bernoulli tiene de media p) y de desviación típica la raiz cuadrada de la suma de varianzas (y cada variable de Bernoulli tiene de varianza p(1p)). En consecuencia, la variable suma Y verificará:Y=X1+X2+...+Xn  N(μ,σ)donde μ=p+p+...+p=np y σ=p(1p)+...+p(1p)=np(1p).
Supongamos ahora que lanzamos una moneda. La variable X que vale 1 si sale cara y 0 si sale cruz es una variable de Bernoulli. Si lanzamos una moneda, por ejemplo, 200 veces, la variable que mide el número de caras que salen es una suma de 200 variables (Xi cuenta 1 o 0 si sale cara en el lanzamiento i).
Supongamos que repetimos esta operación 10 veces (cada operación es lanzar la moneda 200 veces). La primera vez pueden salir 115 caras, la segunda 94, etc. Se supone que el número de caras andará cerca de 100 (es la media, 2000.5).
Podemos simular el experimento con R:
y=rbinom(10,200,0.5)
y 
##  [1] 102  94  98 103 114 109  94  90 109 109
Si en vez de repetirlo 10 veces, lo hacemos 1000, tenemos mil valores de la variable. Dibujamos su histograma:
y=rbinom(1000,200,0.5)
hist(y, col="lightblue")
abline(v=100, col="red")
Como vemos, se parece mucho a la campana de Gauss, con media 100 y desviación típica 2000.50.5=7.071.
Consideremos de nuevo una proporción. Según acabamos de ver, la proporción muestral esp^=X1+X2+...Xnn,y, como la suma de arriba es aproximadamente una distribución normal, de parámetros media np y varianza np(1p), la proporción muestral también sigue aproximadamente una distribución normal.

Comentarios