Estimación Puntual

Estimación puntual

El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…)

Para ello se utiliza la información de la muestra

(x_{1}, x_{2}, \dots, x_{n})

, a través de un estimador.

Algunos estimadores frecuentes son:

Media muestral, para estimar la media teórica de una variable $X$ .

\bar{x} = \frac{x_{1} + \dots + x_{n}}{n}

Proporción muestral, para estimar una proporción $p$ :

\hat{p} = \frac{x_{1} + \dots + x_{n}}{n},

siendo

x_{1}, \dots, x_{n}

una muestra aleatoria simple de la variable

X \in B (1, p)

, es decir, son unos o ceros.

Varianza muestral: para estimar la varianza teórica de una población, se puede usar la varianza de una muestra:

S^{2} = \frac{{(x_{1} - \bar{x})}^{2} + \dots + (x_{n} - \bar{x})^{2}}{n},

y también la llamada

Cuasi-varianza muestral:

S_{n - 1}^{2} = \frac{(x_{1} - \bar{x})^{2} + \dots + (x_{n} - \bar{x})^{2}}{n - 1},

que corresponde a la varianza de la muestra, pero dividiendo por

n - 1

, en lugar de dividir por

n

. En el capítulo de estadística descriptiva, ya comentamos que el R, por defecto, al calcular la desviación típica de una muestra, mediante el comando sd, calcula directamente la cuasi-varianza y luego obtiene la raiz cuadrada.

La evaluación del estimador sobre la muestra fija da lugar a una estimación puntual.

Cálculo de la media muestral tomando la muestra fija

(x_{1}, x_{2}, x_{3}) = (2, 7, 1)

\bar{x} = \frac{2 + 7 + 1}{3} = \frac{10}{3}

7.2.1 Propiedades de los estimadores

Estamos diciendo que un estimador es una aproximación de un parámetro teórico o desconocido de una población. Para estimar la media de la altura de una población, podemos seleccionar una muestra y calcular la media aritmética de la muestra. Ahora bien, también tendría sentido usar como estimador el siguiente:

\frac{m i n (x_{1}, x_{2}, \dots, x_{n}) + m a x (x_{1}, x_{2}, \dots, x_{n})}{2}

¿Cuál de los dos se aproxima más al verdadero valor desconocido? En principio, no habría manera de saberlo, puesto que deberíamos conocer el valor teórico (el desconocido). Por eso, interesa estudiar propiedades de los estimadores, que nos permitan decidir entre usar unos u otros para los casos concretos.

7.2.1.1 Estimadores insesgados

Una primera propiedad deseable para un estimador es que el centro de la distribución de los valores que puede tomar coincida con el valor del parámetro que queremos aproximar.

A esta propiedad se le llama insesgadez. Así, un estimador insesgado es aquel cuya media coincide con el valor del parámetro a estimar.

Veámoslo con un ejemplo para entenderlo mejor: supongamos que deseamos tener una estimación de la estatura media de los hombres mayores de 18 en una población. Podriamos ponernos en medio de la calle y seleccionar aleatoriamente una muestra de

n

hombres, medir su estatura (o preguntársela) y calcular después la media aritmética de los datos obtenidos. Esa sería una estimación puntual; llamémosla

{\bar{x}}_{1}

Figura 7.2: Encuestador y encuestada.

Por medio de R podemos hacer una simulación de este proceso. En vez de bajar a la calle, parar a la gente y preguntarle lo que mide, simulamos cien datos correspondientes a

100

estaturas de varones mayores de

18

. En este caso, tenemos que “simular” que medimos a cien personas, de una población de varones españoles mayores de

18

# Consideremos n =100 personas 
set.seed(1)
n=100 
# asi se simulan n datos que siguen
# una distribución normal de  
# media 177.7  y desviación típica 5.9 :
X1=rnorm(n,177.7,5.9) 
# dibujamos el histograma:
hist(X1, probability = TRUE, col = 'lightblue', 
main="100 estaturas de varones mayores de 18")
# dibujamos los puntos:
rug(X1)
# dibujamos la estimación de la densidad:
lines(density(X1), col="red",lwd=2)

Figura 7.3: Histograma y estimación de la densidad de 100 estaturas.

La media muestral de esos

100

valores es

{\bar{x}}_{1}

= 178.3424.

Si vamos al dia siguiente a la misma calle y seleccionamos aleatoriamente otra muestra del mismo número

n

de personas, medimos su estatura y calculamos la media aritmética, tenemos otra estimación puntual (

{\bar{x}}_{2}

# Otras 100 personas 
n=100
X2=rnorm(n,177.7,5.9)

La media es

{\bar{x}}_{2}

=177.4769.

Obviamente, estos valores

{\bar{x}}_{1}

{\bar{x}}_{2}

no coinciden, y no tienen por qué coincidir. En cada caso, hemos seleccionado

100

personas aleatoriamente, hemos medido su estatura y hemos calculado la media muestral. Los datos no van a ser los mismos, y por lo tanto las medias muestrales tampoco. Cada vez que seleccionemos otra muestra, el estimador media muestral da un valor diferente. Esto es, la media muestral es una variable aleatoria.

Vamos ahora a suponer que realizamos este proceso un número grande

B

de veces; es decir, salimos a la calle, medimos a

100

personas, y calculamos la media muestral; al día siguiente volvemos a hacer lo mismo, y así sucesivamente, haste

B = 250

veces, por ejemplo. Mediante el siguiente procedimiento en R, simulamos este procedimiento y hacemos una gráfica (Figura 7.4) de la distribución de los

250

valores obtenidos.

n=100;B=250
s<-0
for (i in 1:B) s[i]=mean(rnorm(n,177.7,5.9))
hist(s, probability = TRUE, col = 'lightblue', 
main="250 datos de la media")
rug(s)
lines(density(s), col="red",lwd=2)

Figura 7.4: Histograma y estimación de la densidad de las 250 MEDIAS de todas las muestras.

La media de estos

250

valores es 177.7205 que es muy próxima al verdadero valor

177.7

De esta forma, comprobamos que la media (de las diferentes medias) se aproxima al verdadero valor

177.7

. Matemáticamente, se puede demostrar que siempre ocurre así; es decir, que la media muestral es un estimador insesgado.

Buscar este blog

TADA Nº18