Estimación Puntual
Estimación puntual
El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…)
Para ello se utiliza la información de la muestra , a través de un estimador.
Algunos estimadores frecuentes son:
- Media muestral, para estimar la media teórica de una variable .
- Proporción muestral, para estimar una proporción :
siendo una muestra aleatoria simple de la variable , es decir, son unos o ceros.
- Varianza muestral: para estimar la varianza teórica de una población, se puede usar la varianza de una muestra:
y también la llamada
- Cuasi-varianza muestral:
que corresponde a la varianza de la muestra, pero dividiendo por , en lugar de dividir por . En el capítulo de estadística descriptiva, ya comentamos que el R, por defecto, al calcular la desviación típica de una muestra, mediante el comando
sd
, calcula directamente la cuasi-varianza y luego obtiene la raiz cuadrada.
La evaluación del estimador sobre la muestra fija da lugar a una estimación puntual.
Cálculo de la media muestral tomando la muestra fija .
7.2.1 Propiedades de los estimadores
Estamos diciendo que un estimador es una aproximación de un parámetro teórico o desconocido de una población. Para estimar la media de la altura de una población, podemos seleccionar una muestra y calcular la media aritmética de la muestra. Ahora bien, también tendría sentido usar como estimador el siguiente:¿Cuál de los dos se aproxima más al verdadero valor desconocido? En principio, no habría manera de saberlo, puesto que deberíamos conocer el valor teórico (el desconocido). Por eso, interesa estudiar propiedades de los estimadores, que nos permitan decidir entre usar unos u otros para los casos concretos.
7.2.1.1 Estimadores insesgados
Una primera propiedad deseable para un estimador es que el centro de la distribución de los valores que puede tomar coincida con el valor del parámetro que queremos aproximar.
A esta propiedad se le llama insesgadez. Así, un estimador insesgado es aquel cuya media coincide con el valor del parámetro a estimar.
Veámoslo con un ejemplo para entenderlo mejor: supongamos que deseamos tener una estimación de la estatura media de los hombres mayores de 18 en una población. Podriamos ponernos en medio de la calle y seleccionar aleatoriamente una muestra de hombres, medir su estatura (o preguntársela) y calcular después la media aritmética de los datos obtenidos. Esa sería una estimación puntual; llamémosla .
Por medio de R podemos hacer una simulación de este proceso. En vez de bajar a la calle, parar a la gente y preguntarle lo que mide, simulamos cien datos correspondientes a estaturas de varones mayores de . En este caso, tenemos que “simular” que medimos a cien personas, de una población de varones españoles mayores de .
# Consideremos n =100 personas
set.seed(1)
n=100
# asi se simulan n datos que siguen
# una distribución normal de
# media 177.7 y desviación típica 5.9 :
X1=rnorm(n,177.7,5.9)
# dibujamos el histograma:
hist(X1, probability = TRUE, col = 'lightblue',
main="100 estaturas de varones mayores de 18")
# dibujamos los puntos:
rug(X1)
# dibujamos la estimación de la densidad:
lines(density(X1), col="red",lwd=2)
La media muestral de esos valores es = 178.3424.
Si vamos al dia siguiente a la misma calle y seleccionamos aleatoriamente otra muestra del mismo número de personas, medimos su estatura y calculamos la media aritmética, tenemos otra estimación puntual ().
# Otras 100 personas
n=100
X2=rnorm(n,177.7,5.9)
La media es =177.4769.
Obviamente, estos valores y no coinciden, y no tienen por qué coincidir. En cada caso, hemos seleccionado personas aleatoriamente, hemos medido su estatura y hemos calculado la media muestral. Los datos no van a ser los mismos, y por lo tanto las medias muestrales tampoco. Cada vez que seleccionemos otra muestra, el estimador media muestral da un valor diferente. Esto es, la media muestral es una variable aleatoria.
Vamos ahora a suponer que realizamos este proceso un número grande de veces; es decir, salimos a la calle, medimos a personas, y calculamos la media muestral; al día siguiente volvemos a hacer lo mismo, y así sucesivamente, haste veces, por ejemplo. Mediante el siguiente procedimiento en R, simulamos este procedimiento y hacemos una gráfica (Figura 7.4) de la distribución de los valores obtenidos.
n=100;B=250
s<-0
for (i in 1:B) s[i]=mean(rnorm(n,177.7,5.9))
hist(s, probability = TRUE, col = 'lightblue',
main="250 datos de la media")
rug(s)
lines(density(s), col="red",lwd=2)
La media de estos valores es 177.7205 que es muy próxima al verdadero valor
De esta forma, comprobamos que la media (de las diferentes medias) se aproxima al verdadero valor . Matemáticamente, se puede demostrar que siempre ocurre así; es decir, que la media muestral es un estimador insesgado.
Comentarios
Publicar un comentario