Menú
gratis
Registro
Hogar  /  Enfermedades infantiles/ Intervalo de confianza muestral. Intervalos de confianza

Intervalo de confianza muestral. Intervalos de confianza

De este artículo aprenderás:

    Qué ha pasado intervalo de confianza?

    ¿Cuál es el punto reglas 3 sigma?

    ¿Cómo puedes aplicar este conocimiento en la práctica?

Hoy en día, debido a la sobreabundancia de información asociada a una gran variedad de productos, direcciones de venta, empleados, áreas de actividad, etc., puede ser difícil resaltar lo principal, a lo que, en primer lugar, vale la pena prestar atención y esforzarse en gestionar. Definición intervalo de confianza y análisis de valores reales que van más allá de sus límites, una técnica que te ayudará a resaltar situaciones, influyendo en las tendencias cambiantes. Podrás desarrollar factores positivos y reducir la influencia de los negativos. Esta tecnología se utiliza en muchas empresas mundiales de renombre.

Existen los llamados " alertas", cual informar a los gerentes que el siguiente valor está en una determinada dirección fue más allá intervalo de confianza. ¿Qué quiere decir esto? Esta es una señal de que ha ocurrido algún evento inusual que puede cambiar la tendencia existente en en esta dirección. Esta es una señal a eso para resolverlo en la situación y comprender qué influyó en ella.

Por ejemplo, considere varias situaciones. Calculamos el pronóstico de ventas con límites de pronóstico para 100 artículos para 2011 por mes y las ventas reales en marzo:

  1. Por " Aceite de girasol» superó el límite superior del pronóstico y no cayó en el intervalo de confianza.
  2. Para la “levadura seca” superamos el límite inferior del pronóstico.
  3. Por " Avena"Rompió el límite superior.

Para otros productos, las ventas reales estuvieron dentro de los límites previstos. Aquellos. sus ventas estuvieron dentro de las expectativas. Entonces, identificamos 3 productos que traspasaron las fronteras y comenzamos a descubrir qué los influyó para traspasar las fronteras:

  1. Para el Aceite de Girasol ingresamos a una nueva red de distribución, lo que nos dio un volumen de ventas adicional, lo que nos llevó a superar el límite superior. Para este producto conviene recalcular la previsión hasta final de año, teniendo en cuenta la previsión de ventas de esta red.
  2. Para "levadura seca", el automóvil se quedó atascado en la aduana y hubo escasez en 5 días, lo que afectó la disminución de las ventas y superó el límite inferior. Quizás valga la pena averiguar qué lo causó y tratar de no repetir esta situación.
  3. Se lanzó un evento de promoción de ventas de Gachas de Avena, que generó un aumento significativo en las ventas y llevó a la empresa a superar las expectativas.

Identificamos 3 factores que influyeron en la superación de los límites previstos. Puede haber muchos más en la vida. Para aumentar la precisión de la previsión y la planificación, factores que llevan al hecho de que las ventas reales pueden ir más allá de lo previsto, vale la pena resaltar y elaborar pronósticos y planes para ellos por separado. Y luego considere su impacto en el pronóstico de ventas principal. También puede evaluar periódicamente el impacto de estos factores y mejorar la situación. reduciendo la influencia de los factores negativos y aumentando la influencia de los factores positivos..

Con un intervalo de confianza podemos:

  1. Seleccionar direcciones, a los que vale la pena prestar atención, porque En estas direcciones han ocurrido acontecimientos que pueden afectar cambio de tendencia.
  2. Identificar factores, que realmente influyen en el cambio de situación.
  3. Aceptar decisión informada(por ejemplo, sobre compras, planificación, etc.).

Ahora veamos qué es un intervalo de confianza y cómo calcularlo en Excel usando un ejemplo.

¿Qué es un intervalo de confianza?

El intervalo de confianza son los límites del pronóstico (superior e inferior), dentro de los cuales con una probabilidad dada (sigma) Aparecerán los valores reales.

Aquellos. Calculamos el pronóstico: esta es nuestra pauta principal, pero entendemos que es poco probable que los valores reales sean 100% iguales a nuestro pronóstico. Y surge la pregunta, dentro de qué límites los valores reales pueden caer, si la tendencia actual continúa? Y esta pregunta nos ayudará a responder. cálculo del intervalo de confianza, es decir. - límites superior e inferior del pronóstico.

¿Qué es una probabilidad sigma dada?

Al calcular intervalo de confianza podemos establecer probabilidad golpes valores reales dentro de los límites previstos dados. ¿Cómo hacer esto? Para ello fijamos el valor de sigma y, si sigma es igual a:

    3sigma- entonces, la probabilidad de que el siguiente valor real caiga dentro del intervalo de confianza será del 99,7%, o 300 a 1, o hay una probabilidad del 0,3% de ir más allá de los límites.

    2sigma- entonces, la probabilidad de que el siguiente valor caiga dentro de los límites es ≈ 95,5%, es decir las probabilidades son de aproximadamente 20 a 1, o hay un 4,5% de posibilidades de exagerar.

    1 sigma- entonces la probabilidad es ≈ 68,3%, es decir las probabilidades son aproximadamente de 2 a 1, o hay un 31,7% de posibilidades de que el siguiente valor quede fuera del intervalo de confianza.

Nosotros formulamos regla 3 sigma,que dice que probabilidad de acierto otro valor aleatorio en el intervalo de confianza con un valor dado tres sigma es 99,7%.

El gran matemático ruso Chebyshev demostró el teorema de que existe un 10% de probabilidad de ir más allá de los límites previstos con un valor dado de tres sigma. Aquellos. la probabilidad de caer dentro del intervalo de confianza de 3 sigma será de al menos el 90%, mientras que un intento de calcular el pronóstico y sus límites "a simple vista" está plagado de errores mucho más importantes.

¿Cómo calcular usted mismo un intervalo de confianza en Excel?

Veamos el cálculo del intervalo de confianza en Excel (es decir, los límites superior e inferior del pronóstico) usando un ejemplo. Tenemos una serie de tiempo: ventas mensuales durante 5 años. Ver archivo adjunto.

Para calcular los límites de previsión, calculamos:

  1. Previsión de ventas().
  2. Sigma - desviación estándar modelos de pronóstico a partir de valores reales.
  3. Tres sigma.
  4. Intervalo de confianza.

1. Previsión de ventas.

=(CR[-14] (datos de series de tiempo)-RC[-1] (valor del modelo))^2(al cuadrado)


3. Para cada mes, resumamos los valores de desviación de la etapa 8 Sum((Xi-Ximod)^2), es decir Resumamos enero, febrero... de cada año.

Para hacer esto, use la fórmula =SUMAR.SI()

SUMAR.SI(matriz con números de período dentro del ciclo (para los meses del 1 al 12); enlace al número de período en el ciclo; enlace a una matriz con cuadrados de la diferencia entre los datos de origen y los valores del período)


4. Calcule la desviación estándar para cada período del ciclo del 1 al 12 (etapa 10 en el archivo adjunto).

Para hacer esto, extraemos la raíz del valor calculado en la etapa 9 y la dividimos por el número de períodos en este ciclo menos 1 = SQRT((Sum(Xi-Ximod)^2/(n-1))

Usemos las fórmulas en Excel =ROOT(R8 (enlace a (Suma(Xi-Ximod)^2)/(CONTAR.SI($O$8:$O$67 (enlace a matriz con números de ciclo); O8 (enlace a un número de ciclo específico que contamos en la matriz))-1))

Usando la fórmula de Excel = CONTAR.SI contamos el número n


Habiendo calculado la desviación estándar de los datos reales del modelo de pronóstico, obtuvimos el valor sigma para cada mes - etapa 10 en el archivo adjunto.

3. Calculemos 3 sigma.

En la etapa 11 establecemos el número de sigmas; en nuestro ejemplo, "3" (etapa 11 en el archivo adjunto):

También es conveniente para practicar los valores sigma:

1,64 sigma: 10% de probabilidad de exceder el límite (1 probabilidad entre 10);

1,96 sigma: 5% de posibilidades de traspasar los límites (1 posibilidad entre 20);

2,6 sigma: 1% de probabilidad de traspasar los límites (1 probabilidad entre 100).

5) Calculando tres sigma, para ello multiplicamos los valores “sigma” de cada mes por “3”.

3. Determine el intervalo de confianza.

  1. Límite superior de pronóstico- previsión de ventas teniendo en cuenta el crecimiento y la estacionalidad + (más) 3 sigma;
  2. Límite inferior de pronóstico- previsión de ventas teniendo en cuenta el crecimiento y la estacionalidad – (menos) 3 sigma;

Para facilitar el cálculo del intervalo de confianza para un período prolongado (ver archivo adjunto), utilizaremos la fórmula de Excel =Y8+BUSCARV(W8,$U$8:$V$19,2,0), Dónde

Y8- previsión de ventas;

W8- el número del mes para el cual tomaremos el valor 3 sigma;

Aquellos. Límite superior de pronóstico= “pronóstico de ventas” + “3 sigma” (en el ejemplo, BUSCARV(número de mes; tabla con valores de 3 sigma; columna de la que extraemos el valor de sigma igual al número de mes en la fila correspondiente; 0)).

Límite inferior de pronóstico= “pronóstico de ventas” menos “3 sigma”.

Entonces, calculamos el intervalo de confianza en Excel.

Ahora tenemos un pronóstico y un rango con límites dentro de los cuales caerán los valores reales con una probabilidad sigma determinada.

En este artículo analizamos qué es sigma y regla de tres sigma, cómo determinar el intervalo de confianza y por qué se puede utilizar esta técnica en la práctica.

¡Le deseamos pronósticos precisos y éxito!

Cómo Forecast4AC PRO puede ayudarteal calcular el intervalo de confianza?:

    Forecast4AC PRO calculará automáticamente los límites superiores o inferiores del pronóstico para más de 1000 series temporales simultáneamente;

    La capacidad de analizar los límites del pronóstico en comparación con el pronóstico, la tendencia y las ventas reales en el gráfico con solo presionar una tecla;

En el programa Forcast4AC PRO es posible configurar el valor sigma de 1 a 3.

¡Únase a nosotros!

Descargue aplicaciones gratuitas de previsión y análisis empresarial:


  • Novo Pronóstico Lite- automático cálculo de pronóstico V Sobresalir.
  • 4análisis - Análisis ABC-XYZ y análisis de emisiones Sobresalir.
  • Sentido Qlik De oficina y QlikViewEdición Personal - Sistemas BI para análisis y visualización de datos.

Pruebe las capacidades de las soluciones pagas:

  • Novo Pronóstico PRO- previsión en Excel para grandes conjuntos de datos.

El intervalo de confianza nos llega del campo de la estadística. Se trata de un rango determinado que sirve para estimar un parámetro desconocido con un alto grado de fiabilidad. La forma más sencilla de explicar esto es con un ejemplo.

Supongamos que necesita estudiar alguna variable aleatoria, por ejemplo, la velocidad de respuesta del servidor a una solicitud de un cliente. Cada vez que un usuario escribe la dirección de un sitio web específico, el servidor responde con a diferentes velocidades. Por tanto, el tiempo de respuesta estudiado es aleatorio. Entonces, el intervalo de confianza nos permite determinar los límites de este parámetro, y luego podemos decir que con un 95% de probabilidad el servidor estará en el rango que calculamos.

O necesita saber cuántas personas conocen la marca registrada de la empresa. Cuando se calcula el intervalo de confianza, se puede decir, por ejemplo, que con una probabilidad del 95% la proporción de consumidores conscientes de esto se encuentra en el rango del 27% al 34%.

Estrechamente relacionado con este término está el valor de la probabilidad de confianza. Representa la probabilidad de que el parámetro deseado esté incluido en el intervalo de confianza. El tamaño de nuestro rango deseado depende de este valor. Cuanto mayor sea el valor tomado, más estrecho será el intervalo de confianza y viceversa. Normalmente se establece en 90%, 95% o 99%. El valor 95% es el más popular.

Este indicador también está influenciado por la dispersión de las observaciones y su definición se basa en el supuesto de que la característica en estudio obedece a este enunciado también conocido como Ley de Gauss. Según él, tal distribución de todas las probabilidades de un continuo variable aleatoria, que puede describirse mediante una densidad de probabilidad. Si el supuesto de una distribución normal es incorrecto, entonces la estimación puede ser incorrecta.

Primero, descubramos cómo calcular el intervalo de confianza para Aquí hay dos casos posibles. La dispersión (el grado de dispersión de una variable aleatoria) puede conocerse o no. Si se conoce, entonces nuestro intervalo de confianza se calcula mediante la siguiente fórmula:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - signo,

t - parámetro de la tabla de distribución de Laplace,

σ es la raíz cuadrada de la varianza.

Si se desconoce la varianza, se puede calcular si conocemos todos los valores de la característica deseada. Para ello se utiliza la siguiente fórmula:

σ2 = х2ср - (хср)2, donde

х2ср - valor medio de los cuadrados de la característica estudiada,

(хср)2 es el cuadrado de esta característica.

La fórmula mediante la cual se calcula el intervalo de confianza en este caso cambia ligeramente:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - promedio de la muestra,

α - signo,

t es un parámetro que se encuentra usando la tabla de distribución de Student t = t(ɣ;n-1),

sqrt(n) - raíz cuadrada del tamaño total de la muestra,

s es la raíz cuadrada de la varianza.

Considere este ejemplo. Supongamos que con base en los resultados de 7 mediciones se determina que la característica estudiada es igual a 30 y la varianza muestral es igual a 36. Es necesario encontrar, con una probabilidad del 99%, un intervalo de confianza que contenga la verdadera valor del parámetro medido.

Primero, determinemos a qué es igual t: t = t (0,99; 7-1) = 3,71. Usando la fórmula anterior, obtenemos:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

El intervalo de confianza para la varianza se calcula tanto en el caso de una media conocida como cuando no hay datos sobre la expectativa matemática y solo se conoce el valor de la estimación puntual insesgada de la varianza. No daremos aquí fórmulas para calcularlo, ya que son bastante complejas y, si se desea, siempre se pueden encontrar en Internet.

Solo tengamos en cuenta que es conveniente determinar el intervalo de confianza utilizando Excel o un servicio de red, que se llama así.

Y otros. Todos ellos son estimaciones de sus análogos teóricos, que podrían obtenerse si no se dispusiera de una muestra, sino de una población general. Pero, lamentablemente, la población en general es muy cara y, a menudo, inaccesible.

El concepto de estimación de intervalo.

Cualquier estimación muestral tiene cierta dispersión, porque es una variable aleatoria que depende de los valores de una muestra particular. Por lo tanto, para obtener conclusiones estadísticas más confiables, se debe conocer no solo la estimación puntual, sino también el intervalo, que con una alta probabilidad γ (gamma) cubre el indicador evaluado θ (theta).

Formalmente, estos son dos de esos valores (estadísticas) T 1 (X) Y T2 (X), Qué T 1< T 2 , para lo cual a un nivel de probabilidad dado γ se cumple la condición:

En resumen, es probable γ o más el verdadero indicador está entre los puntos T 1 (X) Y T2 (X), que se denominan límites inferior y superior intervalo de confianza.

Una de las condiciones para construir intervalos de confianza es su máxima estrechez, es decir debe ser lo más corto posible. El deseo es bastante natural, porque... el investigador intenta localizar con mayor precisión la ubicación del parámetro deseado.

De ello se deduce que el intervalo de confianza debe cubrir las probabilidades máximas de la distribución. y la evaluación misma debe estar en el centro.

Es decir, la probabilidad de desviación (del indicador verdadero de la estimación) hacia arriba es igual a la probabilidad de desviación hacia abajo. También cabe señalar que para distribuciones asimétricas, el intervalo de la derecha no es igual al intervalo de la izquierda.

La figura anterior muestra claramente que cuanto mayor es la probabilidad de confianza, más amplio es el intervalo: una relación directa.

Esta fue una breve introducción a la teoría de la estimación de intervalos de parámetros desconocidos. Pasemos a encontrar límites de confianza para expectativa matemática.

Intervalo de confianza para la expectativa matemática

Si los datos originales se distribuyen entre , entonces el promedio será un valor normal. Esto se desprende de la regla de que una combinación lineal de valores normales también tiene una distribución normal. Por tanto, para calcular probabilidades podríamos utilizar el aparato matemático de la ley de distribución normal.

Sin embargo, esto requerirá conocer dos parámetros: expectativa y varianza, que generalmente se desconocen. Por supuesto, puede utilizar estimaciones en lugar de parámetros (media aritmética y ), pero entonces la distribución del promedio no será del todo normal, se aplanará ligeramente hacia abajo. Este hecho fue observado inteligentemente por el ciudadano irlandés William Gosset, que publicó su descubrimiento en el número de marzo de 1908 de la revista Biometrica. Para mantener el secreto, Gosset firmó como Estudiante. Así apareció la distribución t de Student.

Sin embargo, la distribución normal de datos utilizada por K. Gauss al analizar errores en las observaciones astronómicas es extremadamente rara en la vida terrestre y bastante difícil de establecer (se necesitan alrededor de 2 mil observaciones para una alta precisión). Por lo tanto, es mejor descartar el supuesto de normalidad y utilizar métodos que no dependan de la distribución de los datos originales.

Surge la pregunta: ¿cuál es la distribución de la media aritmética si se calcula a partir de datos de una distribución desconocida? La respuesta la da el conocido en teoría de la probabilidad. Teorema del límite central(CPT). Hay varias variantes en matemáticas (las formulaciones se han perfeccionado a lo largo de los años), pero todas, en términos generales, se reducen a la afirmación de que la suma de un gran número de variables aleatorias independientes obedece a una ley de distribución normal.

Al calcular la media aritmética, se utiliza la suma de variables aleatorias. De aquí resulta que la media aritmética tiene una distribución normal, en la que la expectativa es la expectativa de los datos originales y la varianza es .

Las personas inteligentes saben cómo probar CLT, pero lo comprobaremos con la ayuda de un experimento realizado en Excel. Simulemos una muestra de 50 variables aleatorias distribuidas uniformemente (usando la función de Excel RANDBETWEEN). Luego haremos 1000 muestras de este tipo y calcularemos la media aritmética para cada una. Veamos su distribución.

Se puede observar que la distribución del promedio se acerca a la ley normal. Si el tamaño y el número de la muestra aumentan aún más, la similitud será aún mejor.

Ahora que hemos visto con nuestros propios ojos la validez del CLT, podemos, utilizando , calcular intervalos de confianza para la media aritmética, que cubren la media verdadera o expectativa matemática con una probabilidad dada.

Para establecer los límites superior e inferior, es necesario conocer los parámetros de la distribución normal. Como regla general, no hay ninguno, por lo que se utilizan estimaciones: media aritmética Y varianza muestral. Repito, este método da una buena aproximación sólo con muestras grandes. Cuando las muestras son pequeñas, suele recomendarse utilizar la distribución de Student. ¡No lo creas! La distribución de Student para la media ocurre sólo cuando los datos originales tienen una distribución normal, es decir, casi nunca. Por lo tanto, es mejor establecer inmediatamente un límite mínimo para la cantidad de datos requeridos y utilizar métodos asintóticamente correctos. Dicen que 30 observaciones son suficientes. Toma 50: no te equivocarás.

T 1.2– límites inferior y superior del intervalo de confianza

– muestra de media aritmética

s 0– desviación estándar de la muestra (imparcial)

norte – tamaño de la muestra

γ – probabilidad de confianza (normalmente igual a 0,9, 0,95 o 0,99)

c γ =Φ -1 ((1+γ)/2)– el valor inverso de la función de distribución normal estándar. En pocas palabras, este es el número de errores estándar desde la media aritmética hasta el límite inferior o superior (estas tres probabilidades corresponden a valores de 1,64, 1,96 y 2,58).

La esencia de la fórmula es que se toma la media aritmética y luego se aparta una cierta cantidad ( con γ) errores estándar ( s 0 /√n). Todo se sabe, tómalo y considéralo.

Antes del uso generalizado de las computadoras personales, solían obtener los valores de la función de distribución normal y su inversa. Todavía se utilizan hoy en día, pero es más eficaz utilizar fórmulas de Excel ya preparadas. Todos los elementos de la fórmula anterior ( y ) se pueden calcular fácilmente en Excel. Pero existe una fórmula ya preparada para calcular el intervalo de confianza: NORMA DE CONFIANZA. Su sintaxis es la siguiente.

CONFIANZA.NORM(alfa;estándar_apagado;tamaño)

alfa– nivel de significancia o nivel de confianza, que en la notación adoptada anteriormente es igual a 1- γ, es decir la probabilidad de que la matemáticala expectativa estará fuera del intervalo de confianza. Con un nivel de confianza de 0,95, alfa es 0,05, etc.

estándar_apagado– desviación estándar de los datos de la muestra. No es necesario calcular el error estándar; el propio Excel dividirá por la raíz de n.

tamaño– tamaño de la muestra (n).

El resultado de la función NORMA DE CONFIANZA es el segundo término de la fórmula para calcular el intervalo de confianza, es decir medio intervalo En consecuencia, los puntos inferior y superior son el promedio ± el valor obtenido.

Por tanto, es posible construir un algoritmo universal para calcular intervalos de confianza para la media aritmética, que no depende de la distribución de los datos originales. El precio de la universalidad es su naturaleza asintótica, es decir. la necesidad de utilizar muestras relativamente grandes. Sin embargo, en la era de la tecnología moderna, recopilar la cantidad de datos necesaria no suele ser difícil.

Prueba de hipótesis estadísticas utilizando intervalos de confianza.

(módulo 111)

Uno de los principales problemas resueltos en estadística es. Su esencia es brevemente la siguiente. Se supone, por ejemplo, que la expectativa población igual a algún valor. Luego se construye la distribución de medias muestrales que se puede observar para una expectativa dada. A continuación, analizan en qué parte de esta distribución condicional se encuentra el promedio real. Si va más allá de los límites aceptables, entonces la aparición de tal promedio es muy poco probable, y si el experimento se repite una vez, es casi imposible, lo que contradice la hipótesis planteada, que se rechaza con éxito. Si el promedio no supera el nivel crítico, entonces la hipótesis no se rechaza (¡pero tampoco se prueba!).

Entonces, con la ayuda de intervalos de confianza, en nuestro caso de expectativas, también se pueden probar algunas hipótesis. Es muy fácil de hacer. Digamos que la media aritmética para una determinada muestra es igual a 100. Se prueba la hipótesis de que el valor esperado es, digamos, 90. Es decir, si planteamos la pregunta de manera primitiva, suena así: ¿puede ser que con la verdadero valor de la media igual a 90, el promedio observado resultó ser 100?

Para responder a esta pregunta, necesitará además información sobre la desviación estándar y el tamaño de la muestra. Supongamos que la desviación estándar es 30 y el número de observaciones es 64 (para extraer fácilmente la raíz). Entonces el error estándar de la media es 30/8 o 3,75. Para calcular un intervalo de confianza del 95%, deberá sumar dos errores estándar a cada lado de la media (más precisamente, 1,96). El intervalo de confianza será de aproximadamente 100 ± 7,5 o de 92,5 a 107,5.

El razonamiento adicional es el siguiente. Si el valor que se está probando cae dentro del intervalo de confianza, entonces no contradice la hipótesis, porque cae dentro de los límites de fluctuaciones aleatorias (con una probabilidad del 95%). Si el punto que se está verificando queda fuera del intervalo de confianza, entonces la probabilidad de que ocurra tal evento es muy pequeña, en cualquier caso por debajo del nivel aceptable. Esto significa que la hipótesis se rechaza por contradecir los datos observados. En nuestro caso, la hipótesis sobre el valor esperado está fuera del intervalo de confianza (el valor probado de 90 no está incluido en el intervalo 100±7,5), por lo que debe rechazarse. Respondiendo a la pregunta primitiva anterior, cabe decir: no, no puede, en cualquier caso, esto ocurre muy raramente. A menudo, indican la probabilidad específica de rechazar erróneamente la hipótesis (nivel p), y no el nivel específico en el que se construyó el intervalo de confianza, pero hablaremos de eso en otro momento.

Como puede ver, construir un intervalo de confianza para la media (o expectativa matemática) no es difícil. Lo principal es captar la esencia y luego las cosas seguirán adelante. En la práctica, la mayoría de los casos utilizan un intervalo de confianza del 95%, que tiene aproximadamente dos errores estándar de ancho a cada lado de la media.

Eso es todo por ahora. ¡Mis mejores deseos!

Hay dos tipos de estimaciones en estadística: puntuales y de intervalo. Estimación puntual Es una estadística de muestra única que se utiliza para estimar un parámetro de población. Por ejemplo, la media muestral es una estimación puntual de la expectativa matemática de la población y la varianza muestral S 2- estimación puntual de la varianza poblacional s 2. Se ha demostrado que la media muestral es una estimación insesgada de la expectativa matemática de la población. Una media muestral se llama insesgada porque el promedio de todas las medias muestrales (con el mismo tamaño de muestra) norte) es igual a la expectativa matemática de la población general.

Para que la varianza muestral S 2 se convirtió en una estimación insesgada de la varianza poblacional s 2, el denominador de la varianza muestral debe establecerse igual a norte – 1 , no norte. En otras palabras, la varianza poblacional es el promedio de todas las posibles varianzas muestrales.

Al estimar parámetros poblacionales, se debe tener en cuenta que las estadísticas muestrales como , dependen de muestras específicas. Para tener en cuenta este hecho, para obtener estimación de intervalo expectativa matemática de la población general, analizar la distribución de las medias muestrales (para más detalles, ver). El intervalo construido se caracteriza por un cierto nivel de confianza, que representa la probabilidad de que el verdadero parámetro poblacional se estime correctamente. Se pueden utilizar intervalos de confianza similares para estimar la proporción de una característica. r y la principal masa distribuida de la población.

Descarga la nota en formato o, ejemplos en formato

Construir un intervalo de confianza para la expectativa matemática de la población con una desviación estándar conocida

Construir un intervalo de confianza para la proporción de una característica en la población

Esta sección amplía el concepto de intervalo de confianza a datos categóricos. Esto nos permite estimar la proporción de la característica en la población. r usando muestra compartida rS=X/norte. Como se indicó, si las cantidades norter Y norte(1-p) excede el número 5, la distribución binomial se puede aproximar de forma normal. Por lo tanto, para estimar la proporción de una característica en la población r es posible construir un intervalo cuyo nivel de confianza sea igual a (1 – α)x100%.


Dónde pagS- proporción muestral de la característica igual a INCÓGNITA/norte, es decir. número de éxitos dividido por el tamaño de la muestra, r- la proporción de la característica en la población general, z- valor crítico de la distribución normal estandarizada, norte- tamaño de la muestra.

Ejemplo 3. Supongamos que se extrae del sistema de información una muestra compuesta por 100 facturas cumplimentadas durante el último mes. Digamos que 10 de estas facturas fueron compiladas con errores. De este modo, r= 10/100 = 0,1. El nivel de confianza del 95% corresponde al valor crítico Z = 1,96.

Así, la probabilidad de que entre un 4,12% y un 15,88% de las facturas contengan errores es del 95%.

Para un tamaño de muestra dado, el intervalo de confianza que contiene la proporción del rasgo en la población parece más amplio que para una variable aleatoria continua. Esto se debe a que las mediciones de una variable aleatoria continua contienen más información que las mediciones de datos categóricos. En otras palabras, los datos categóricos que toman sólo dos valores no contienen información suficiente para estimar los parámetros de su distribución.

ENcalcular estimaciones extraídas de una población finita

Estimación de la expectativa matemática. Factor de corrección para la población final ( fpc) se utilizó para reducir el error estándar en un factor. Al calcular intervalos de confianza para estimaciones de parámetros poblacionales, se aplica un factor de corrección en situaciones en las que se extraen muestras sin ser devueltas. Por tanto, un intervalo de confianza para la expectativa matemática que tenga un nivel de confianza igual a (1 – α)x100%, se calcula mediante la fórmula:

Ejemplo 4. Para ilustrar el uso del factor de corrección para una población finita, volvamos al problema de calcular el intervalo de confianza para el monto promedio de facturas, discutido anteriormente en el Ejemplo 3. Supongamos que una empresa emite 5000 facturas por mes, y INCÓGNITA=110,27 dólares, S= $28,95, norte = 5000, norte = 100, α = 0,05, t99 = 1,9842. Usando la fórmula (6) obtenemos:

Estimación de la participación de una característica. Al elegir sin retorno, el intervalo de confianza para la proporción del atributo que tiene un nivel de confianza igual a (1 – α)x100%, se calcula mediante la fórmula:

Intervalos de confianza y cuestiones éticas

Al tomar muestras de una población y sacar conclusiones estadísticas, a menudo surgen cuestiones éticas. El principal es cómo coinciden los intervalos de confianza y las estimaciones puntuales de las estadísticas muestrales. Publicar estimaciones puntuales sin especificar los intervalos de confianza asociados (normalmente al nivel de confianza del 95%) y el tamaño de la muestra de la que se derivan puede crear confusión. Esto puede dar al usuario la impresión de que la estimación puntual es exactamente lo que necesita para predecir las propiedades de toda la población. Por lo tanto, es necesario comprender que en cualquier investigación la atención no debe centrarse en estimaciones puntuales, sino en estimaciones de intervalo. Además, se debe prestar especial atención a la correcta selección del tamaño de la muestra.

Muy a menudo, los objetos de manipulación estadística son los resultados de encuestas sociológicas de la población sobre determinadas cuestiones políticas. Al mismo tiempo, los resultados de la encuesta se publican en las portadas de los periódicos, y el error de muestreo y la metodología del análisis estadístico se publican en algún punto intermedio. Para demostrar la validez de las estimaciones puntuales obtenidas, es necesario indicar el tamaño de la muestra a partir de la cual se obtuvieron, los límites del intervalo de confianza y su nivel de significancia.

siguiente nota

Se utilizan materiales del libro Levin et al. – M.: Williams, 2004. – pág. 448–462

Teorema del límite central afirma que con un tamaño de muestra suficientemente grande, la distribución muestral de medias puede aproximarse mediante una distribución normal. Esta propiedad no depende del tipo de distribución de la población.

Estimación de intervalos de confianza

Objetivos de aprendizaje

Las estadísticas consideran lo siguiente dos tareas principales:

    Tenemos algunas estimaciones basadas en datos de muestra y queremos hacer alguna afirmación probabilística sobre dónde se encuentra el valor verdadero del parámetro estimado.

    Tenemos una hipótesis específica que debe probarse utilizando datos de muestra.

En este tema consideramos la primera tarea. Introduzcamos también la definición de intervalo de confianza.

Un intervalo de confianza es un intervalo que se construye alrededor del valor estimado de un parámetro y muestra dónde se ubica el valor real del parámetro estimado con una probabilidad especificada a priori.

Después de estudiar el material sobre este tema, usted:

    aprender qué es un intervalo de confianza para una estimación;

    aprender a clasificar problemas estadísticos;

    dominar la técnica de construcción de intervalos de confianza, tanto mediante fórmulas estadísticas como mediante herramientas informáticas;

    aprender a determinar los tamaños de muestra necesarios para lograr ciertos parámetros de precisión de las estimaciones estadísticas.

Distribuciones de características de la muestra.

distribución T

Como se analizó anteriormente, la distribución de la variable aleatoria se acerca a la distribución normal estandarizada con parámetros 0 y 1. Como no conocemos el valor de σ, lo reemplazamos con alguna estimación de s. La cantidad ya tiene una distribución diferente, es decir, o Distribución de estudiantes, que está determinado por el parámetro n -1 (el número de grados de libertad). Esta distribución está cerca de la distribución normal (cuanto mayor n, más cercanas son las distribuciones).

En la figura. 95
Se presenta la distribución de Student con 30 grados de libertad. Como puede ver, está muy cerca de la distribución normal.

Similar a las funciones para trabajar con la distribución normal NORMIDIST y NORMINV, existen funciones para trabajar con la distribución t: STUDIST (TDIST) y ESTUDRASOBR (TINV). Un ejemplo del uso de estas funciones se puede ver en el archivo STUDRASP.XLS (plantilla y solución) y en la Fig. 96
.

Distribuciones de otras características.

Como ya sabemos, para determinar la precisión de la estimación de la expectativa matemática, necesitamos una distribución t. Para estimar otros parámetros, como la varianza, se requieren diferentes distribuciones. Dos de ellos son la distribución F y x 2 -distribución.

Intervalo de confianza para la media

Intervalo de confianza- este es un intervalo que se construye alrededor del valor estimado del parámetro y muestra dónde se ubica el valor real del parámetro estimado con una probabilidad especificada a priori.

Se produce la construcción de un intervalo de confianza para el valor medio. como sigue:

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para estimar la demanda, el gerente planea seleccionar al azar a 40 visitantes entre aquellos que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la demanda esperada. número de puntos que recibirá el nuevo producto y construya un intervalo de confianza del 95% para esta estimación. ¿Cómo hacer esto? (ver archivo SANDWICH1.XLS (plantilla y solución).

Solución

Para solucionar este problema puedes utilizar . Los resultados se presentan en la Fig. 97
.

Intervalo de confianza para el valor total

A veces, utilizando datos de muestra, es necesario estimar no la expectativa matemática, sino cantidad total valores. Por ejemplo, en una situación con un auditor, la evaluación puede ser de interés no solo tamaño promedio cuentas, sino la suma de todas las cuentas.

Sea N - cantidad total elementos, n es el tamaño de la muestra, T 3 es la suma de los valores de la muestra, T" es la estimación de la suma de toda la población, entonces , y el intervalo de confianza se calcula mediante la fórmula , donde s es la estimación de la desviación estándar de la muestra y es la estimación de la media de la muestra.

Ejemplo

Digamos que una agencia tributaria quiere estimar el total de reembolsos de impuestos para 10.000 contribuyentes. El contribuyente recibe un reembolso o paga impuestos adicionales. Encuentre el intervalo de confianza del 95% para el monto del reembolso, suponiendo un tamaño de muestra de 500 personas (consulte el archivo CANTIDAD DE REEMBOLSO.XLS (plantilla y solución).

Solución

StatPro no tiene un procedimiento especial para este caso, sin embargo, se puede observar que los límites se pueden obtener a partir de los límites del promedio según las fórmulas anteriores (Fig. 98
).

Intervalo de confianza para la proporción

Sea p la expectativa matemática de la proporción de clientes y sea p b la estimación de esta proporción obtenida de una muestra de tamaño n. Se puede demostrar que para tamaños suficientemente grandes la distribución de la evaluación será cercana a la normal con expectativa matemática p y desviación estándar . El error estándar de estimación en este caso se expresa como , y el intervalo de confianza es como .

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para evaluar la demanda, el gerente seleccionó al azar a 40 visitantes entre aquellos que ya lo habían probado y les pidió que calificaran su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la proporción esperada de clientes que califican el nuevo producto con al menos 6 puntos (espera que estos clientes sean los consumidores del nuevo producto).

Solución

Inicialmente, creamos una nueva columna basada en el atributo 1 si la calificación del cliente fue superior a 6 puntos y 0 en caso contrario (ver archivo SANDWICH2.XLS (plantilla y solución).

Método 1

Al contar el número 1, estimamos la proporción y luego usamos las fórmulas.

El valor de zcr se toma de tablas especiales de distribución normal (por ejemplo, 1,96 para un intervalo de confianza del 95%).

Usando este enfoque y datos específicos para construir un intervalo del 95%, obtenemos los siguientes resultados (Fig. 99
). Valor crítico el parámetro z cr es igual a 1,96. El error estándar de la estimación es 0,077. El límite inferior del intervalo de confianza es 0,475. El límite superior del intervalo de confianza es 0,775. Por tanto, el gerente tiene derecho a creer con un 95% de confianza que el porcentaje de clientes que califican el nuevo producto con 6 puntos o más estará entre 47,5 y 77,5.

Método 2

Este problema se puede resolver utilizando herramientas estándar de StatPro. Para ello basta con tener en cuenta que la participación en este caso coincide con el valor medio de la columna Tipo. A continuación aplicamos StatPro/Inferencia estadística/Análisis de una muestra para construir un intervalo de confianza de la media (estimación de la expectativa matemática) para la columna Tipo. Los resultados obtenidos en este caso serán muy cercanos a los resultados del primer método (Fig. 99).

Intervalo de confianza para la desviación estándar

s se utiliza como estimación de la desviación estándar (la fórmula se proporciona en la Sección 1). La función de densidad de la estimación s es la función chi-cuadrado que, al igual que la distribución t, tiene n-1 grados de libertad. Disponible funciones especiales para trabajar con esta distribución CHIDIST y CHIINV.

El intervalo de confianza en este caso ya no será simétrico. En la figura 2 se muestra un diagrama de límites convencional. 100.

Ejemplo

La máquina debe producir piezas con un diámetro de 10 cm. Sin embargo, por diversas circunstancias se producen errores. Al controlador de calidad le preocupan dos circunstancias: en primer lugar, el valor medio debe ser de 10 cm; en segundo lugar, incluso en este caso, si las desviaciones son grandes, se rechazarán muchas piezas. Cada día realiza una muestra de 50 piezas (ver archivo CONTROL DE CALIDAD.XLS (plantilla y solución). ¿Qué conclusiones puede arrojar una muestra así?

Solución

Construyamos intervalos de confianza del 95% para la media y la desviación estándar usando StatPro/Inferencia estadística/Análisis de una muestra(Figura 101
).

A continuación, partiendo del supuesto de una distribución normal de diámetros, calculamos la proporción de productos defectuosos, fijando una desviación máxima de 0,065. Utilizando las capacidades de la tabla de sustitución (el caso de dos parámetros), trazaremos la dependencia de la proporción de defectos del valor promedio y la desviación estándar (Fig. 102).
).

Intervalo de confianza para la diferencia entre dos medias

Este es uno de los más aplicaciones importantes métodos estadísticos. Ejemplos de situaciones.

    El gerente de una tienda de ropa quisiera saber cuánto más o menos gasta en la tienda la clienta promedio que el cliente masculino promedio.

    Las dos aerolíneas vuelan rutas similares. A una organización de consumidores le gustaría comparar la diferencia entre los tiempos promedio esperados de retraso en los vuelos de ambas aerolíneas.

    La empresa envía cupones para determinados tipos de productos en una ciudad y no en otra. Los gerentes quieren comparar los volúmenes promedio de compra de estos productos durante los próximos dos meses.

    Un concesionario de automóviles suele tratar con parejas casadas en sus presentaciones. Para comprender sus reacciones personales ante la presentación, a menudo se entrevista a las parejas por separado. El gerente quiere evaluar la diferencia entre las calificaciones otorgadas por hombres y mujeres.

Caso de muestras independientes

La diferencia entre las medias tendrá una distribución t con n 1 + n 2 - 2 grados de libertad. El intervalo de confianza para μ 1 - μ 2 se expresa mediante la relación:

Este problema se puede resolver no sólo utilizando las fórmulas anteriores, sino también utilizando las herramientas estándar de StatPro. Para ello basta con utilizar

Intervalo de confianza para la diferencia entre proporciones

Sea la expectativa matemática de las acciones. Sean sus estimaciones muestrales, construidas a partir de muestras de tamaño n 1 y n 2, respectivamente. Entonces es una estimación de la diferencia. Por tanto, el intervalo de confianza de esta diferencia se expresa como:

Aquí z cr es un valor obtenido de una distribución normal utilizando tablas especiales (por ejemplo, 1,96 para un intervalo de confianza del 95%).

El error estándar de estimación se expresa en este caso mediante la relación:

.

Ejemplo

La tienda, preparándose para una gran venta, llevó a cabo la siguiente investigación de mercados. Se seleccionaron los 300 compradores principales y se dividieron aleatoriamente en dos grupos de 150 miembros cada uno. Se enviaron invitaciones a todos los clientes seleccionados para participar en la venta, pero sólo los miembros del primer grupo recibieron un cupón que les daba derecho a un descuento del 5%. Durante la venta se registraron las compras de los 300 compradores seleccionados. ¿Cómo puede un gerente interpretar los resultados y emitir un juicio sobre la efectividad de los cupones? (ver archivo CUPONES.XLS (plantilla y solución)).

Solución

Para nuestro caso concreto, de 150 clientes que recibieron un cupón de descuento, 55 realizaron una compra en oferta, y entre los 150 que no recibieron un cupón, solo 35 realizaron una compra (Fig. 103).
). Entonces los valores de las proporciones muestrales son 0,3667 y 0,2333, respectivamente. Y la diferencia muestral entre ellos es igual a 0,1333, respectivamente. Suponiendo un intervalo de confianza del 95%, encontramos en la tabla de distribución normal z cr = 1,96. El cálculo del error estándar de la diferencia muestral es 0,0524. Finalmente encontramos que el límite inferior del intervalo de confianza del 95% es 0.0307 y el límite superior es 0.2359, respectivamente. Los resultados obtenidos se pueden interpretar de tal forma que por cada 100 clientes que recibieron un cupón de descuento, podemos esperar de 3 a 23 nuevos clientes. Sin embargo, debemos tener en cuenta que esta conclusión en sí misma no significa la efectividad del uso de cupones (ya que al ofrecer un descuento, ¡perdemos ganancias!). Demostremos esto con datos específicos. Supongamos que el importe medio de una compra es de 400 rublos, de los cuales 50 rublos. hay una ganancia para la tienda. Entonces, la ganancia esperada de 100 clientes que no recibieron un cupón es:

50 0,2333 100 = 1166,50 frotar.

Cálculos similares para 100 clientes que recibieron un cupón dan:

30 0,3667 100 = 1100,10 frotar.

La disminución del beneficio medio a 30 se explica por el hecho de que, utilizando el descuento, los clientes que recibieron un cupón realizarán en promedio una compra por 380 rublos.

Por tanto, la conclusión final indica la ineficacia del uso de dichos cupones en esta situación particular.

Comentario. Este problema se puede resolver utilizando herramientas estándar de StatPro. Para ello basta con reducir esta tarea al problema de estimar la diferencia entre dos promedios usando el método, y luego aplicar StatPro/Inferencia estadística/Análisis de dos muestras construir un intervalo de confianza para la diferencia entre dos valores promedio.

Controlar la duración del intervalo de confianza

La longitud del intervalo de confianza depende de siguientes condiciones:

    datos directamente (desviación estándar);

    nivel de significancia;

    tamaño de la muestra.

Tamaño de muestra para estimar la media

Primero, consideremos el problema en el caso general. Denotaremos el valor de la mitad de la longitud del intervalo de confianza que se nos dio como B (Fig. 104
). Sabemos que el intervalo de confianza para el valor medio de alguna variable aleatoria X se expresa como , Dónde . Creyendo:

y expresando n, obtenemos .

Desafortunadamente, no conocemos el valor exacto de la varianza de la variable aleatoria X. Además, no conocemos el valor de tcr, ya que depende de n mediante el número de grados de libertad. En esta situación, podemos hacer lo siguiente. En lugar de varianza s, utilizamos alguna estimación de la varianza basada en cualquier implementación disponible de la variable aleatoria bajo estudio. En lugar del valor t cr, utilizamos el valor z cr para la distribución normal. Esto es bastante aceptable, ya que las funciones de densidad de distribución para las distribuciones normal y t son muy cercanas (excepto en el caso de n pequeño). Por tanto, la fórmula requerida toma la forma:

.

Dado que la fórmula proporciona, en general, resultados no enteros, se toma como tamaño de muestra deseado el redondeo con un exceso del resultado.

Ejemplo

El restaurante de comida rápida prevé ampliar su surtido con un nuevo tipo de bocadillo. Para evaluar la demanda, el gerente planea seleccionar al azar un número de visitantes entre aquellos que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar el número esperado de puntos que recibirá el nuevo producto y construya un intervalo de confianza del 95% para esta estimación. Al mismo tiempo, quiere que la mitad del ancho del intervalo de confianza no exceda 0,3. ¿A cuántos visitantes necesita entrevistar?

se ve así:

Aquí pudriciones es una estimación de la proporción p, y B es la mitad dada de la longitud del intervalo de confianza. Se puede obtener una sobreestimación de n utilizando el valor pudriciones= 0,5. En este caso, la longitud del intervalo de confianza no excederá el valor B especificado para cualquier valor verdadero de p.

Ejemplo

Dejemos que el gerente del ejemplo anterior planee estimar la proporción de clientes que prefirieron un nuevo tipo de producto. Quiere construir un intervalo de confianza del 90% cuya longitud media no exceda 0,05. ¿Cuántos clientes deben incluirse en la muestra aleatoria?

Solución

En nuestro caso, el valor de z cr = 1,645. Por lo tanto, la cantidad requerida se calcula como .

Si el gerente tuviera motivos para creer que el valor p deseado era, por ejemplo, aproximadamente 0,3, entonces, al sustituir este valor en la fórmula anterior, obtendríamos un valor de muestra aleatoria más pequeño, es decir, 228.

Fórmula para determinar tamaño de muestra aleatorio en caso de diferencia entre dos medias escrito como:

.

Ejemplo

Alguno empresa de informática cuenta con un centro de atención al cliente. EN últimamente el número de quejas de los clientes sobre mala calidad servicio. El centro de servicios emplea principalmente dos tipos de empleados: aquellos que no tienen mucha experiencia, pero que han completado estudios especializados. cursos preparatorios, y tener una gran experiencia practica, pero no han completado cursos especiales. La empresa quiere analizar las quejas de los clientes sobre últimos seis meses y compare sus números promedio para cada uno de los dos grupos de empleados. Se supone que los números en las muestras de ambos grupos serán los mismos. ¿Cuántos empleados deben incluirse en la muestra para obtener un intervalo del 95% con una longitud media no mayor a 2?

Solución

Aquí σ ots es una estimación de la desviación estándar de ambas variables aleatorias bajo el supuesto de que están cercanas. Por tanto, en nuestro problema necesitamos obtener de alguna manera esta estimación. Esto se puede hacer, por ejemplo, de la siguiente manera. Después de analizar los datos sobre las quejas de los clientes durante los últimos seis meses, un gerente puede notar que cada empleado generalmente recibe de 6 a 36 quejas. Sabiendo que para una distribución normal casi todos los valores no están a más de tres desviaciones estándar de la media, puede creer razonablemente que:

, de donde σ ots = 5.

Sustituyendo este valor en la fórmula, obtenemos .

Fórmula para determinar tamaño de muestra aleatorio en caso de estimar la diferencia entre las proporciones tiene la forma:

Ejemplo

Alguna empresa tiene dos fábricas que producen productos similares. El gerente de una empresa quiere comparar el porcentaje de productos defectuosos en ambas fábricas. Según la información disponible, la tasa de defectos en ambas fábricas oscila entre el 3 y el 5%. Se pretende construir un intervalo de confianza del 99% con una longitud media no superior a 0,005 (o 0,5%). ¿Cuántos productos se deben seleccionar de cada fábrica?

Solución

Aquí p 1ots y p 2ots son estimaciones de dos proporciones desconocidas de defectos en la primera y segunda fábrica. Si ponemos p 1ots = p 2ots = 0,5, entonces obtenemos un valor sobreestimado para n. Pero como en nuestro caso tenemos información a priori sobre estas participaciones, tomamos la estimación superior de estas participaciones, es decir, 0,05. obtenemos

Al estimar algunos parámetros poblacionales a partir de datos de muestra, es útil dar no sólo una estimación puntual del parámetro, sino también proporcionar un intervalo de confianza que muestre dónde puede encontrarse el valor exacto del parámetro que se estima.

En este capítulo, también nos familiarizamos con las relaciones cuantitativas que nos permiten construir dichos intervalos para varios parámetros; aprendieron formas de controlar la longitud del intervalo de confianza.

Tenga en cuenta también que el problema de estimar tamaños de muestra (el problema de planificar un experimento) se puede resolver utilizando herramientas estándar de StatPro, a saber StatPro/Inferencia estadística/Selección del tamaño de la muestra.