4.5.2. Muestras pequeñas: prueba de Kolmogórov-Smirnov para ajuste de una distribución de probabilidades continua hipotética (en hoja de cálculo o con paquete estadístico)


Prueba de Kolmogorov–Smirnov


En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de probabilidad entre sí.
La prueba de Kolmogorov-Smirnov se utiliza para probar la bondad del ajuste de una distribución de frecuencia teórica, es decir, si existe una diferencia significativa entre la distribución de la frecuencia observada y la distribución de frecuencia teórica (esperada).

En un post anterior cubrimos el metodo Chi-Cuadrado. La prueba de K-S es similar a lo que hace la prueba de Chi-Cuadrado, pero la prueba K-S tiene varias ventajas:
  • Pruebas mas potentes.
  • Más fácil de calcular y utilizar, ya que no requiere agrupación de datos.
  • La estadística de prueba es independiente de la distribución de la frecuencia esperada. Sólo depende del tamaño de la muestra n.
LA HIPÓTESIS:
H0: La distribución de frecuencia observada es consistente con la distribución de la frecuencia teórica (Buen ajuste).
H1: La distribución de frecuencia observada no es coherente con la distribución de la frecuencia teórica (Bad ajuste).
α = Nivel de significación de la prueba.

Este procedimiento es un test no paramétrico que permite establecer si dos muestras se ajustan al mismo modelo probabilístico (Varas y  Bois, 1998).
Es un test válido para distribuciones continuas y sirve tanto para muestras grandes como para muestras pequeñas (Pizarro et al, 1986).
Así mismo, Pizarro (1988), hace referencia a que, como parte de la aplicación de este test, es necesario determinar la frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.
El estadístico Kolmogorov-Smirnov,  D, considera la desviación de la función de distribución de probabilidades de la muestra P(x) de la función de probabilidades teórica, escogida Po(x) tal que:
REPORT THIS AD

  Dn = max | P(x) – Po(x) |
La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el valor tabulado Dα para un nivel de significancia (o nivel de probabilidad) requerido. El valor crítico Dα de la prueba se obtiene de la tabla mostrada, en función del nivel de significancia α y el tamaño de la muestra n.
Tabla de valores de Dα en función del nivel de significancia y del tamaño de la muestra:
Picture1.png
El procedimiento a seguir en la aplicación práctica de la prueba de Kolmogorov-Smirnov es el siguiente:
  • Determinar la frecuencia observada acumulada y la frecuencia téorica acumulada, Po(x) y P(x).
  • En cada caso, calcular: Dn = max | P(x) – Po(x) |
    Así, Dn es la máxima diferencia entre la función de distribución acumulada de la muestra y la función de distribución acumulada teórica escogida
  • Fijar un nivel de probabilidad o de significancia α. Los valores de 0.05 y 0.01 son los más usuales.
  • Determinar el valor crítico Dα en la tabla correspondiente.
  • Aplica el criterio de decisión:
    • Si el valor calculado Dn es menor que el Dα, se acepta la hipótesis nula (Ho) que establece que la serie de datos se ajusta a la distribución teórica escogida.
    • Si el valor calculado Dn es mayor que el Dα, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis alternativa (Ha) que establece que la serie de datos no se ajusta a la distribución teórica escogida.

EJEMPLO PRUEBA DE KOLMOGOROV SMIRNOV
Se ha realizado una muestra a 178 municipios al respecto del porcentaje de población activa dedicada a la venta de ordenadores resultando los siguientes valores :
porcentaje
nº de municipios
menos del 5%
18
entre el 5 y 10 %
14
entre 10 y 15%
13
entre 15 y 20%
16
entre 20 y 25 %
18
entre 25 y 30 %
17
entre 30 y 35 %
19
entre 35 y 40 %
24
entre 40 y 45 %
21
mas de 45%
18
Queremos contrastar que el porcentaje de municipios para cada grupo establecido se distribuye uniformemente con un nivel de significación del 5%.
Bajo la hipótesis nula cada grupo debiera de estar compuesto por el 10% de la población dado que existen diez grupos . Así podemos establecer la tabla
grupos     -variable
n0,i
F0(xi)
nt,i=n·P(xi)
F0(xi)
menos del 5%
18
18/178=0,1011
17.8
17.8/178=0,1
0.0011
entre el 5y10 %
14
32/178=0,1798
17.8
35.6/178=02
0,0202
entre 10 y 15%
13
0,2584
17.8
0,3
0,0416
entre 15 y 20%
16
0,3427
17.8
0,4
0,0573
entre 20 y 25 %
18
0,4439
17.8
0,5
0,0561
entre 25 y 30 %
17
0,5393
17.8
0,6

0,0607 max
entre 30 y 35 %
19
0,6461
17.8
0,7
0,0539
entre 35 y 40 %
24
0,7809
17.8
0,8
0,0191
entre 40 y 45 %
21
0,8989
17.8
0,9
0,0011
mas de 45%
18
1
17.8
1
0

Siendo la máxima diferencia =0,0607 y por tanto el estadístico de K-S que compararemos con el establecido en la tabla que será para un nivel de significación de 5% y una muestra de 178 (ir a tabla K-S aqui)   dado que el estadístico es menor (0,0607) que el valor de la tabla  (0,1019) no rechazamos la hipótesis de comportamiento uniforme de los grupos establecidos al respecto de la población activa dedicada a la venta de ordenadores.

Comentarios

Entradas populares