4.5.1. Estadísticas descriptivas
Elementos de Estadística Descriptiva
Como ya fue explicado la estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica. Estos sistemas de organización y descripción de los datos permiten realizar un análisis de datos univariado, bivariado o trivariado, dependiendo de los objetivos y de la naturaleza de la investigación que se realiza.
Distribución de Frecuencias. Comunmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de investigación.
La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia. Por ejemplo, si se construye una distribución de frecuencias sobre los resultados finales que arrojó la evaluación de un curso de planeación estratégica para estudiantes de administración correspondientes al semestre agosto-diciembre de 1998, se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente:
88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65 posteriormente se registran en una tabla de distribución de frecuencias simple (ver Tabla 4.1). Cuando se pretende “... determinar el número de observaciones que son mayores o menores que determinada cantidad,” (Webster, 1998, p. 27) se utiliza la distribución de frecuencias agrupadas también conocida como distribución de frecuencias acumuladas. La distribución de frecuencias agrupadas es una tabla que contiene las columnas siguientes: intervalo de clase, puntos medios, tabulación frecuencias y frecuencias agrupadas. Los pasos para diseñarla son:
1 Se localizan el computo mas alto y el mas bajo de la serie de datos.
2 Se encuentra la diferencia entre esos dos computos.
3 La diferencia obtenida se divide entre números nones tratando de encontrar un cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la distribución de frecuencias agrupadas y cuál va a ser la magnitud del intervalo de clase.
4 Se determina el primer intervalo de clase y posteriormente se van disminuyendo los límites del intervalo de clase de acuerdo al valor de la magnitud establecida previamente.
El ejemplo planteado en la distribución de frecuencias simples se utilizará tanto para efectos de ejemplificación de la distribución de frecuencias agrupadas como para el diseño de gráficas tipo polígono de frecuencias, histograma y ojiva. En la Figura 4.2 se presenta un ejemplo de una distribución de frecuencias agrupada.
Los computos mayor y menor son las puntuaciones 88 y 65, la diferencia es 88-65=23 y el número de intervalos de clase es 23/3= 7.68.
b) Representación Gráfica. A partir de la distribución de frecuencias se procede a presentar los datos por medio de gráficas. La información puede describirse por medio de gráficos a fin de facilitar la lectura e interpretación de las variables medidas. Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS-PC, Stath Graph, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,
b1) El Histograma. El histograma “... es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión,” (Gutiérrez, 1998, p.79). De acuerdo con Glass y Stanley (1994) un histograma no debe ser demasiado plano o esculpado. El ancho es de dos tercios de su altura. Los pasos para elaborar un histograma son (ver Figura 4.1):
1 Se trazan los ejes horizontal y vertical.
2 Se registran marcas equidistantes sobre ambos ejes.
3 Se marcan los puntos medios de cada intervalo de clase sobre el eje horizontal.
b2) El Polígono de Frecuencias. Un método ampliamente utilizado para mostrar información numérica de forma gráfica es el polígono de frecuencia o gráfica de línea. La construcción es similar a la del histograma pero la diferencia radica en que para indicar la frecuencia solo se utiliza un punto sobre el punto medio de cada intervalo. Los pasos para construirlo son (ver Figura 4.2):
Figura 4.1 Número de Empresas de la Industria Gráfica de
Estados Unidos por Segmento. (EPA, 1997).
Figura 4.2 Resultados de la Aplicación de una Prueba Matemáticas
con 100 ítems al Grupo de 2º. de Ingeniería en Sistemas.
1 Se trazan los ejes horizontal y vertical.
2 Se registran marcas equidistantes sobre el eje horizontal y se anotan debajo de cada una de ellas los puntos medios de los intervalos de clase en un orden de menor a mayor.
3 Se registran marcas equidistantes sobre el eje vertical y se anotan a la izquierda de cada una de ellas las frecuencias en orden ascendentes. A partir de ellas se diseña la cuadrícula del espacio enmarcado, trazando las abscisas y ordenadas.
4 Se representa con puntos las frecuencias de cada intervalo de clase. Se toma en cuenta el punto medio de cada intervalo de clase como base y las frecuencias como altura.
5 Se unen con línea gruesa los puntos así determinados.
6 Se registra el título expresando en resumen el asunto o cuestión sobre la que informa la gráfica.
b3) Gráfica de Series de Tiempo. Es una gráfica de línea en la que la línea horizontal representa el tiempo. Es utilizada para representar tendencias como puede ser el tipo de cambio peso-dólar, el índice de precios al consumidor, etc. (ver Figura 4.3).
los anteriores elementos de estadística descriptiva son utilizados en investigación para diseñar tablas y figuras que presenten de manera resumida y organizada n conjunto de datos obtenidos mediante la observación y medición de las variables estudiadas.
Figura 4.3 Tendencias de Crecimiento de la Industria
Gráfica de Estados Unidos para el periodo 1990-
2000, (EPA, 1997).
c) Medidas de Tendencia Central. Las medidas de tendencia central son útiles para encontrar indicadores representativos de un colectivo de datos. Los tres métodos que permiten obtener el punto medio de una serie de datos son la media, la mediana y la moda.
c1) Media Aritmética. Medida de tendencia central que se define como el promedio o media de un conjunto de observaciones o puntuaciones. En aquellas situaciones en que la población de estudio es pequeña suele utilizarse la media poblacional mediante la expresión:
N
donde:
= media poblacional
Xi = Sumatoria de las puntuaciones
N = Número de casos
En cambio si la población de estudio es muy numerosa se procede a obtener la media muestral definida matemáticamente por la expresión:
N
donde:
X= media muestral
Xi = Sumatoria de las puntuaciones
N = Número de casos
Al obtener la media alcanzada por la compañía XYZ que comercializa computadoras personales. Las ventas diarias realizadas por la compañía durante una semana indican las siguientes cantidades: 4, 12, 7, 9, 11, 7, 8, el cálculo de la media es:
58
7
el anterior resultado sugiere que el promedio semanal de ventas de la compañía XYZ es de 8.29 computadoras personales.
c2) La Moda. En una serie de puntuaciones se denomina moda a la observación que se presenta con mayor frecuencia. Así en el ejemplo anterior de la compañía XYZ la moda es la puntuación 7. Para obtener la moda a partir de una distribución de frecuencias agrupadas se utiliza la expresión:
donde:
Mo = Moda
Lmo = Límite inferior del intervalo de clase modal
Da = Diferencia entre la frecuencia de la clase modal y la de la clase que la
precede.
Db = Diferencia entre la frecuencia de la clase modal y la de la clase que l
la sigue.
i = Intervalo de clase.
La moda para una distribución de frecuencias agrupadas se obtiene a partir de los datos de la Tabla 4.2:
la moda tiene un valor de 86.10.
c3) La Mediana. También conocida como media posicional en virtud de que se localiza en el centro de un conjunto de observaciones presentadas en una serie ordenada de datos. Lo anterior sugiere que el 50 % de los casos se encuentra por encima de la mediana y el resto por debajo de ella. La posición central de la mediana se obtiene mediante la expresión matemática.
N + 1
2
donde:
PMd = Posición de la Mediana
N = Número de casos.
el procedimiento para obtener la mediana a partir de una distribución de
frecuencias simple o agrupada requiere de aplicar la expresión:
donde:
Md = Mediana
N = Número de casos.
FA = Frecuencia agrupada.
FS = Frecuencia del intervalo adyacente superior.
Al aplicar la ecuación 4.5 a los datos de la Tabla 4.2 se obtiene un valor de 83 para la mediana:
De las tres medidas de tendencia central la media es mas exacta que la mediana por ser una estadística obtenida a través de una medición ordinal o de razón mientras que la mediana se obtiene a un nivel de medición nominal.
La principal característica de la media consiste en tomar en cuenta al 100 % de las puntuaciones de una distribución de frecuencias. No obstante cuando se analizan medidas extremas esta medida pudiera ser afectada por desviaciones que se posicionan por debajo o por arriba de ella. Ni la mediana ni la moda tienen este problema (Webster, 1998; Hopkins, Hopkins y Glass 1997; Kazmier, 1998).
a) Medidas de Dispersión.
Las medidas de dispersión son índices que se utilizan para describir una distribución de frecuencias a partir de la variación de los valores obtenidos. Los índices más utilizados son el rango, la varianza y la desviación estándar.
d1) El Rango. Indice conocido como recorrido. Se le define como la diferencia existente entre la puntuación mayor y la menor en una serie de datos. Tiene como desventaja que solo toma en cuenta para su cálculo las puntuaciones extremas, es decir la mayor y la menor omitiendo el resto de los datos u observaciones. Debido a lo anterior no es una medida confiable dado que se obtiene prácticamente por inspección.
d2) La Varianza. La varianza es una medida de variabilidad que toma en cuenta el 100 % de las puntuaciones de manera individual. Webster (1998) la define como “la media aritmética de las desviaciones respecto a la media aritmética elevada al cuadrado,” (p. 83). La definición matemática de la varianza se expresa por medio de la ecuación 4.6:
X2
N
donde:
2 Varianza.
Suma de
X2 Desviación de las puntuaciones de la media (X – X)
N = Número de casos.
d3) La Desviación Estándar. Dada la dificultad inherente de interpretar el significado de una varianza en virtud de que expresa valores elevados al cuadrado, para efectos de investigación es más adecuado utilizar la desviación estándar o desviación típica, definida como la raíz cuadrada de la varianza. La desviación estándar se expresa mediante la ecuación 4.7:
donde:
X2 Suma de los cuadrados de cada puntuación
(X2Suma de las puntuaciones elevadas al cuadrado
N = Número de casos.
La desviación estándar es una medida obtenida mediante una escala de intervalo o de razón basada en la magnitud de las puntuaciones individuales de la distribución (D”Ary, Jacobs y Razavieh, 1982). Es de mucha utilidad en “... en conjunción con la...distribución normal,” (Kazmier, 1998).
e) Correlación.
La correlación es un método estadístico que permite determinar la presencia o ausencia de asociación entre dos variables sometidas a investigación. Por ejemplo se puede medir el grado de asociación entre el rendimiento académico y el nivel socioeconómico de una muestra de unidades de observación. La correlación se describe por medio de índices estadísticos denominados coeficientes de correlación que pueden sugerir si el cambio de una variable se asocia con el cambio de la otra variable.
Los índices mas utilizados para medir la asociación entre dos variables es el coeficiente de correlación producto-momento que se aplica a escalas de medición de intervalo o de razón y el coeficiente de correlación de rangos que se utiliza en escalas de medición ordinal.
Al analizar la correlación de una serie de datos el resultado que arroja un coeficiente de correlación fluctúa entre – 1.00 y + 1.00. Una puntuación de – 1.00 sugiere una correlación negativa perfecta. Una puntuación de 0.00 sugiere ausencia de asociación entre las variables y una puntuación de + 1.00 sugiere una correlación positiva perfecta. Una correlación positiva perfecta indica que si una variable aumenta la otra también aumenta, por ejemplo cabe esperar que si el tipo de cambio peso-dólar aumenta el volumen de exportaciones del sector manufacturero del país también aumenta.
En el caso de una correlación negativa perfecta ocurre el aumento de una variable y el decremento o disminución de la otra variable. Por ejemplo ante el aumento del tipo de cambio peso-dólar cabe esperar una disminución o decremento en el volumen de importaciones del país. Una adecuada técnica para leer e interpretar los valores de correlación son las gráficas de dispersión. La Tabla 4.3 muestra algunos valores de coeficientes de correlación con su respectiva descripción y gráfica de dispersión.
Determinar la existencia de asociación entre las variables no indica existencia de causalidad. Esto es, un coeficiente de correlación únicamente sugiere el grado de relación entre las variables y no una situación causal.
e1) Correlación Producto-Momento. La correlación producto-momento es conocida como r de Pearson en virtud de que el estadístico Karl Pearson desarrollo este procedimiento. Se define como la media de los productos
de las puntuaciones Z y se expresa matemáticamente mediante la ecuación:
donde:
rxy = coeficiente de correlación producto-momento.
ZyZx = Sumatoria de los productos de puntuación Z.
n = Número de casos o puntuaciones pareadas.
en situaciones en las que el conjunto de observaciones es muy numeroso se omite la aplicación de la ecuación 4.8 y es sustituida por la expresión:
donde:
rxy = coeficiente de correlación producto-momento.
n = Número de casos.
Xi = Sumatoria de las puntuaciones de la variable X.
Yi = Sumatoria de las puntuaciones de la variable Y.
XY = Sumatoria de los productos de las puntuaciones apareadas XiYi.
Xi2 = Sumatoria de los cuadrados de las puntuaciones de la variable X.
Yi2 = Sumatoria de los cuadrados de las puntuaciones de la variable Y.
Para ejemplificar el coeficiente de correlación producto-momento se desarrollará el análisis de correlación al volumen de exportaciones del Sector de Servicios de Impresión (SSI) de México en el periodo comprendido entre 1991 y 1995 en relación con el tipo de cambio peso-dólar. El volumen de exportaciones se expresa en millones de dólares. La Tabla 4.4 muestra los datos del ejemplo. Al aplicar la ecuación 4.9 se obtiene:
al calcular el coeficiente de determinación (ver sección 5.3) se obtiene un valor de:
el análisis de correlación arrojó un coeficiente de correlación de – 0.28 para la asociación del valor total de exportaciones con el tipo de cambio peso-dólar, esto indica una débil correlación inversa entre ambas variables, con un coeficiente de determinación de 0.06. Lo anterior sugiere la conclusión lógica de que mientras el volumen de exportaciones se incrementa, el tipo de cambio peso-dólar decrece, sin que lo anterior indique una relación causística, dado que para tal efecto sería necesario un análisis marginal con soporte en algún modelo económico. El análisis de correlación simple es susceptible de someterse a prueba de hipótesis estadística mediante la distribución t con gl = n – 2 (gl = grados de libertad). Para lo anterior se procede a:
a) Establecer la hipótesis nula expresada en términos estadísticos (ver sección 2.2 del capítulo II). La hipótesis es:
b) Determinar el nivel de significancia estadística al que se someterá a contrastación la hipótesis nula y que pudiera ser en nivel de:
c) Calcular la prueba de significancia estadística mediante el
d) estadístico t expresado en la ecuación:
donde:
t = prueba t para prueba de hipótesis de correlación simple
r = coeficiente de correlación
r2 = coeficiente de determinación
n = número de casos
al aplicar la ecuación 4.10 al análisis de correlación anterior se obtiene un valor t calculado de:
el valor t calculado de – 0.90 se compara con el valor t crítico a una significación de = 0.05 consultado en el apéndice A, procediendo previamente a obtener los grados de libertad para la distribución t con la ecuación:
en el problema son cinco casos por lo que gl = 5 – 2 = 3. Con tres grados de libertad el valor t crítico es de 3.182. La regla de decisión es que si el valor t calculado es mayor que el valor t crítico entonces se rechaza la hipótesis de nulidad. En este caso se acepta la hipótesis de nulidad en virtud de que el valor to = - 0.90 tc = 3.182 y se concluye que si existe asociación entre las variables volumen de exportaciones y tipo de cambio peso-dólar.
e2) Coeficiente de Correlación por Rangos. El coeficiente de correlación por rangos conocido como coeficiente de Spearman (rho) se obtiene por medio de la expresión:
donde:
= Coeficiente de correlación por rangos
D2= Sumatoria de los cuadrados de las diferencias entre los rangos.
N = Número de casos.
e3) Coeficiente de Determinación. El coeficiente de determinación (rXY2) se define como el cuadrado del coeficiente de correlación y se utiliza para medir la variación de la variable dependiente (Y) explicada por la variación de la variable independiente (X). Es más adecuado aplicarlo en modelos de regresión
1. La Estadística descriptiva es un importante campo de la Estadística. Su objetivo es, como dice su nombre, describir. Describir la muestra. No pretende ir más allá de la muestra. Se limita a la muestra, a lo que ve.
2. No es una actividad inferencial, no pretende proyectarse más allá de la muestra, no pretende decir cosas de lo que no ve.
3. En las técnicas de comparación y de relación la inferencia, el ir más allá de la muestra sí que será el objetivo básico. En las técnicas de comparación y de relación sí que se tratará de decir cosas poblacionales a través del análisis muestral.
4. La muestra es el punto de partida fundamental de la Estadística, evidentemente. Pero hay dos formas de manejar muestras. Una es ver a la muestra como medio y la otra ver a la muestra como fin.
5. La Estadística descriptiva maneja la noción de muestra como fin. La muestra es aquí la finalidad. La finalidad es calcular descriptores de la muestra, los llamados “estadísticos” (media, mediana, desviación típica, rango, etc).
6. Cada uno de estos descriptores, de estos estadísticos son, pues, cálculos que nos proporcionan perspectivas, miradas, distintas a una muestra.
7. Sin embargo, en la Estadística que compara y que relaciona, la inferencial, la muestra es un medio. Un medio para ir más allá de ella, para hacer afirmaciones sobre poblaciones, para hacer inferencias acerca de lo que no se ve a partir del análisis de lo que se ve.
8. En la Estadística inferencial se pretende, a partir del análisis de toda la información posible extraída a una muestra, tratar de dibujar elementos poblacionales que se desconocen.
9. Al empezar a plantear los conceptos básicos de Estadística descriptiva es, pues, un paso obligado situar la noción de muestra:
10. Una muestra es un subconjunto de una población. Un subconjunto que, por la forma de tomarla, se pretende que sea representativa.
11. Una muestra es representativa cuando representa a la población a estudiar, cuando es lo más próximo a la población en miniatura.
12. Como la población no la tenemos la representatividad la marca el propio procedimiento seguido para obtener la muestra, su objetividad. La representatividad en Estadística es una noción de representatividad procedimental.
13. La representatividad de una muestra sólo la podemos medir valorando si hemos procedido coherentemente. Evidentemente si pudiéramos decir que una muestra es realmente representativa, que realmente es como la población pero en pequeño, es porque sabemos cómo es la población a la que ella representa. Y si la conociéramos, a la población, no estaríamos haciendo Estadística de ella. Esta es una paradoja que hemos de tener siempre presente al hacer cualquier trabajo estadístico.
14. Es básico utilizar toda la información disponible que nos lleve a una mejor miniaturización de la muestra. Si se sabe, por ejemplo, que en la población hay subpoblaciones, con importantes diferencias entre ellas, la muestra se tomará proporcional.
15. Muestreo proporcional: Dos subpoblaciones de 6000 y 4000 personas. Si se toma una muestra de 100 individuos, se tomarán 60 y 40, respectivamente.
16. Si no se tiene ninguna información de la población a estudiar la opción es coger una muestra al azar. Este es, sin embargo, siempre el último recurso.
17. Una vez se tiene la muestra, se le pueden calcular muchos estadísticos diferentes. Vamos a ir viendo ahora diferentes estadísticos, diferentes descriptores, de una muestra.
18. Cada estadístico, cada cálculo, cada descriptor, capta, numéricamente, un aspecto concreto distinto de la muestra. Empezaremos viendo muestras con valores numéricos (variables cuantitativas) y más tarde veremos lo que podemos hacer con muestras sin valores cuantitativos (variables cualitativas o nominales).
19. La media de una muestra es el descriptor más conocido. Se calcula sumando todos sus valores y dividiendo por el tamaño de muestra.
20. La muestra: (0, 4, 6, 10) tiene una media de 5.
21. La mediana es aquel número que, una vez ordenada la muestra de menor a mayor, la separa en dos partes con el mismo número de valores.
22. En la muestra (0, 4, 6, 10) la mediana es 5. El valor real 5 separa la muestra en dos mitades del mismo tamaño.
23. La media y la mediana pueden ser muy distintas. La muestra (0, 1, 3, 16) tiene una media de 5 y una mediana de 2.
24. En la muestra (0, 1, 2, 6, 50) la mediana es 2. El valor 2 separa a la muestra en dos fragmentos del mismo tamaño.
25. Si la muestra es de tamaño impar para calcular la mediana se toma el valor central de la muestra ordenada.
26. Si la muestra es de tamaño par la mediana se calcula ordenando la muestra y calculando la media de los dos valores centrales.
27. Ejemplo: (5, 3, 42, 1, 8, 3, 8). La media es 10. Para calcular la mediana se ordena la muestra: (1, 3, 3, 5, 8, 8, 42). Como es impar se toma el valor central: 5.
28. La mediana es muy usada en medicina. Especialmente al analizar los años de vida después del diagnóstico de un determinado tipo de cáncer.
29. También la mediana es muy usada en economía, al analizar la distribución de la renta de un país.
30. La muestra: (1, 1, 1, 2, 2, 2, 3, 4, 40, 44) podría ser tanto de años de vida después de padecer un cáncer o de rentas anuales en miles de euros.
31. En la muestra anterior la media es 10 y la mediana es 2. El valor de la mediana refleja aquí mejor un valor de centralidad.
32. La media sufre los efectos de valores extremos, los cuales influyen mucho en su magnitud. La mediana es resistente a esos valores.
33. A la mediana también se le denomina Percentil 50, porque es el valor que divide la muestra en dos fragmentos con el 50% de valores.
34. A partir de esta idea puede construirse un Percentil cualquiera entre 0 y 100.
35. El valor que divide la muestra en dos fragmentos, uno del 25% y otro del 75%, se le denomina Percentil 25.
36. El valor que divide la muestra en un fragmento del 75% y otro del 25% (siempre la muestra ordenada de menor a mayor) es el Percentil 75.
37. Muestra: (1, 3, 5, 9). El Percentil 25 es 2. El 2 separa la muestra en el 25% y el 75%. El Percentil 75 es 7. La mediana, o Percentil 50, es 4.
38. Muestra: (1, 3, 4, 4, 4, 6, 8, 8, 8, 10). El Percentil 10 es 2. El 2 separa la muestra en un 10 y en un 90%. El Percentil 60 es 7. El 90 es 9.
39. Muchas veces más que calcular percentiles a un muestra interesa calcular el percentil de un valor dentro de una muestra.
40. El pediatra cuando mide a un niño les da a los padres el percentil del niño, que es la posición relativa del niño entre los de su edad.
41. Si el niño, en cuanto a la altura, tiene el percentil 67 significa que el 67% de niños de su edad son más bajos que él.
42. Muestra: (3, 5, 7, 11, 15). Alguien que tenga un valor de 8 tiene un percentil de 60. El 60% de la muestra son valores inferiores a 8.
43. La moda de una muestra es el valor que se repite como mínimo dos veces y que ningún otro valor se repite tanto.
44. Si ningún valor se repite o si los que se repiten más veces se repiten el mismo número de veces entonces la muestra no tiene moda.
45. Muestra: (1, 2, 2, 3, 4): La moda es 2. Muestra: (1, 2, 3, 6): No hay moda. Muestra: (1, 2, 2, 3, 3): No hay moda. Debe ser única la moda.
46. Es cierto que a muestras como la última del apartado anterior a veces se le llama bimodal. Pero lo más habitual es decir que no hay moda.
47. El rango de una muestra es el máximo menos el mínimo. Muestra: (1, 4, 6, 7, 8). El rango es 7.
48. Al Percentil 25 se le denomina también Primer cuartil. Al Percentil 75, Tercer cuartil.
49. Rango intercuartílico es la diferencia entre el Tercer cuartil y el Primer cuartil.
50. Muestra: (0, 1, 1, 2, 2, 3 ,3, 5). El rango es 5. El rango intercuartílico es 2, porque el Tercer cuartil vale 3 y el Primer cuartil vale 1.
51. El rango es una medida de dispersión, una medida de lo alejados que están los valores de la muestra respecto a la media.
52. El rango como medida de dispersión es pobre, se fija sólo en los valores extremos, no tiene en cuenta al conjunto de la muestra.
53. Veamos dos muestras: (0, 0, 10, 10) y (0, 5, 5, 10). Tienen el mismo rango: 10. Sin embargo, la dispersión de la primera es superior.
54. Necesitamos una medida de dispersión más fina. Uno de los cálculos más importantes de una muestra es la Desviación estándar o Desviación típica.
55. La Desviación estándar (DE) es la medida más fina y la más usada como cuantificación de la dispersión.
56. La DE es la raíz cuadrada del promedio de los cuadradros de las restas de cada valor de la muestra respecto a la media muestral.
57. Esta es la definición de Desviación estándar (DE). A continuación veremos cómo se procede a su cálculo y observaremos cómo este cálculo va reproduciendo la definición pero en orden inverso:
58. Muestra: (0, 5, 5, 10). La media es 5. Las restas de cada valor de la muestra respecto a la media son 0-5=-5, 5-5=0, 5-5=0, 10-5=5. Estas son las desviaciones, respecto a la media, de esta muestra: (-5, 0, 0, 5). Si hiciese la media de estas desviaciones daría 0.
59. Para evitar que la media dé 0 elevamos al cuadrado. En nuestro caso tendríamos: (25, 0, 0, 25). El promedio de estos cuatro valores es 12.5. Este 12.5 es la varianza muestral. La varianza no suele usarse mucho en la práctica. La raíz cuadrada de 12.5 es 3.53. Esta es la DE.
60. Si en lugar de hacer el promedio (dividir por el tamaño de muestra n) de los cuadrados de esas diferencias, dividimos por el tamaño de muestra menos uno (n-1), la DE obtenida se denomina DE corregida. En realidad es la que suele usarse porque tiene mejores propiedades que la DE sin esta corrección.
61. Si se lee, de nuevo, con atención la definición de DE se comprobará que para este cálculo hemos seguido sus pasos.
62. Pero los hemos seguido en orden inverso: primero hemos hecho las restas, luego el cuadrado, luego su promedio (o esta modificación del promedio en la DE corregida) y al final la raíz cuadrada.
63. En la definición de DE el orden es: raíz, promedio, cuadrados, restas. Pero el cálculo es: restas, cuadrados, promedio (o su variante en la DE corregida), raíz.
64. El que se use más la DE que la varianza es porque en la DE al hacerse la raíz cuadrada final volvemos a la escala de nuestros valores.
65. En cambio la varianza, que se queda en el promedio de los cuadrados, es de difícil manejo por el cambio de escala.
66. Cuando tenemos muchos de estos estadísticos, de estos cálculos, de una muestra conocemos mejor cómo se distribuyen sus valores.
67. Si de una muestra tenemos la media, la mediana, diferentes percentiles y la DE sabemos las cosas esenciales de su distribución.
68. De hecho, si sabemos la media y la DE de una muestra, en buena parte sabemos lo esencial de su distribución. Son sus dos descriptores esenciales.
69. Las opciones gráficas también son muy usuales en Estadística descriptiva. Vamos a ver algunas de ellas.
70. Hay un gráfico muy interesante y muy utilizado en Estadística: el Box-Plot. Este gráfico resume muy bien, en poco espacio, unos cuantos estadísticos, unos cuantos descriptores de una muestra.
71. Muestra: (1, 3, 5, 9). El Percentil 25 es 2. El 2 separa la muestra en el 25% y el 75%. El Percentil 75 es 7. La mediana, o Percentil 50, es 4.
72. Los dos extremos del gráfico captan el mínimo (en nuestra muestra: 1) y el máximo (en nuestra muestra: 9) de la muestra. Su resta es el rango (8, en esta muestra). La caja dibujada en el interior empieza en el percentil 25 (en este caso: 2) y acaba en el percentil 75 (en la muestra que nos ocupa: 7). La diferencia entre estos dos valores es el rango intercuartílico (5, en nuestro caso). La línea interior en la caja es la mediana (4, en nuestra muestra). Y el puntito dibujado y resaltado marca la media muestral (en esta muestra es 4.5).
73. Puede comprobarse cómo estos estadísticos calculados a esta muestra se representan bien en el Box-Plot dibujado a continuación:
74. Hay otros gráficos que suelen dibujarse a partir de una muestra. Uno de ellos, muy usual, es el Histograma. Consiste en crear una serie de intervalos en una recta y ver cuántos valores de la muestra caen dentro de cada uno de esos intervalos. Entonces se dibujan rectángulos sobre cada uno de esos intervalos con la base en la propia longitud del intervalo y con una altura tan grande como valores hayan caído en ese intervalo.
75. Otro gráfico de una muestra muy curioso y que es bastante usado, especialmente en Economía y Geografía humana, es la Curva de Lorenz.
76. Se trata de una forma distinta de analizar la dispersión de una muestra. La curva se dibuja en un gráfico de dos dimensiones: en el eje de las abscisas se dibuja el ritmo del acumulado de la cantidad de valores que hay en la muestra y en el eje de las ordenadas el ritmo del acumulado de valores de la variable de la muestra, ordenada ésta previamente de menor a mayor.
77. Para ver cómo es esta curva mejor hacerlo con un ejemplo: Supongamos la muestra: (1, 11, 5, 3). Lo primero que debemos hacer es ordenar la muestra de menor a mayor, quedando entonces: (1, 3, 5, 11).
78. En el eje de las abscisas hemos de ir registrando las cantidades de valores que vamos acumulando en la muestra, en tanto por uno. Con el primer valor tenemos el 25% de los valores muestrales (0.25, en tanto por uno), con el segundo valor tenemos el 50% (0.5, en tanto por uno), con el tercero el 75% (o el 0.75) y, finalmente, con el último valor tenemos ya el 100% (1, en tanto por uno, claro).
79. En el eje de las ordenadas iremos registrando en lugar del tanto por uno de la cantidad de elementos de la muestra, la cantidad acumulada de valor de la variable estudiada. Vemos que la suma de 1, 3, 5 y 11 es 20. Por lo tanto, cuando tengamos el 25% de los primeros valores muestrales; o sea, cuando hayamos acumulado sólo el primer valor, el 1, tendremos acumulado el 5% (0.05, en tanto por uno) de la suma de valores de la variable, porque habremos sumado sólo ese valor de 1, que representa el 5% del total (1 de 20). Cuando tengamos el 50% de valores muestrales habremos acumulado 1+3=4, en cuanto a valores de la variable, que supone un 20% (el 0.2, en tanto por uno) de la cantidad total de la variable (4 de 20). Cuando tengamos el 75% de valores muestrales habremos acumulado 1+3+5=9, en cuanto a valores de la variable, que supone un 45% (0.45, en tanto por uno) de la cantidad total de la variable (9 de 20). Al llegar al 100% de la muestra evidentemente llegamos al 100% (1, en tanto por uno) del total de la variable, por supuesto.
80. Todo esto se expresa, como ya he dicho, tanto en el eje de las abscisas como en el de las ordenadas, en tantos por uno. En el eje de las abscisas se escribe el tanto por uno de cantidad de muestra acumulada y en el de las ordenadas el de la cantidad acumulada de valor de la variable. La curva de Lorenz de esta muestra sería:
81. En la curva de Lorenz suele dibujarse siempre, también, la recta que va del punto (0, 0) al punto (1, 1). Esta sería, en realidad, la hipotética curva de Lorenz que se dibujaría en el caso de que la muestra tuviera todos sus valores iguales; o sea, en el caso de no haber dispersión. En este caso hipotético sería el mismo el ritmo de acumulación de cantidad de valores muestrales y el de acumulación de cantidad de la variable estudiada.
82. Es importante esta curva hipotética porque el área dibujada por esta recta hipotética y la curva de Lorenz de la muestra estudiada, multiplicado por 2, es el famoso Índice de Gini, muy usado en Economía.
83. El Índice de Gini es un valor que va del 0 al 1, que es 0 si todos los valores de la muestra son iguales (si coindice con esa curva hipotética que comentaba antes) y que es 1, el máximo posible, si todos los valores de la muestra son 0 excepto uno. Todo lo acumulado en la variable de la muestra está concentrado en un único valor. En este caso la curva de Lorenz únicamente se levanta al llegar al final de la muestra, se levanta, claro, únicamente al llegar al 100% porque todo está concentrado en el último valor.
84. Como puede verse tanto la curva de Lorenz como el Índice de Gini tienen un uso especialmente dirigido a dibujar y cuantificar aspectos relacionados con la distribución de la renta, de la riqueza, y de aspectos, en definitiva, muy ligados a la Economía. Pero, como casi todo, es perfectamente exportable a otros ámbitos.
85. Hemos visto, pues, que la curva de Lorenz se dibuja con valores en tanto por uno tanto en el eje de las abscisas como en el de las ordenadas y esto es para poder calcular con facilidad el Índice de Gini. Además, en este cálculo hemos visto que se multiplica por 2 el área dibujada por la recta que une el punto (0, 0) y el punto (1, 1) y la curva de Lorenz. Es por este producto por 2 que los valores del índice pueden ir desde el 0 al 1. Pensemos que el área máxima dibujada por la recta y la curva de Lorenz es 0.5 (base 1 multiplicado por altura 1 y dividido por 2).
86. Veamos gráficamente cómo se visualiza el Índice de Gini respecto a la curva de Lorenz:
87. Para acabar, un esquema donde se comparan diferentes muestras. Se trata de muestras muy diferentes entre sí, con muy distinta dispersión. Se ve en él cómo estas muestras quedan representadas por gráficos distintos: Box-Plot y Curva de Lorenz y por descriptores también distintos: Índice de Gini y Desviación estándar.
88. Como puede verse, pues, la Estadística descriptiva consiste en un conjunto de técnicas, de herramientas, que tratan de describir, de resumir, de resaltar aspectos determinados de la disposición de los valores en el interior de una muestra. Aquí va este esquema resumen:
89. Las variables cualitativas o nominales (porque los valores que toma la variable son nombres) tienen poco margen para ser descritas por determinados descriptores. Suele hacerse únicamente un recuento de cada uno de los valores posibles. Este recuento suele hacerse de forma absoluta y de forma relativa; o sea, las veces que aparece en la muestra en total y el porcentaje de veces que aparece en esa muestra.
90. Ejemplo: (hombre, hombre, mujer, mujer, mujer). El valor absoluto de hombre es 2 y el de mujer 3. El valor relativo de hombre es 0.4 ó el 40% y el de mujer es 0.6 ó el 60%. Poco más puede hacerse.
91. El gráfico más usual en variables cualitativas o nominales es el llamado Diagrama de frecuencias. En ocasiones se usa también el llamado Diagrama pastel, donde se observa especialmente el valor relativo puesto que cada valor está representado por una porción del pastel igual al de su valor relativo dentro del conjunto de valores de la muestra.
92. Veamos en el siguiente gráfico un ejemplo de datos posibles de un estudio. Tenemos cuatro variables y 18 individuos. Las cuatro variables son: Sexo, Nacionalidad, Altura y Número de hermanos. Las dos primeras son claramente dos variables cualitativas o nominales. Las otras dos son cuantitativas. Las dos primeras suelen representarse, como puede verse, mediante un Diagrama de frecuencias. La variable Número de hermanos es una variable especial. Es numérica y, por lo tanto, se le puede calcular todo lo que hemos visto para variables cuantitativas: media, desviación estándar, mediana, etc., pero debido a la peculiaridad de tener pocos valores posibles es, digamos, una variables pseudocualitativa y, a veces, este tipo de variables se describen como si fueran cualitativas; o sea, mediante frecuencias absolutas y relativas y mediante Diagramas de frecuencias, como puede verse en el gráfico. Finalmente la variable Altura es una variable que se puede graficar mediante un Box-Plot o mediante un Histograma. Realmente, si se comparan ambos gráficos, puede apreciarse la mayor cantidad de información que porporciona el Box-Plot. El Histograma tiene, además, el problema que dependiendo del número de intervalos que hagamos tendremos formas muy diferentes. Veamos todo esto en el siguiente gráfico:
93. Finalmente, hay dos medidas de una muestra (la Asimetría estandarizada y la Curtosis estandarizada) que suelen usarse únicamente como formas aproximadas de comprobar la normalidad de la muestra de una variable cuantitativa, como lo veremos en el tema siguiente. Basta ahora decir que si el valor de ambos estadísticos está comprendido entre -2 y 2 podemos suponer que la muestra se ajusta suficientemente bien a la distribución normal.
94. La comprobación del ajuste a la normalidad de una muestra de una variable cuantitativa es importante porque si este ajuste es suficiente dando la media y la desviación estándar estamos dando ya una información definitiva para saber aspectos básicos de la distribución de esa variable. Sin embargo, si este ajuste no es bueno, más que usar la media y la desviación estándar será aconsejable usar la mediana y el rango intercuartílico, como veremos en temas sucesivos.
Comentarios
Publicar un comentario