ANÁLISIS DESCRIPTIVO DE VARIABLES CUANTITATIVAS

Anuncio
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
ANÁLISIS DESCRIPTIVO
TEMA
DE VARIABLES CUANTITATIVAS
4.1.Introducción
4.2.Propiedades estadísticas de las variables cuantitativas
4.3. Descripción de muestras pequeñas
4.3.1. Herramientas para el análisis gráfico
4.3.2. Herramientas para el análisis numérico
4.4. Descripción de muestras grandes
4.5. Distribuciones de frecuencias de variables cuantitativas
(datos agrupados)
4.6. Propiedades de las distribuciones de variables
cuantitativas en muestras grandes
4.7. Variables discretas
4.7.1.Herramientas para el análisis gráfico
4.7.2.Herramientas para el análisis numérico (estadígrafos)
4.7.2.1. Medidas de posición
4.7.2.2. Medidas de dispersión
4.7.2.3. Medidas de forma: asimetría y curtosis
4.8. Variables continuas
4.8.1. Herramientas para el análisis gráfico
4.8.2. Herramientas para el análisis numérico (estadígrafos)
4.1. INTRODUCCIÓN
Continuando con la descripción estadística de conjuntos de datos empíricos, que se
corresponden con los valores de una variable observada, que generalmente en el caso de una variable
cualitativa se obtienen mediante la observación y que para el caso de una variable cuantitativa surgen
por recuento o medición instrumental de una característica o propiedad (datos univariados) o de dos
(datos bivariados) o más (datos multivariados) en las unidades de análisis que componen una muestra,
este capítulo y el siguiente enfocarán el análisis numérico y gráfico de los datos de naturaleza
cuantitativa.
Se vio la sencillez de la descripción estadística en el caso de las variables cualitativas, tanto a
través de las herramientas gráficas como las numéricas. Contrariamente, la descripción estadística de
las variables cuantitativas, dado que los datos surgen de aplicar los niveles de medición más altos
(escala de intervalo o escala de razones), presenta un mayor grado de dificultad y requiere un
tratamiento previo del significado del concepto “propiedades estadísticas de los datos cuantitativos en
masa” o simplemente de las propiedades estadísticas. Estas propiedades se deben a la naturaleza
aleatoria que presentan los datos empíricos correspondientes a fenómenos que resulta de interés
estudiar en el campo del futuro desempeño profesional, y permiten describir diferentes aspectos que
presentan las distribuciones de frecuencias muestrales para poder comprender el comportamiento
empírico general, y a partir de esto poder desarrollar modelos teóricos explicativos que representan las
leyes generales que rigen la ocurrencia de los hechos naturales, ecológicos, productivos, económicos,
etc.
Lo que antecede justifica plenamente el estudio de las propiedades estadísticas que presentan
las muestras de datos cuantitativos cuando se los analiza en masa. Siguiendo el enfoque ya
presentado, para esto se puede recurrir a herramientas gráficas (visualización: diagramas y gráficos) y
numéricas (cuantificación: medidas descriptivas o estadígrafos), que se elegirán teniendo en cuenta el
tipo de variable y el tamaño muestral.
4.2. PROPIEDADES ESTADÍSTICAS DE LAS VARIABLES CUANTITATIVAS
Los fenómenos que resultan de interés en el campo de las ciencias con pertinencia en las
carreras de la Facultad, presentan una característica común: no tienen un comportamiento constante. Al
registrar datos relacionados resulta que siempre muestran variación y esto lleva a su caracterización
estadística mediante el análisis descriptivo y el análisis inferencial, que se realizan respectivamente, en
una etapa inicial y en una etapa a posteriori. El análisis completo permite establecer leyes, denominadas
39
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
leyes estocásticas o probabilísticas,
probabilísticas que son explicaciones acerca de una clase de hechos posibles (idea
poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares
(realidad particular o muestra). Significa que las leyes
l
que verdaderamente explican los hechos de la
vida real son esquemas objetivos sujetos los procesos existentes que son regulados por ciertas
relaciones constantes, en otras palabras, son formas generales que se descubren y representan la
variación de los procesos reales y sus propiedades.
propie
A esta clase de ley, que rige independientemente de
nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, es
denominada Iey objetiva. Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla
en
n forma racional mediante la forma de una ley científica. La ley científica se construye, tanto mejor
cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir
por completo con la ley objetiva. Sin embargo la gran ventaja de disponer de leyes científicas es que el
hombre puede transformar los efectos de una ley cambiando las condiciones de los procesos afectados.
Las leyes científicas no determinan como ocurren Ios procesos, sino que expresan lo que
ocurrirá en un cierto proceso cuando se cumplan tales y cuales condiciones. En este sentido, las leyes
científicas desempeñan la función de predecir lo desconocido,
desconocido, con base en lo conocido. Es decir que las
leyes científicas sirven como instrumentos
instrumentos de las investigaciones posteriores, y de esta manera,
posibilitan el avance del conocimiento de las ciencias al aportar explicaciones acerca del qué, el dónde,
el cuándo, el cómo y el por qué de Ios procesos existentes. A modo de resumen
resumen, se puede decir que las
funciones de la ley son las propias del conocimiento científico: explicar y predecir el curso de los
fenómenos o hechos que son de interés en el mundo real.
Al desarrollar la unidad de probabilidad e inferencia, se comprenderá el fundamental papel que
tienen los métodos estadísticos en la formulación de las leyes científicas. En este capítulo comenzará a
visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente
al tratarse del estudio descriptivo de
d muestras, no se satisfacerá la condición de generalidad que tienen
las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance
acotado: serán explicaciones válidas para la muestra en cuestión, que solamente servi
servirán
rán de base para
comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a
mediante el enunciado de hipótesis.
hipótesis
Con esta finalidad, se hará una introducción general de las propiedades de la distribución de los
datos, que pueden ser examinadas
examina
en una muestra; ellas son las siguientes
siguientes:
El posicionamiento
La dispersión
La forma
Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser
analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza
cuantitativa, y comience a juzgar frente a cada uno de los casos que ser
serán
án presentados, cuáles
corresponde describir y cuáles no, por el alcance que tienen los datos.
4.2.1. El posicionamiento
La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de
variabilidad general de las masas de datos muestrales,
muestrales, es el posicionamiento. Se ha visto que al
definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación
numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números
naturales (datos de conteo) y reales (datos de medición), asociados respectivamente a variables
discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman
posición los datos en masa de la variable en una escala numérica, que por lo general se representa en
el eje de las abscisas de un sistema cartesiano.
cartesiano Estadísticamente se la cuantifica con los denominados
estadígrafos de posición,, que pueden clasificarse como estadígrafos de centralización y estadígrafos
no centrados.
En
n general los datos de las distribuciones empíricas suelen presentar tendencia a ubicarse a lo
largo del recorrido de la variable, en un mayor o menor grado, en una posición más o menos central
central; una
propiedad de distribución general que se conoce como tendencia
encia central
central,, y en correspondencia se
habla de las medidas
edidas de la tendencia central que en general son las medidas promedios
promedios. Un promedio
se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de
la variable. Además
emás se completa la descripción del posicionamiento general de los datos a través de los
estadígrafos no centrados, que se refieren a la mayoría de los percentiles, cuartiles y deciles
deciles,, y de una
medida que puede resultar centralizada o no, denominada la mediana.
mediana.
4.2.2. La dispersión
La segunda propiedad estadística a analizar con el objetivo de caracterizar el patrón de
variabilidad general de las masas de datos muestrales, es la dispersión. Cualquiera sea el caso, la
descripción estadística de variables cuantitativas debe incluir una medida de la posición y una de
dispersión.
40
Cátedra de Cálculo Es
Estadístico y Biometría – Facultad de Ciencias
ias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
El concepto de dispersión en Estadística, se refiere a que los datos empíricos no varían en forma
caótica, sino a que fluctúan con cierta regularidad con relación a alguna medida de posición tomada
como referencia (generalmente el valor de la media), y por ende
ende, las medidas de dispersión contienen
información acerca del grado en que los datos se aproximan o alejan con respecto a ella
ella,, en otras
palabras si los valores están próximos entre sí o si por el contrario están o muy dispersos.
4.2.3. La forma
Cuando se dispone de muestras grandes, resulta de interés analizar otras dos propiedades en
relación al colectivo de datos, que dan información sobre el aspecto de forma de la distribución, ellas
son: la asimetría y la curtosis.
curtosis Ambas propiedades se miden numéricamente a través de sendas clases
de coeficientes.
s refiere a que los datos se distribuyen de forma similar a
a) Asimetría: la condición de simetría se
derecha e izquierda del punto central.
central Esto
sto es como imaginar un eje perpendicular ubicado en el valor
central y hacer una comparación de la partes laterales, encontrando la mitad izquierda de su
distribución es la imagen especular de su mitad derecha. E
Es decir que hace referencia
ncia a la
característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia
central. Contrariamente la condición de asimetría o sesgo, hace referencia a que los datos tienden a
repartirse de modo diferente, en correspondencia
correspondencia a los valores inferiores al promedio y los valores
superiores a éste. La consecuencia de la falta de simetría es que afecta la inferenci
inferencia
a con respecto al
valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo
tanto.
Las posibilidades que pueden presentarse con relación a la propiedad de asimetría son:
Caso de distribución asimétrica positiva; cuando la distribución se extiende marcadamente
hacia el lado de valores que se encuentran por encima del valor central por la existencia de
unidades de análisis con valores que se posicionan en la parte muy alta de la escala (cola
derecha pesada)),
Caso de distribución simétrica:
sim
cuando se distribuyen aproximadamente la misma cantidad de
valores en ambos lados del
de valor central
Caso de distribución asimétrica negativa: cuando la distribución se extiende marcadamente
hacia el lado de valores que se encuentran por debajo del valor central por existencia de
unidades de análisis con valores que se posicionan en la parte muy baja de la escala (cola
izquierda pesada),
pesada
Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de
frecuencias del rendimiento por planta (kg) resulte con sesgo positivo,, puesto que la mayoría de
los de los frutales producirán poca fruta y unos pocos darán mucha
mucha.. Si por el contrario el monte
es bien conducido, se puede esperar una distribución del rendimiento con sesgo negativo,
vo, dado
que la mayoría de las plantas producirían
produci
mucha fruta y unas pocas darán bajo
o rendimiento.
rendimiento Si
el monte presenta una situación normal en la conducción, lo más probable es que la distribución
resulte simétrica.
b) Curtosis: el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que
significa convexo, y que comenzó
omenzó a utilizarse en el contexto de la matemática significando
“curvatura”. La
a propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el
grado de apuntalamiento que posee una distribución de frecuencias en su parte central, y, 2) las
colas, o partes extremas de la distribución,
distribuci
en cuanto a si se extienden hacia valores alejados del
central o no. La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las
medidas de dispersión.
Las posibilidades que pueden
pueden presentarse con relación a la propiedad de curtosis se establecen
tomando como referencia una distribución que gráficamente posee una forma campanular armónica:
Caso de distribución leptocúrtica; cuando la distribución muestra gran alzada o un aspecto
puntiagudo en el entorno al valor central y además posee colas estiradas,, esto es, la
distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se
encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por
encima del mismo. En general el gráfico de la distribución ttiene una forma estilizada.
Caso de distribución mesocúrtica: cuando se distribuyen aproximadamente la misma cantidad
de valores en ambos lados del
de valor central
Caso de distribución platicúrtica: cuando la distribución muestra un aspecto aplastado o de
meseta en el entorno al valor central y además posee colas cortas, esto es, la distribución de
los datos se extiende poco tanto hacia el lado de valores que se encuentran muy por debajo del
valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el
gráfico de la distribución tomará una forma estilizada
La descripción estadística de las distribuciones de frecuencias, a través de las propiedades del
colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del
comportamiento de las variables en el contexto poblacional, el cual se aprenderá a expresar utilizando
leyes probabilísticas o estocásticas que sirven para dar sustento a las leyes científicas.
41
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4.3. DESCRIPCIÓN MUESTRAS PEQUEÑAS (UNIVARIADAS)
A diferencia de los datos categóricos respecto a los cuales siempre se dispone de una muestra
grande, se ha visto que en el caso de los datos cuantitativos se pueden presentar dos situaciones: el
caso de muestras pequeñas y el caso de muestras grandes, y en cada caso corresponderá realizar la
descripción que corresponda, recordando lo expuesto al inicio de este capítulo, para caracterizar el
patrón de variabilidad que posee la variable en estudio.
Propiedades estadísticas a describir en:
muestras pequeñas de datos cuantitativos
Tamaño
Propiedades
Posicionamiento (tendencia central y otra)
Dispersión
Pequeño
4.3.1. Herramientas para el análisis gráfico
4.3.1.1. Presentación tabulares
En el caso de muestras pequeñas este tipo de descripción no es utilizada. La organización de los
datos solo puede arrojar una distribución simple.
4.3.1.2. Representación gráfica
4.3.1.2.1. Diagrama de puntos o puntigrama.
Un diagrama elemental que resulta muy útil para visualizar global e individualmente un conjunto
pequeño de datos, o razonablemente pequeño con pocos datos diferentes, es el diagrama de puntos, o
puntigrama. Se trata de un tipo de graficación que es muy utilizada en el análisis exploratorio de datos.
Definición 4.1.
El diagrama de puntos, consiste sencillamente, en representar los valores observados de la
variable en estudio como puntos sobre un eje horizontal.
Construcción: cada dato se representa con un punto encima de la correspondiente localización en una
escala horizontal de medida. Cuando existen valores repetidos, se dibuja un punto por cada ocurrencia
en formato vertical.
Interpretación: se deberá analizar donde se produce la mayor concentración de datos (tendencia) y la
dispersión que presenta la muestra. Esto último significa identificar si el patrón de variación es más o
menos regular o no, identificar los valores extremos y detectar datos atípicos, que son datos que tienen
la particularidad de tomar valores muy alejados (numéricamente distantes) del grupo general de datos
Esto es importante porque las medidas estadísticas derivadas de conjuntos de datos que incluyen
valores atípicos suelen arrojar información engañosa.
De la bibliografía se han extraído datos que corresponden a residuos de cloro (ppm) en un
depósito de agua de lluvia después de haber sido tratada para su potabilización: 1,8-0,9-1,2-1,4-1,5-1,41,7-1,1-1,2. Los datos se muestran en el gráfico 4.1, que corresponde a un diagrama de puntos. En él se
pueden analizar con rapidez y facilidad las principales características de los datos muestrales, esto es su
posicionamiento en la recta de los números reales y además, se puede observar cuál es la tendencia
central y la variabilidad que presentan.
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6 1,7 1,8 1,9
Residuos de Cloro (ppm)
Gráfico 4.1: Diagrama de puntos para residuos de cloro en tratamientos de un depósito de agua
Por ejemplo, se nota que la parte media de los datos se encuentra entre 1,2 y 1,4, aunque más
cerca de 1,4 ppm. También se observa que los valores mínimo y máximo han sido, respectivamente, 0,9
y 1,8, por lo tanto la amplitud de los valores es de 0,9 ppm (1,8-0,9).
A menudo se puede presentar la necesidad de comparar dos o más conjuntos pequeños de
datos, como ocurre en el campo de la experimentación donde se trabaja con muestras pequeñas. Por
ejemplo, se ha realizado un experimento para comprobar si la aplicación de tratamiento fitosanitario para
prevenir ataque de peronóspora en vid tiene un efecto fitotóxico, que se traduce en una disminución de
la expresión vegetativa. Para esto al momento de la poda, se pesa el material eliminado en diez plantas
sin tratar (testigo) y en diez tratadas, que se seleccionan, en ambos casos, al azar. Los resultados
obtenidos, en kg/planta, son:
42
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Testigo
17,50 - 17,63 - 18,25 - 18,00 - 17,86 - 17,75 - 18,22 - 17,90 – 17,96 –17,80
Tratada
16,85 - 16,40 - 17,21 - 16,35 - 16,52 - 17,04 - 16,96 - 17,15 – 16,59 – 16,10
El diagrama de puntos del gráfico 4.2 muestra los dos conjuntos de mediciones, donde los
asteriscos corresponden a las plantas tratadas y los puntos a las plantas testigo. Nótese que
rápidamente el diagrama de puntos revela que las plantas tratadas han producido menos material de
poda, y puede esperarse que el valor medio se encuentre más o menos centrado, mientras que en el
caso de las plantas testigo, este valor estaría un poco desplazado hacia la izquierda. Continuando con el
análisis comparativo, se puede ver que además los resultados han sido más variables en el caso de las
plantas tratadas.
16,00
16,50
17,00
17,50
18,00
18,50
Kg/pl
Gráfico 4.2: Diagrama de puntos para producción de material de poda (kg/pl),
en vides tratadas (♦) y no tratadas (•)
No obstante, cabe aclarar que cuanto más pequeño sea el número de datos, más difícil se puede
hacer la tarea de identificar patrones de variación específicos a través de estos diagramas. También
resulta claro ver, que no son representaciones adecuadas para conjuntos numerosos de datos.
4.3.1.2.2. Diagrama de tallo-hoja
El diagrama de tallo y hoja es una buena manera de hacer una descripción gráfica de conjuntos
de datos que no son demasiado pequeños y que además están formados por al menos dos dígitos.
Definición 4.2
El diagrama de tallo-hoja, consiste en representar los valores observados de la variable en diferentes
renglones y en relación a una línea vertical, de tal modo que: a la izquierda de la misma se colocan
los primeros dígitos o dígitos principales, constituyendo el tallo y, a la derecha, en correspondencia se
ubica ordenadamente de menor a mayor el último dígito de cada número, de tal modo que cada uno de
ellos se considera como una hoja.
Para construir un diagrama de tallo y hoja (del inglés, Stem-and-Leaf Diagram), supóngase que
los datos de la variable están formados por dos dígitos (12-18-12-15-26-27-30-30-39), luego solo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de los primeros
dígitos (que formarán el tallo), esto es:
Tallo
1
2
3
Hoja
2258
67
009
El gráfico es doblemente informativo: no se pierden los datos brutos y, además muestra el perfil como
se distribuyen en general los datos es decir, permite tomar una idea acerca del patrón de variabilidad de
la variable. A continuación se dan algunos ejemplos ilustrativos:
a) Horarios de llegada de los trenes que cubren el trayecto entre dos ciudades
Tabla de datos ordenados
5.03
6.02
6.18
6.37
6.48
6.55
7.02
7.07
7.20
7.25
22.3
7.32
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51
9.02 11.07 13.32 15.07 16.50 18.32 20.07
9.07 11.32 13.37 15.20 17.02 18.37 20.20
9.24 11.37 13.50 15.32 17.07 18.50 20.32
9.32 12.02 14.02 15.37 17.20 19.02 20.37
9.37 12.07 14.07 15.50 17.32 19.07 20.50
10.02 12.32 14.20 16.02 17.37 19.20 21.02
10.07 12.37 14.32 16.07 17.50 19.32 21.07
10.32 13.02 14.37 16.20 18.02 19.37 21.20
10.37 13.07 14.50 16.32 18.07 19.50 21.32
11.02 13.20 15.02 16.37 18.20 20.02 21.37
43
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Diagrama de tallo y hoja
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32
08 | 02 05 20 24 32
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37
14 | 02 07 20 32 37
15 | 02 07 20 32 37
16 | 02 07 20 32 37
17 | 02 07 20 32 37
18 | 02 07 20 32 37
19 | 02 07 20 32 37
20 | 02 07 20 32 37
21 | 02 07 20 32 37
22 | 38
37 50
37 51
50
50
50
50
50
50
50
50
En el diagrama de tallo y hoja, está representada la hora a la izquierda de la barra de separación |
y los minutos a la derecha. Se desprende que la cantidad de trenes en las diferentes horas está
reflejada por la longitud de las filas y además, es muy fácil ver que hay coincidencia en los minutos de
cada hora en que pasan.
b) Muestra de 25 observaciones del rendimiento de un proceso químico, que genera un precipitado
cuyo peso es medido, en mg. En el diagrama (a) se observa que los valores extremos han sido 61 y
95 mg, así como que los rendimientos más comunes estuvieron entre 70 y 80 mg; en tanto, en el
diagrama (b) se puede captar mejor la información contenida en los datos observados porque los
valores correspondientes a cada decena se dividen en dos partes, L (del ingl. lower) indica el renglón
donde los valores del último dígito son menores a 5, y U (del ingl. upper) indica el renglón con los
valores igual o superior a 5.
Tallo
Hoja
Tallo
Hoja
6
7
8
9
134556
011357889
1344788
235
6L
6U
7L
7U
8L
8U
9L
9U
134
556
0113
57889
1344
788
23
5
(a)
(b)
Hasta aquí hemos visto que la decisión de recopilar datos, que sean relevantes y
conformen una muestra aleatoria, es sólo el comienzo indispensable para empezar a desentrañar una
situación problema de interés. También ya conocemos que cuando las muestras son pequeñas (n≤ 30),
en la mayoría de los casos, se trabaja directamente con los datos tal cual fueron recolectados, tanto
para su representación gráfica como para el cálculo de las medidas descriptivas. Se describe el patrón
de datos, a partir de la obtención de una distribución simple o distribución de datos no agrupados.
Contrariamente, cuando las muestras grandes, los datos brutos o datos sin procesar no resultan de
mucha utilidad, hay que darles una forma comprensible que ponga en evidencia el patrón de
comportamiento que tiene la variable considerada. Para esto, se requiere un tratamiento previo a su
análisis, que en términos generales hemos llamado organización de los datos, y que muchas veces
consiste en someterlos a un ordenamiento y clasificación. Luego, el patrón de datos, se describe a partir
de la obtención de distribución de datos agrupados.
4.3.2. Análisis numérico
Se vio que cuando las variables son cualitativas, la descripción numérica prácticamente se
limita al concepto de frecuencias o proporciones. Si las variables son cuantitativas el espectro se
amplía, de acuerdo a lo siguiente:
44
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Medidas para describir muestras pequeñas
Medidas
Propiedades
Media aritmética, ̅
Media geométrica, ̅
Mediana (*), ̅
Cuartiles, qi
Deciles, di
Cuantiles
Percentiles, pi
Amplitud o recorrido, Varianza, Desviación típica, Tendencia
central
Posicionamiento
Otras
Dispersión
Absolutas
(*) q2 = ̅
Coeficiente de variación, (%)
Relativas
4.3.2.1. Medidas de posicionamiento: Promedios
4.3.2.1.1. Media aritmética
La media aritmética, y desde ahora simplemente la media, es la medida de posición más
utilizada. Pertenece al grupo de estadígrafos conocido como promedios, y es por excelencia el promedio
pero como se verá no en exclusividad, razón por la cual se aconseja no utilizar el término “promedio”
como sinónimo de media. Se la denota con el símbolo x , y su valor se obtiene matemáticamente a
través de una suma y un cociente
x=
x 1 + x 2 + ... + x n −1 + x n
, donde el numerador x1,x2, ..., xn-1, xn, representa la
n
suma de las n observaciones muestrales.
Esta expresión constituye la fórmula explícita o expandida de la media. Comúnmente se utiliza una
fórmula abreviada que emplea el operador suma, representado con el símbolo griego sigma mayúscula
Σ, acompañado de:
a) un subíndice que individualiza los términos que deben sumarse. A saber i=1 expresa que se
suma desde el primer valor de la variable x, esto es ∑ b) un superíndice que indica el último sumando representado genéricamente por n, esto es ∑ ∑
Así por ejemplo para una muestra de n=10, la fórmula aplicada de la media resultará ̅ = 10.
Definición 4.3
), de un conjunto de n datos es igual a la suma, desde la i-ésima
“La media aritmética muestral (
observación de la variable estadística x hasta la n-ésima, divida por el tamaño muestral n”
n
∑x
x=
i
i=1
n
La media como medida de posición, tiene una importante interpretación física: si cada
observación se piensa como una unidad de masa colocada sobre el filo de una fina cuchilla (que
representa el recorrido de la variable), y que se coloca un punto de apoyo exactamente en el valor de la
media, resultará que el sistema de masas queda perfectamente equilibrado, de ahí la consideración de
la media como un punto de equilibrio (el peso de las masas a la izquierda de la media iguala al peso de
las posicionadas a su derecha). El concepto se ilustra en el gráfico 4.3.
º ºº
16.0
º ºº º º
16.5
17.0
17.5
18.0
kg/planta
x = 16.717 kg/planta
Gráfico 4.3: La media muestral como punto de quilibrio de un sistema de pesos.
Al interpretar la información gráfica, deberá prestarse atención a lo siguiente:
1º) la media es un valor calculado de la variable
2º) la media tiene la misma unidad de medida que los datos originales.
45
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
3º) la media se ha expresado con un decimal más del que tenían los datos originales
A continuación se presentará formalmente la media poblacional, µ. Análogamente a lo visto
para la media muestral, la fórmula de la media poblacional indica que es el promedio aritmético de todas
las N observaciones de una población1.
Definición 4.4: Se lee ¨La media aritmética poblacional (µ), de un conjunto de N datos es igual a la
suma, desde la i-ésima observación de la variable X, hasta la N-ésima, divida por el tamaño
poblacional N¨
N
µ=
∑x
i
i=1
N
Propiedades de la media
Propiedad 1. La suma de los desvíos de los valores de la variable x, con respecto a la media, para
el conjunto de n obsercaciones es igual a cero.
n
∑(x
i
− x) = 0
i =1
Significa que la suma de desvíos negativos (xi <
x ) es igual a la suma de los desvíos positivos
(xi > x ). Esto explica de otra forma, por qué la media se interpreta físicamente como un punto de
equilibrio.
Propiedad 2. La suma del cuadrado de los desvíos de la variable x, con respecto a la media, para el
conjunto de n observaciones es un valor mínimo.
n
∑ (x
i
− x ) 2 = mínimo
i =1
Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las
medias de cada variable
(x + y + z ) = x + y + z
Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c,
la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos
originales
cx1 + cx2 + ... + cxn = c.x
Propiedad 5. La media conjunta, x c , de dos series simples está dada por:
x +x
si la cantidad de datos es igual (n1 = n2)
xc = 1 2
2
x1 n1 + x 2 n2
si los conjuntos tienen diferente tamaño (n1 ≠ n2)
xc =
n1 + n 2
Nótese que se trata de una media ponderada. En el primer caso, no se observa la ponderación en la
fórmula porque al ser idénticos los tamaños muestrales (n1 = n2) ambas medias tienen idéntico peso
(ponderación unitaria). En el segundo las medias se deben multiplicar por los correspondientes
tamaños muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente
cantidad de información. El caso anterior es sólo una situación particular del caso general para k series,
donde la media de medias o media general, x g , para series de igual tamaño está dad por:
xg =
•
x1 + x 2 + .... + x k
k
La media es un valor de variable y por tanto debe expresarse numéricamente,
acompañada con las mismas unidades que tiene la variable.
• El valor de la media no es un valor de variable observado.
4.3.2.1.2. Mediana
Otra medida de posición bastante utilizada es la mediana, denotada con ̅ . Este estadígrafo
posee un nombre que hace referencia a una posición media bajo ordenamiento, relacionada con igual
cantidad de datos a su izquierda ( < ̅ ) y a su derecha ( > ̅ ).
Para la definición formal de la mediana, y por ende para su cálculo, hay que considerar si la
serie de datos es par o impar:
1
En las situaciones prácticas resultará imposible (o poco práctico o poco económico) examinar las N unidades que componen
una población, por lo tanto el valor verdadero de la media en la práctica nunca será conocido. Al desarrollar la unidad de
probabilidad, se estudiarán modelos para representar poblaciones finitas e infinitas y se introducirá el concepto de variable
aleatoria y el de “esperanza matemática” , como el concepto relacionado con la media poblacional. En la unidad de inferencia
estadística se darán métodos para poder inferir o estimar la media poblacional, a partir del conocimiento de la ̅ .
46
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
a) La mediana de una serie simple que tiene un número impar de observaciones, en un arreglo
ordenado por magnitud, toma el valor de la observación que ocupa la posición central.
b) La mediana de una serie simple que tiene un número par de observaciones, en un arreglo ordenado
por magnitud, toma el valor que corresponde a la media de las dos observaciones centrales
En consecuencia, se requieren dos definiciones formales de la mediana, según la muestra tenga
un tamaño impar, definición 4.3, o bien par, definición 4.4.
= Definición 4.5: Cuando el tamaño de la muestra es impar,
la mediana toma el valor numérico que corresponde a la observación
que ocupa la posición (n+1)/2, en una serie ordenada por magnitud.
Definición 4.4: Cuando el tamaño de la muestra es par
!" + !"
la mediana, toma el valor de la semisuma de los valores que
corresponden a las dos observaciones centrales, en una serie
=
ordenada por magnitud
A continuación se ilustrarán estos conceptos:
Muestra con n impar :
Sea la serie de datos ordenados (n=5)
500
donde las observaciones ocupan el orden
1º
570
590
600
690
2º
3º
4º
5º
El punto de posicionamiento de la mediana es (n+1) / 2, o sea [(5+1) / 2] = 3, es decir que la mediana en
esta serie toma el valor de variable que tiene la unidad de análisis que se ubica en en centro de la serie
ordenada, por tanto 3º lugar: x d = 590, con la unidad de medida correspondiente.
Muestra con n par :
Sea la serie de datos ordenados (n=6)
donde las observaciones ocupan el orden
12
1º
15
2º
17
3º
25
5º
23
4º
28
6º
El punto de posicionamiento de la mediana está entre (n / 2) y (n / 2) + 1, por reemplazo (6/2) y (6/2) +
1, o sea entre 3 y 4, luego, la mediana para esta serie toma el valor de la semisuma (17+23) /2 , es
decir 20, con la unidad de medida correspondiente.
Una importante aclaración acerca de la mediana
No confundir número de orden con valor de la mediana. El siguiente esquema pretende clarificar el
concepto:
1) Ordenamiento de las unidades de análisis por
magnitud
2) Asignación del número de orden a las unidades
1º 2º
3º
4º
5º
6º
7º
3) Identificación de la unidad/des que ocupa/n en la
serie la/s unidad/es central/les, según n sea impar o
4) Obtener la mediana (valor que tomó la variable en
la unidad central, x(n+1)/2, o valor correspondiente a la
semisuma de los datos que tomó la variable en las dos
unidades centrales,
•
xn / 2 + x( n / 2)+1
2
)
n impar
→ x(n+1)/2 = x d
x1 x2 x3 x4
x5 x6
x7
x d = x4
La mediana es un valor de variable observado en el caso de n impar
Cabe aclarar también que en el cálculo de la mediana, si la muestra tiene observaciones xi
repetidas, se las debe incluir tal cual en la serie ordenada repitiendo el valor las veces que sea
necesario. Por ejemplo, sea el conjunto de datos arreglados el siguiente: 19,8 20,5 21,6 21,6 22,7
23,1 25,0. Como n=7, resulta que la mediana ocupa el 4º lugar, y entonces es igual a 21,6.
La mediana presenta la siguiente ventajas:
1º) para el cálculo de su valor intervienen las n observaciones y,
47
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
2º) a diferencia de lo que acontece con la media, no es afectada por la magnitud que puedan
tener los valores extremos de la serie
Para aclarar, supóngase que las observaciones muestrales han sido 1, 3, 4, 2, 7, 6 y 8, en tanto
la media resulta ser igual a 4,4 en tanto que la mediana resulta ser igual a 4. Ambas medidas dan una
idea razonable de la tendencia central de los datos. Ahora supóngase que la penúltima observación de
la serie fue 2450. Recalculando se tiene que la media vale 353,6 y que la mediana sigue valiendo 4. En
este último caso, una serie con un valor muy extremo, la media no dice mucho con respecto a la
tendencia central de la mayoría de los datos, mientras que la mediana resulta más adecuada para
representarlos.
Del mismo modo que ocurrió con la media, media muestral y media poblacional, además de la
mediana muestral se puede definir :
Definición 4.6
La mediana poblacional, como el valor de variable que deja a la mitad de los valores poblacionales
por debajo y a la otra mitad por encima.
4.3.2.1.3. Media geométrica
En ocasiones se trabajan con cantidades que cambian en un cierto período, y se necesita
conocer una tasa promedio de cambio, como por ejemplo, la tasa de crecimiento promedio de un órgano
vegetativo o del crecimiento poblacional en una ciudad o de la inflación monetaria. En tales caso se
utiliza como medida de la tendencia central la media geométrica, denotada como ̅ , una medida que
tiene como inconveniente la dificultad que presenta para entender su significado.
Definición 4.7:
n
xg = n
∏x
$ , de un conjunto de n datos muestrales es igual a la raíz nque se lee ¨La media geométrica ésima del producto de las xi, desde la i-ésima observación de la variable estadística x, hasta la nésima¨
i
i =1
Por ejemplo, sea el crecimiento de una cuenta de ahorros que en cinco años ha tenido las
siguientes tasas: 1,07-1,08-1,10-1,12 y 1,18. Luego, el valor de la media geométrica está dada por
ejemplo 1,1093 y respresenta el factor de crecimiento promedio que ha tenido el depósito hecho en la
cuenta de ahorro.
̅ = 5&' = 5(1,07 ∗ 1,08 ∗ 1,10 ∗ 1,12 ∗ 1,18 = 1,1093
n
∑ log x
Mediante la transformación logarítmica, la fórmula queda expresada como log x g =
i
1
n
4.3.2.2. Medidas de dispersión
El posicionamiento o la tendencia central es una propiedad que no proporciona información
suficiente para describir datos de manera adecuada. Por ejemplo, sean dos muestras en que se ha
determinado la presencia de un cierto componente en ppm:
Muestra 1:
Muestra 2:
130
98
140
128
145
140
150
160
158
165
165
205
En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos
del Gráfico 4.4, se observa que los patrones de variabilidad o dispersión son diferentes, la muestra 2
posee más variabilidad que la de la muestra 1.
90
110
130
150
170
190
210
Gráfico 4.4: Datos de composición, en ppm, de dos muestras
Referencias: *, datos de la Muestra 1 y, º, datos de la Muestra 2
4.3.2.2.1. Amplitud
La medida más simple de variabilidad es la amplitud de la muestra, también conocida como
rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensión o recorrido de la
muestra en la recta de los reales.
48
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Definición 4.8:
amplitud = x máx - x mín
que se lee ¨La amplitud, de un conjunto de n datos muestrales es igual a la diferencia entre el
máximo y mínimo valor que toma la variable observada¨.
En el par de muestras donde se midieron las ppm de un cierto componente, la amplitud de la
primera es igual a 165 ppm – 130 ppm = 35 ppm, mientras que el de la segunda es 205 ppm – 90 ppm =
115 ppm. Según estos resultados se declara la muestra 1 menos variable, con las precauciones que
implica basarse en una medida absoluta derivada de sólo dos valores. Por ejemplo sean ahora los
esquemas de las tres siguientes muestras.
Muestra 1
Muestra 2
Muestra 3
º ºººº
º º º
*
******
++++ +++ +
º
*
+
º
º
*
+
Si bien los tres conjuntos son bastante diferentes en su variabilidad, poseen la misma amplitud.
El primero tiene un patrón de dispersión bastante regular a lo largo de toda la escala, el segundo tiene
una alta concentración de los datos en la parte central pero muestra dos puntos extremos y, el tercero
muestra una concentración de valores bajos y uno atípicamente alto. Sin embargo, como la amplitud
ignora toda la informaciòn que existe en la muestra entre las dos observaciones más extremas, tiene un
uso limitado. Por ejemplo se lo usa mucho en el control estadístico de calidad, donde por lo general se
trabaja con muestras pequeñas (n< 10). Pero, para la mayoría de las situaciones se prefiere medir la
variabilidad con medidas donde intervengan todas las observaciones, que son las que se describirán
seguidamente.
4.3.2.2.2. Varianza y desviación típica
Las medidas más importantes de la variabilidad son la varianza y la desviación típica. Estas
medidas toman en consideraciòn la forma en que se distribuyen todos los valores de la variable con
respecto a la media.
La varianza muestral, denotada por s2, es un concepto estadístico muy importante, cuya
interpretación ofrece grandes dificultades. En principio, hay que pensar en nuevos valores de la variable,
los desvíos con respecto a la media, ( − ̅ ). Como se tienen n desvíos muestrales, habrá que pensar
en un promedio de desvíos, esto es ∑( − ̅ )⁄1, pero, si se recuerda la primera propiedad de la media,
el resultado de esta expresión siempre será igual a cero. El problema se puede resolver elevando al
cuadrado los desvíos, ( − ̅ ) , y colocando en el numerador la suma de cuadrados de los desvíos
de los valores de la variable con respecto a la media muestral, esto es: ∑( − ̅ ) ⁄1. Sin embargo,
esta expresión sólo sirve para introducir una interpretación intuitiva al verdadero concepto de la varianza
muestral y, aunque errática sirve al efecto de entender que la varianza muestral se aproxima a la idea de
un promedio de los cuadrados de los desvíos de los valores de la variable respecto a la media. Para
llegar a la varianza muestral hay que definir previamente otro concepto que es el de grados de libertad.
Los grados de libertad indican ¨porciones¨ de información independiente. Si la muestra tiene n
observaciones, se pueden calcular n desvíos con respecto a la media. Nuevamente, recordando la
propiedad de la suma de estos desvíos, acerca de que su suma es igual a cero, si se tiene una serie de
n desvíos, sólo n-1 de ellos podrán tomar valores con libertad, pero el restante desvío está ¨obligado¨ a
tomar un valor tal que se cumpla tal propiedad. Por ejemplo, sean los valores de la variable 1,2,3,4, y 5,
por tanto la media es igual a 3. La correspondiente serie de desvíos es -2, -1, 0, +1 y ?. El último desvío,
conociendo la citada propiedad, se puede escribir sin necesidad de calcularlo como +2, porque (-2) + (1) + (0) + (1) + (2) = 0. Es decir, que si la muestra tiene un tamaño de n, se hablará de que sus grados
de libertad, para calcular la varianza muestral, son igual a n-1.
( − ̅ ) + ( − ̅ ) + ⋯ + ( − ̅ )
1−1
Procedimiento directo para el cálculo: se basa en los valores de los desvíos ( − ̅ ), y las fórmulas que
se obtienen son fórmulas de definición, pero su uso no es práctico, por lo que posteriormente se
presentará el procedimiento abreviado para el cálculo. La varianza muestral es igual a la suma de
cuadrados de desvíos respecto a la media muestral dividida por los grados de libertad de donde, resulta
la definición formal de la varianza muestral.
=
Definición 4.9:
n
∑( x - x )
2
i
2
s =
i=1
n-1
que se lee ¨La varianza muestral, s , de un conjunto de n datos es igual a la suma de cuadrados
de desvíos (de los valores xi de la variable estadística x con respecto a su mediax) dividida por
los grados de libertad dados por n-1¨.
2
Por su parte, la desviaciòn típica muestral, también denominada desviación estándar muestral,
representada con s, se deriva directamente de la varianza.
49
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Definición 4.10:
n
∑( x - x )
2
i
s = s2 =
i=1
n-1
que se lee ¨La desviación típica muestral, s, es igual a la raíz cuadrada (positiva) de la
varianza¨.
De las fórmulas, tanto para la varianza como para la desviación típica muestral, se desprende
que ambas medidas al ser aplicadas arrojan un valor numérico acompañado por la unidad en que se
midió la variable en estudio, y que además, para el caso de la varianza, esta unidad queda elevada al
cuadrado, por ejemplo cm2, g2, kg2, etc. Ésta es una de las paticularidades por las que se hace más dfícil
la interpretación de esta importante medida, contrariamente la desviación típica tiene la deseable
propiedad de medir la variabilidad con la misma unidad de medida de los datos recolectados y en
consecuencia, con la misma unidad de medida que tiene la media, entonces se la puede interpretar
como una distancia en el eje de abscisas o eje x.
Algo más que se debe notar, a partir de las fórmulas, es que ni la varianza ni la desviación típica
pueden ser negativas y tomarían el valor cero cuando todas las observaciones fueran exactamente
iguales, es decir en una franca ausencia de variabilidad.
A continuación se hará una ilustración, para facilitar la comprensión de los cálculos utilizando la
fórmula definicional de la varianza. La tabla 4.1 muestra los datos de una muestra de n=6,
correspondiente a mediciones de resistencia a la tensión de aleaciones de aluminio-litio.
Tabla 4.1: Cálculos para la varianza y la desviación típica muestral,por el procedimiento directo.
Nº medición
1
2
3
4
5
6
5
( − ̅ )
− ̅
90
128
205
140
165
160
-58
-20
57
-8
17
12
5
5
4( − ̅ ) = 0
4 = 888
3364
400
3249
64
289
144
4( − ̅ ) = 7510
de modo que la varianza muestral y la desviación típica resultan iguales a
n
∑( x - x )
2
i
2
s =
i=1
n-1
=
7510
= 1502 gramos 2
6 -1
;
en tanto que,
s = s 2 = 1502 = 38,8 gramos
Finalmente se hará la interpretación gráfica del concepto de variabilidad. El Gráfico 4.5 ilustra los
desvíos ( − ̅ )sobre la resistencia a la tensión y en ella se observa que se trata de valores de
distancias desde xi al centro de la distribución. Entre más grande sea la variabilidad en los datos mayor
será la magnitud absoluta de estas distancias. Más claramente, cuanto más separados o dispersos
estén los datos, mayor será el valor que tome la amplitud muestral, la varianza y la desviación típica,
mientras que cuanto más concentrados resulten, menores serán los valores de estas medidas. Al elevar
al cuadrado las desviaciones ( − ̅ ), se magnifican los pequeños y grandes valores, de este modo
existe una estrecha relación con el valor que muestra la varianza: si es pequeña, existe una pequeña
variabilidad de los datos, pero si es grande, entonces también lo es la variabilidad de los datos
muestrales. En forma análoga la desviación típica, relacionada directamente con la varianza, cuanto
mayor resulte, mayor será la variabilidad de los datos. Luego, s2 y s, miden algo así como la dispersión
promedio en torno a la media; es decir, alrededor de la media las observaciones con valores mayores a
los de la media y con valores menores a ésta.
X1
✸
60
80
X2
✸
100
120
X4
✸
X6 X5
✸ ✸
140
160
X3
✸
180
200
220
x = 148
Gráfico 4.5: Manera en que las desviaciones (xi -x) miden la variabilidad a través de la varianza
Procedimiento abreviado para el cálculo: se basa en los valores de la variable (xi ). La media muy pocas
veces resulta un valor entero, su redondeo arrastra errores al calcular los desvíos, por otra parte el
procedimiento directo es poco práctico, en consecuencia las fórmulas dadas para s2 y s servirán para
definir los respectivos conceptos, pero en situaciones prácticas se recurrirá al procedimiento abreviado
de cálculo.
50
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Las fórmulas abreviadas son equivalentes a las fórmulas de definición. Los denominadores son
exactamente iguales y se modifican sólo los numeradores, que se obtienen desarrollando la suma de
cuadrados de desvíos del siguiente modo:
4( − ̅ ) = 4( − 2 ̅ + ̅ ) =
4 − 2 4 ̅ + 4 ̅ Si se reemplaza ̅ por su igual, y se continúa operando algebraicamente, se llega a la fórmula buscada
para el cálculo de la suma de cuadrados por el procedimiento abreviado.
4( − ̅
Definición 4.11:
)
= 4 −
(∑ )
1
n
( ∑ xi )2
n
∑x
2
s =
2
i
-
i=1
n
i=1
n -1
que se lee ¨La varianza muestral, s2, de un conjunto de n datos es igual a un cociente, que tiene:
a) por numerador a la suma total de cuadrados de los valores de la variable estadística x
menos el cuadrado de la suma de los valores observados xi , dividida por el tamaño
muestral n, y
b) como denominador a los grados de libertad.
Por su parte, la desviación típica muestral, como ya se vio, se obtiene a partir de √ .
Para ilustrar los cálculos se usarán los datos muestrales ya presentados en la tabla 4.1, obteniendo su
suma o total, y la que corresponde a sus cuadrados según se puede ver en la tabla 4.2
Tabla 4.2:. Cálculos para la varianza y la desviación típica muestral,por el procedimiento abreviado
2
Nº de medición
xi
xi
1
2
3
4
5
6
90
128
205
140
165
160
8100
16384
42025
19600
27225
25600
∑ x = 888
(∑ x ) = 888
i
2
i
2
∑x
i
2
= 138.934
Reemplazando, resulta:
(888)
6 = 7510 = 1502(:) ;,
=
= ( = √1502 = 38,8:
6−1
5
Se observa que estos resultados concuerdan exactamente con los obtenidos por el procedimiento
directo.
138.934 − Fórmulas para el cálculo de la varianza
Con frecuencia los alumnos suelen cometer errores al aplicar las fórmulas de la varianza, por reemplazos
numéricos incorrectos. Notar lo siguiente:
Procedimiento directo
Procedimiento abreviado
n
∑( x - x )
n
2
s =
( ∑ xi )2
2
i
n
∑x
i=1
n-1
Se utilizan los valores observados de la variable
para calcular los desvíos ( − ̅ ) que aparecen
en la fórmula.
2
s =
2
i
-
i=1
i=1
n
n -1
Se utilizan los valores observados de la variable (xi).
Además:
n
a) el término
∑x
2
i
se lee ”suma de los cuadrados
i= 1
de los valores observados”.
2
 n 
b) el término  ∑ xi  se lee “cuadrado de la suma
 i=1 
de los valores observados”
51
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Propiedades de la varianza
Como en el caso de la media, se enunciarán las propiedades de la varianza, que deberán ser
tenidas en consideración en varias oportunidades a lo largo del curso.
2
Propiedad 1. La varianza de una constante c es igual a cero, esto es s c = 0
Propiedad 2. La varianza del producto (o cociente) de una constante por una variable es igual al
producto (o cociente) del cuadrado de la constante por la varianza de la variable
Propiedad 3. La varianza de la suma de una constante y una variable es igual a la varianza de la
variable original
2
var (c + x) = s x
Propiedad 4. La varianza de la suma de dos variables X e Y, cada una basada en n datos
expresados en la misma unidad de medida, es igual a la suma de las varianzas de cada grupo más dos
veces la variación conjunta de las variables X e Y, o covarianza
var (x + y) = s2x + s2y + 2 cov (x,y)
La varianza, al igual que la media, debe expresarse numéricamente, acompañada con las unidades
en que se ha medido la variable
4.3.2.2.3. Varianza y desviación típica poblacional
Análogo a la varianza de la muestra s2, existe una medida de variabilidad en la población,
conocida como varianza poblacional. Utilizaremos para su identificación la letra griega σ2 (sigma
cuadrada). Cuando la población es finita y está formada por N valores, la varianza poblacional puede
definirse como:
Definición 4.12:
N
∑
σ2=
( xi - µ ) 2
i =1
N
que se lee ¨La varianza poblacional, σ , de un conjunto de N datos poblacionales es igual a la
suma de los cuadrados de los desvios (de los valores xi de la variable X con respecto a su media
µ ), desde el i-ésimo valor de la variable X, hasta el N-ésimo, dividida por el tamaño poblacional
N¨.
La raíz cuadrada positiva de σ 2 , esto es σ , denota la desviación estándar poblacional.
2
σ = σ2
que se lee ¨La varianza poblacional, σ 2 , de un conjunto
Anteriormente se dijo que la media muestral puede emplearse para hacer inferencias sobre la
media poblacional. De manera similar, la varianza muestral puede utilizarse para hacer inferencias sobre
la varianza poblacional.
Nótese que el denominador para la varianza muestral es el tamaño de la muestra menos (n –1),
mientras que para la varianza poblacional es el tamaño de la población N.
Si se utiliza n como denominador en la varianza muestral, entonces se obtendrá una medida de
2
variabilidad que es, en promedio, más pequeña que la verdadera varianza poblacional σ , se tendría una
2
estimación sesgada de σ .
Si fuese posible conocer el verdadero valor de la media poblacional µ, entonces la varianza
muestral podría calcularse como el promedio de los cuadrados de las desviaciones alrededor de µ de las
observaciones de la muestra. En la práctica el valor de µ casi nunca se conoce, de modo que en lugar
de lo anterior debe emplearse la suma de los cuadrados de las desviaciones alrededor del promedio de
la muestra, x. Sin embargo, las observaciones xi tienden a estar más cerca del promedio de la
muestra,x, que de la media poblacional, µ. Por consiguiente, para compensar esto se utiliza n -1 como
denominador, en lugar de n.
Otra manera de pensar lo anterior es considerar la varianza muestral s2 como basada en − grados de libertad. El término grados de libertad proviene del hecho de que la suma de las n
52
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
), ( − ), … , ( − ), siempre es cero, de modo que la especificación de
desviaciones ( − cualesquiera − de estas cantidades determina de manera automática la restante. Por lo tanto, sólo
), están determinadas de manera arbitraria.
− de las n desviaciones,(= − >=:@ = − , ABCDAEE =
ED
@
O sea, se puede decir que la varianza muestral es igual a la suma de cuadrados (de desvíos) dividida
los grados de libertad.
4.3.2.2.4. Coeficiente de variación
A diferencia de las anteriores medidas de dispersión, el coeficiente de variación es una medida
de dispersión, relativa y adimensional, que en términos porcentuales indica, la dispersión de una serie
de datos respecto al valor medio.
Definición 4.13:
El coeficiente de variación, representado con el símbolo CV, mide la dispersión relativa de los datos
respecto a la media. Se lo puede calcular de la siguiente manera:
CV =
s
x
donde “s” es la desviación típica o estándar de un conjunto de datos muestrales, y x “x raya” es su
media. Además se lo suele expresar en forma porcentual
s
%CV =  100
 x
Como medida relativa, el coeficiente de variación es útil:
a) sobre todo cuando se compara la variabilidad de dos o más conjuntos de datos expresados en
diferentes unidades de medición.
b) cuando se comparan dos o más conjuntos de datos que se miden en las mismas unidades, pero que
difieren mucho.
El coeficiente de variación poblacional es igual a:
%CVpob =
σ
100
µ
Desde el punto de vista práctico, para interpretar el coeficiente de variación en términos generales se
puede utilizar el siguiente criterio:
Valores del CV
Ensayos en laboratorio
Interpretación
Pruebas de campo
0 < %CV < 10%
Bajo
0 < %CV < 10%
10 < %CV < 15%
Aceptable
15 < %CV < 25%
> 15%
Alto
> 25%
Se deduce que siempre deben esperarse valores de coeficientes de variación menores asociados a los
ensayos donde se ejerce mayor control (laboratorio).
4.4. DESCRIPCIÓN PARA MUESTRAS GRANDES
Cuando se dispone de una muestra pequeña de datos cuantitativos se ha visto que el análisis
gráfico y numérico se aplica sobre una distribución simple de frecuencias. Particularmente en este
capítulo se presentará el análisis gráfico y numérico relacionado con distribuciones de frecuencias de
datos agrupados, referidos a los dos tipos de variables cuantitativas: discreta y continua. Dado que al
tratarse de variables que en muestras de tamaño grande pueden tomar numerosos valores de la
variable, la etapa inicial del análisis descriptivo estará destinada a obtener tales distribuciones de
frecuencias, y la siguiente etapa a aplicar las herramientas gráficas y numéricas que en este caso
presentan muchas posibilidades.
4.5. DISTRIBUCIONES DE FRECUENCIAS DE VARIABLES CUANTITATIVAS
En muestras grandes, el objetivo de la organización, esencialmente es resumir la cantidad de
datos. El criterio a aplicar es: a) agrupar los datos en clases cualitativas o numéricas y, b) contar la
cantidad de datos que resulta clasificado en cada grupo; esos conteos reciben el nombre de
frecuencias. La serie completa de clases puestas en correspondencia con los conteos o frecuencias, se
denomina distribución de frecuencias.
53
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
El término frecuencias es de carácter general, según el objetivo, será el tipo de frecuencias que
utilicemos: frecuencias absolutas, frecuencias relativas, frecuencias acumuladas o frecuencias
expresadas en porcentaje.
Las distribuciones de frecuencias de variables cualitativas y cuantitativas pueden ser
presentadas en forma analítica a través de una tabla de distribución de frecuencias, o bien en forma
gráfica a través de representaciones gráficas. En este último caso los gráficos son diferenciados.
Cuando la variable es cualitativa se utilizarán: diagramas de sectores y diagramas de barras. A las
variables cuantitativas se les aplicará: a) diagramas de frecuencias o diagramas de líneas (variables
discretas) o b) gráficos varios: histograma, polígono de frecuencias o polígonos de frecuencias
acumuladas (variables continuas).
Con las distribuciones de frecuencias, puede decirse, que se cumple la primer etapa del proceso
de dar sentido a los datos. Una distribución de frecuencias pone en evidencia a diversos aspectos
sumamente importantes, referidos a las propiedades de los datos en masa, que permiten comprender el
comportamiento de las variables, las cuales en el capítulo siguiente serán cuantificadas mediante las
correspondientes medidas descriptivas o estadígrafos.
Resulta conveniente recordar la estructura que poseen las tablas utilizadas para sintetizar la
clasificación de una muestra de tamaño n, en el caso de tener los datos de una variable cualitativa y de
una cuantitativa (discreta y continua), a través del Cuadro 4.1.
Cuadro 4.1. Síntesis comparativa de la estructura de los datos agrupados según tipo de variable
Caso: Distribución de
una variable
cualitativa (clases
categóricas)
Clase
( )
.
.
F
Conteo
(1 )
1
1
.
.
1F
Caso: Distribución de una variable cuantitativa (clases numéricas)
Tipo I
Valor observado
de la variable,
( )
.
.
F
Tipo II
Conteo
(1 )
1
1
.
.
1F
Intervalos de
Clases
G ; )I
G ; J )I
.
.
GFK ; F )I
Conteo
(1 )
1
1
.
.
1F
En todos los casos el conteo hace referencia al número de observaciones o mediciones
clasificadas en la clase i-ésima de una variable. En el caso de variables cuantitativas discretas esa clase
es de tipo puntual (valor puntual) mientras que en variables continuas se trata de un intervalo de
valores. Con la claridad de este significado, se pasará a formalizar algunos conceptos frecuentistas.
Definición 4.15.
La serie de clases (cualitativas o cuantitativas) asociadas a sus correspondientes frecuencias, se llama
distribución de frecuencias, e indica como la frecuencia total o cantidad total de datos se reparte entre
los k agrupamientos realizados.
Según el tipo de frecuencia considerada se tendrá una distribución de frecuencias (absolutas), una
distribución de frecuencias relativas o una distribución de frecuencias acumuladas. Cualquiera de ellas,
se puede presentar tanto en forma tabular como gráficamente.
Definición 4.16
En datos agrupados, la frecuencia absoluta de una clase (cualitativa o cuantitativa), o simplemente
frecuencia, simbolizada con ni, está dada por el número de unidades de análisis clasificado en la clase
i-ésima. La serie de frecuencias absolutas, para las k clases, se indica como
n1, n2,…,nk
tanto en el caso de datos categóricos como cuantitativos
Es fácil notar que las frecuencias absolutas cumplen con la siguiente propiedad: n = n1+n2+…+nk, por
tanto
1 = ∑F 1 ,
es decir, la suma total de las frecuencias absolutas es igual al tamaño muestral.
54
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Definición 4.17.
La proporción dada por el cociente entre la frecuencia absoluta de la clase i-ésima y el tamaño
muestral, denotada por L , recibe el nombre de frecuencia relativa de la i-ésima clase.
1
L =
1
La serie de frecuencias relativas, para las k clases, se indica como
f1, f2, … ,
fk
en el caso de datos categóricos como cuantitativos
Las frecuencias relativas tienen la siguiente propiedad: su suma es igual a la unidad,
F
4
L = 1
Con un sentido práctico suele hablarse de frecuencias porcentuales, cuando las fi se las expresa en
por ciento, y entonces resulta que su suma es igual al 100%.
Definición 4.18.
Las frecuencias absolutas acumuladas, se definen como la frecuencia que resulta de la acumulación,
fila por fila, de las correspondientes frecuencias absolutas. La acumulación puede hacerse de dos
formas, y según esto resultan:
a) Frecuencias acumuladas ascendentes, simbolizadas por Fi: para la i-ésima clase, la frecuencia
acumulada ascendente se obtiene sumando a la correspondiente frecuencia, las frecuencias de todas
las clases que anteceden a la considerada
F1 = n1
F2 = n1 + n2,
F3 =n1 + n2 + n3, y así sucesivamente hasta la última clase
Fk = n1 + n2 +......+ nk = Σ ni = n , para k < n.
b) Frecuencias acumuladas descendentes, simbolizadas por F´i (que se lee F comilla sub- i): para la iésima clase, se obtienen restando a la correspondiente frecuencia, las frecuencias de todas las clases
que anteceden a la considerada
F´1 = n
F´2= n – n1,
F´3= n – (n1 + n2)
y así sucesivamente hasta la última clase
F’k = n – (n1 + n2 + …. + nk-1 )
Las frecuencias acumuladas ascendentes también son llamadas frecuencias “menor que”, y
las descendentes, frecuencias “mayor que”. Con un criterio análogo se pueden obtener también las
correspondientes frecuencias relativas acumuladas.
A continuación se desarrollará el análisis estadístico descriptivo de las distribuciones de datos
cuantitativos agrupados.
4.6. PROPIEDADES DE LA DISTRIBUCIÓN DE VARIABLES CUANTITATIVAS
EN MUESTRAS GRANDES
En el caso de muestras pequeñas de variables cuantitativas, se vio que las medidas descriptivas
estuvieron referidas a dos propiedades de los colectivos de datos: la posición y la dispersión. En
muestras grandes, el hecho de tener una distribución de datos agrupados, lleva a la utilización de un
número mayor de propiedades. Las mismas se indicaron en la presentación integrada que se hizo sobre
las propiedades estadísticas de las variables cuantitativas.
Propiedades estadísticas a describir en: muestras grandes de datos cuantitativos
Tamaño
Grande
Propiedades
Posición (tendencia central y otra)
Dispersión
Forma: Asimetría y Curtosis
Estas propiedades se miden objetivamente a través de los estadígrafos correspondientes:
55
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
1º) Medidas de posición: apuntan a los datos más “típicos” de la distribución, como por ejemplo, los
que más se repiten y los que ocupan los lugares centrales.
2º) Medidas de dispersión: describen si los datos son homogéneos o sea si se diferencianpoco entre
sí (variación pequeña) o, si por el contrario, son heterogéneos o muy dispares (variación grande), y
también si el patrón de variación presenta regularidad estadística o no.
3º) Medidas de asimetría: miden en qué grado las distribuciones son asimétricas, a partir de tomar
como referencia la media aritmética y considerar si los datos se reparten análogamente a ambos lados
de ella. La falta de simetría lleva a hablar de distribuciones sesgadas.
4º) Medidas de curtosis: cuantifican el grado de agudeza o apuntalamiento de la distribución en la
parte central, dada por una concentración de los datos (frecuencias más altas) alrededor de la media, y
el grado de alejamiento que poseen los valores extremos.
En general estas medidas han sido establecidas procurando que cumplan, lo cual logran en
mayor o menor grado, ciertas condiciones entre las cuales se tienen las siguientes:
Deben tener una definición objetiva, para que distintas personas puedan llegar a partir
de un mismo conjunto de datos a un mismo resultado numérico y conclusiones.
Deben basarse en lo posible en todos los datos de la variable, de forma que la medida
no sea inestable, esto es que cambie sustancialmente con sólo variar un valor de
variable
POSICIONAMIENTO
Deben ser fáciles de calcular e interpretar.
Cuadro 4.2: Síntesis de las propiedades estadísticas para muestras grandes de datos cuantitativos
Propiedad
Concepto
Ilustración
Medida
Propensión de los datos (valores
Estadígrafos de
de la variable) a ubicarse en el
tendencia
entorno de un punto central de la
central, por ej.:
distribución, correspondiente al
la media
Central
recorrido de la variable, donde se
(Promedios)
ubica el punto de equilibrio.
x
Otro
(cuantiles)
Ubicación de puntos en la escala
correspondiente al recorrido de la
variable (valores de variable),
relacionados con la partición de la
distribución de datos de modo de
dejar en cada una de las partes
igual
cantidad
de
datos
(comúnmente 1%, 5%, 10%, 25%
o el 50%).
Grado de fluctuación de los datos,
referenciada a un valor central de la
variable, de modo aproximado o
distante entre sí.
Estadígrafos de
posición, por ej.:
cuartiles (1/4 =
25% en cada
parte)
x
Estadígrafos de
dispersión, por
ej.: amplitud.
DISPERSIÓN
x
FORMA
Asimetría
Forma de distribución de los
datos, a ambos lados de un eje
ubicado en el centrado de la
distribución.
Estadígrafos de
asimetría,
por
ej.:
coeficiente
de asimetría.
x
Curtosis
Forma de concentrarse los datos,
alrededor del centrado de la
distribución, que determina un
mayor o menor apuntalamiento de
la distribución.
Estadígrafos de
curtosis, por ej.:
coeficiente
de
curtosis.
x
56
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4.7. VARIABLES DISCRETAS
Se partirá de un conjunto de datos muestrales, correspondientes a un experimento donde se
registró el número de flores por planta, en 50 plantas seleccionadas al azar. Primeramente se procederá
a identificar algunos aspectos que definen las características del problema que conducen a la elección
del camino a seguir.
Variable
observada
Unidad de muestra y análisis
Tipo de dato
Tamaño muestral
Nº de
flores/planta
planta
Cuantitativo
discreto
n=50
Tabla auxiliar. Registros del recuento de flores (datos de campo)
10
8
6
3
9
7
5
4
6
9
8
10
7
9
10
6
8
6
3
2
4
3
2
7
5
5
4
3
7
6
6
7
8
8
6
7
7
9
8
6
5
3
2
1
4
3
6
8
7
0
4.7.1. Herramientas de análisis gráfico
4.7.1.1. Presentación tabular
A continuación se presenta la estructura mínima de una tabla de distribución de frecuencias para
una variables discreta (tabla modelo). En ella se pueden reconocer: una primera columna que muestra
los posibles valores de la variable (xi, donde i=1,2,…,k) y otra para los datos de frecuencia absolutas
(ni), aunque podrían haberse utilizado las frecuencias relativas o las porcentuales.
Tabla básica de distribución de frecuencias para una variable discreta
xi
x1
x2
.
.
xk
ni
n1
n2
.
.
nk
n
A continuación se muestra la tabla completa de distribución de frecuencias que se utilizaría
para presentar los resultados del trabajo.
Tabla 4.3. Distribución del número de flores por planta
Nº de flores,
(1)
Cantidad de
plantas
(2)
Cantidad de plantas acumulada
“nº menor o
igual que”
“nº mayor o
igual que”
(3)
(4)
Proporción de
plantas
Proporción
porcentual
(5)
(6)
0
1
1
50
0,02
2,0
1
1
2
49
0,02
2,0
2
3
5
48
0,06
6,0
3
6
11
45
0,12
12,0
4
4
15
39
0,08
8,0
5
4
19
35
0,08
8,0
6
9
28
31
0,18
18,0
7
8
36
22
0,16
16,0
8
7
43
14
0,14
14,0
9
4
47
7
0,08
8,0
10
3
50
3
0,06
6,0
50
-−
-−
1,00
100,0
57
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Construcción
(1) valores observados de la variable.(x i)
(2) frecuencia absoluta (n i). Notar el total, n= 50
(3) frecuencias acumuladas ascendentes ( F i)
(4) frecuencias acumuladas descendentes ( F´ i)
(5) frecuencias relativas (f i). Notar el total, sum (f i)= 1
(6) frecuencias relativas porcentuales (% f i). Notar el total, sum (% f i)= 100
¿Cuál es la información se puede obtener de la tabla de frecuencias así construida?
Se puede ver que el número total de datos es 50, que las plantas tuvieron entre 0 y 10 flores.
Las plantas con menos de 3 flores y con más de 9 son poco frecuentes, que plantas que tienen
entre 6 y 8 flores son las típicas (mayores frecuencias), y que el valor más repetido ha sido 7.
El 18% de las plantas presentaron 6 flores, un 2% fueron plantas sin flores y un 6% (3 plantas)
fueron muy floríferas, para ellas se registró un valor máximo de 10 flores
Un 10% de las plantas tuvieron 2 o menos flores, 30% tuvo 4 o menos flores y, casi la mitad de
las plantas tuvo entre 0 y 6 flores/planta.
Se deja al alumno, el ejercicio de realizar otras interpretaciones, a partir de la lectura de esta
tabla de frecuencias. Realmente extraer esta información a partir de los datos sin procesar, hubiera sido
extremadamente dificultosa.
4.7.1.2. Representaciones gráficas
4.7.1.2.1. Gráfica de líneas
Proporción de plantas (fi)
Cantidad de plantas (ni)
Para el ejemplo de variable discreta que se está analizando se tiene lo siguiente:
10
8
6
4
2
0
0,20
0,15
0,10
0,05
0 1 2 3 4 5 6 7 8 9 10
Nº de flores / planta
Gráfico de líneas con frecuencias absolutas
0 1 2 3 4 5 6 7 8 9 10
Nº de flores / planta
Gráfico de líneas con frecuencias relativas
Construcción: Si en el eje de las abscisas se consideran los distintos valores que toma la variable y,
en el eje de las ordenadas se consideran las frecuencias absolutas (o las frecuencias relativas) y, por
los puntos resultantes se bajan líneas hasta las abscisas, se obtiene un gráfico de líneas para
frecuencias absolutas (o de frecuencias relativas).
4.7.1.2.2. Gráfica escalonada
Existe también la posibilidad de utilizar representaciones que permitan obtener información de
tipo integral, por ejemplo, que permitan encontrar la respuesta al siguiente interrogante ¿cuántas
unidades de análisis muestrales presentan un valor igual o menor a un cierto xi?. Es decir gráficas que
se basen en los valores de frecuencias acumuladas, que para el caso de una variable discreta
mostrarán un patrón escalonado de frecuencias. Sea por ejemplo, una muestra de datos
correspondientes al número de hijos/familia de cierta zona rural y la correspondiente tabla de
frecuencias.
Número de hijos (xi)
1
2
3
4
Cantidad de
familias (ni)
1
3
5
3
Valor de
variable
Frec.
absolutas
Frec. acum.
ascendentes
Frec.
relativas
xi
ni
Fi
fi
1
1
1
0,083
2
3
4
0,250
3
5
9
0,416
4
3
12
0,250
Total
12
-
≅ 1,000
58
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Cantidad
de
familias
Cantidad
acumulada
de familias
o
Proporción i
de familias
Nº de hijos
o
o
i
Nº de hijos
Diagramas de barras para frecuencias
absolutas y frecuencias relativas.
Nº de hijos
Diagrama de frecuencias acumuladas “m
“meno
enor
que” o diagrama escalonado ascendente
Resumen. Gráficos para distribuciones de frecuencias de variables
estadísticas cuantitativas discretas
Diagrama de líneas para valores puntuales de la variable observada según su frecuencia.
Muestra para cada valor observado (xi) de la variable, la correspondiente frecuencia de
presentación en la muestra.
muestra
y pueden utilizarse
y,
Eje y
Eje
ni : frecuencias absolutas
fi : frecuencias relativas
100 fi : porcentajes
Variable X
Gráfico (a)
Gráfico escalonado.. Distribución de frecuencias acumulados: El gráfico (b) de frecuencias
ascendentes muestra al producirse el salto en cada escalón la cantidad de unidades observadas
con valores “iguales o menores” al correspondiente xi. El último escalón (quinto escalón) indica el
total de los datos menor o igual al valor máximo observado (x4), por lo que al mismo tiempo se
refiere a todas las unidades medidas (n, o 100%). En forma análoga se puede interpretar un
gráfico de frecuencias descendentes.
Eje
Fi
F´i
y pueden utilizarse
y,
:
frecuencias absolutas acumuladas
ascendentes
: frecuencias absolutas acumuladas
descendentes
También
pueden
usarse
relativas
acumuladas
y
acumulados.
frecuencias
porcentajes
Gráfico (b)
4.7.2. Herramientas de análisis numérico (Estadígrafos)
4.7.2.1. Medidas de posición
Se analizarán a continuación las medidas de posición, recordando que éstas pueden representar
la centralización en torno a la cual se distribuyen la mayoría de las mediciones o bien a otras
posiciones. Entre las primeras se tienen aquellas que en general reciben el nombre de promedios
(diferentes tipos de medias) y otras como la mediana y la moda. Entre las segundas están medidas que
mayoritariamente se refieren a posicionamientos no centrales (cuartiles, deciles y percentiles).
59
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4.7.2.1.1. Media aritmética
En el caso en que los datos estuviesen agrupados en una tabla de Tipo I, es decir, si existen k
valores distintos de la variable X, esto es x1, x2, ..., xk, se tienen k clases numéricas, tales que cada valor
xi se repite ni veces, entonces, la expresión para la media aritmética es:
Definición 4.19. La media muestral de una variable discreta se calcula como
k
∑x
x=
i
. ni
i=1
n
k
xi : dato observado, ni la frecuencia absoluta correspondiente de modo que n = ∑ ni y
siendo:
i =1
k, el número de valores diferentes que toma la variable observada
Ejemplo 4.1: Si medimos el número de hijos de 15 obreros rurales de una cierta Industria, y los
resultados arrojan la siguiente tabla de tipo I, entonces, el número medio de hijos por empleado es:
x=
k
∑ xi ni
i =1
n
Nº de hijos (xi)
0
1
2
3
4
Nº de obreros (ni)
2
4
8
5
1
xi ni
0
4
16
15
4
Total
n=20
Σ=39
= ( 39 / 20 ) = 1.95 hijo s ≅ 2 hijos
Debe notarse que en el cálculo de la media intervienen todos los valores de la variable, de ahí que resulte por
excelencia la medida promedio que caracteriza el lugar central de la distribución.
4.7.2.1.2. Mediana
A diferencia de la media, la mediana es una medida que trata de caracterizar un posicionamiento
que equilibre la cantidad de frecuencias observadas a uno y otro lado. Para encontrar cual es el valor
mediano de una distribución de frecuencias discretas, se trabaja con una tabla de frecuencias
acumuladas de menor a mayor. La mediana es igual al primer valor de variable, que acumulando las
frecuencias, deja por debajo un 50% de las observaciones. En el siguiente ejemplo se observa que la
mediana es igual a 2: hay 50 fábricas con valores menores o iguales a ella, y también 50 fábricas con
valores igual o mayores a ella.
Ejemplo 4.2: Número de empleados de 100 pequeñas fábricas
Nº de empleados
(xi)
2
2
3
4
5
Nº de fábricas
(ni)
20
30
25
15
10
Fi
20
50
75
90
100
Total
n=100
---
Esta es, como ya vimos, una medida de posición, generalmente central, que se fundamenta en
las frecuencias de la distribución. Pero, conviene en este momento tener una visión amplia que aclare
cuando corresponde utilizarla, por cuanto, muchas veces se la aplica mal. Para ello hay que tener en
cuenta el tamaño muestral y el tipo de variable:
1º) en principio, la moda tiene no tiene sentido en muestras pequeñas y sí, en muestras grandes,
porque su valor es muy inestable
2º) a su vez, siendo la muestra grande, la moda tiene sentido en los siguientes casos:
4.7.2.1.3. Moda
La moda es el valor de la variable que más se repite. Cuando la variable es discreta, solo se
necesita observar en su distribución de frecuencias cual es el valor de variable que tiene la mayor
frecuencia absoluta.
60
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Determinación de la moda
En distribuciones tipo I con clases numéricas: su determinación es inmediata, solo basta
observar el valor o valores de la variable que tengan máximas frecuencias con relación a las restantes
frecuencias de la distribución.
Evidentemente, cualquier moda absoluta será, pues, una moda relativa. Sin embargo, lo
contrario no es en absoluto siempre cierto. Veamos algunos ejemplos ilustrativos, utilizando diferentes
distribuciones muestrales de una variable discreta.
Muestra 1
Muestra 2
Muestra 3
1
0
7
1
10
2
12
3
25
4
20
5
13
6
5
1
0
3
1
17
2
12
3
20
4
35
5
10
6
6
0
4
1
15
2
15
3
12
4
28
5
15
6
5
1
Se puede identificar lo siguiente:
Muestra 1: se destaca una sola frecuencia, la cual es igual a 25, por tanto se tiene una moda absoluta
igual a 3,
Muestra 2: se tienen dos frecuencias que llaman la atención, 17 y 35, los valores correspondientes de
variable 1 y 4 son modas relativas, y además 4 es una moda absoluta (distribución bimodal),
Muestra 3, se tienen tres modas relativas que son 1,2 y 4, en correspondencia con las frecuencias
destacadas en la serie 15 y 18, pero sólo 4 es moda absoluta (distribución trimodal). Nótese que el valor
5, asociado a una frecuencia igual a 15, no es moda porque no se destaca entre los valores contiguos.
Ejemplo 4.3: Sea el número de salames con principio de enranciamiento en ristras de tamaño 5,
seleccionadas aleatoriamente de estanterías comerciales de almacenes mayoristas.
0
5
Número de salamines rancios, xi
Cantidad de salamines, ni
1
18
2
18
3
9
4
3
5
2
Se observa que la distribución tiene dos modas relativas, ya que la máxima frecuencia, igual a
18, corresponde tanto al valor de variable 1 como 2.
4.7.2.2. Medidas de dispersión
4.7.2.2.1. Amplitud muestral
También se denomina rango o recorrido. Es válido lo visto para muestras pequeñas.
4.7.2.2.2. Varianza muestral
En el caso de variables discretas, se tienen k diferentes valores xi, La fórmula (a) se basa en los
cuadrados de k desvíos respecto a la media ( − ̅ ), mientras que la fórmula (b) se basa en los k
valores observados de la variable xi
(b) Procedimiento abreviado
(a) Procedimiento directo
k
∑ (x
s2 =
i
− x ) 2 ni
i =1
n −1
 k

 ∑ x i .n i 
k
2
 i =1

x i ni −
∑
n
s 2 = i =1
n −1
; siendo i = 1,2,…,k
Fórmula definicional: suma de cuadrados
de desvíos ponderados por las frecuencias
absolutas, dividida por los grados de
libertad.
Notar:
M
4 = =
=
M
N4 = = O
=
2
; i = 1,2,….,k
suma de k productos, y se
ponderan los cuadrados de
los valores observados de la
variable =
cuadrado de la suma de k
productos, y se ponderan los
valores observados de la
variable =
4.7.2.2.3. Desviación típica muestral
La desviación típica, se obtiene según ya se ha visto como la raíz cuadrada positiva de la
varianza
s = + s2
61
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
4.7.2.2.4. Coeficiente de variación muestral
Es válido lo visto para muestras pequeñas: cv =
s
_
o bien
x
4.7.2.3.
s
% cv = 100  _ 
 
 x
Medidas de forma: asimetría y curtosis
Estas medidas serán desarrolladas en forma integrada para el caso de las variables discretas y
continuas, después de presentar el análisis descriptivo de las variables continuas.
4.8. VARIABLE CONTINUA
4.8.1. Herramientas de análisis gráfico
4.8.1.1. Presentación tabular
Para describir la distribución de frecuencia correspondiente a una variable continua, es
indispensable agrupar los valores registrados mediante un conjunto de intervalos de clase.
Ejemplo 4.4: La siguiente es la tabla primaria correspondiente a un estudio sobre el perímetro, en
centímetros, a la altura de la primera ramificación, de troncos de damasco variedad Royal, de un monte
frutal de 4 años, realizado en Lavalle en 1974.
35
48
42
42
36
38
42
44
39
43
38
48
42
49
43
58
39
48
45
43
48
38
39
40
33
40
30
40
33
42
45
45
39
35
43
45
31
30
41
35
43
31
42
53
46
45
49
42
34
33
28
29
34
31
32
49
45
56
27
52
42
54
28
29
40
45
55
44
50
48
54
58
55
28
36
33
25
27
24
37
41
46
36
35
41
34
37
48
46
42
49
36
40
54
36
46
45
44
43
40
36
26
49
49
33
36
34
41
45
49
58
46
52
36
40
43
53
40
36
41
Trabajando como se vio en el Tema 2, para esta muestra se tiene lo siguiente:
1º) Amplitud muestral, a partir de los límites reales de la muestra,
∆m = xmax - xmin = 58 cm - 24 cm = 34 cm
2º) Número de intervalos de clase, utilizando la fórmula de Sturges
k = 1 + 3,3 . log 120 = 7,86
En principio, el nº de intervalos que debería usarse en este caso sería 8. Sin embargo,
recordemos que es aconsejable que este número sea impar, en consecuencia podría decidirse usar 7 ó
9 intervalos. Se optará por el primer número porque el tamaño muestral no es grande y además porque
7 se aproxima más al valor calculado según la fórmula.
3º) Longitud de los intervalos de clase
∆x = ∆m / k = 34 cm / 7 ≅ 5 cm
4º) Clasificación de los datos
Tabla 4.4. Tabla auxiliar para la clasificación de los datos
Intervalo de clase
discreto
(25-29]
(30-34]
(35-39]
(40-44]
(45-49]
(50-54]
(55-59]
Clasificación del dato
////
////
////
////
////
////
////
///
////
////
////
////
////
////
///
//// //// /
//// //// ////
//// //// ///
///
//// ///
Número de
troncos (ni)
8
13
21
33
23
13
9
Definición 4.20.
El valor promedio entre los límites del intervalo se llama punto medio del intervalo o “marca
de clase”. Este valor es un promedio que se usa para representar a todos los datos que se
clasificaron en el intervalo, por lo tanto, constituye un valor de variable no observado, pero muy útil
para realizar los cálculos posteriores. Como es un valor de variable, se lo denota con “xi”.
62
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
La distribución de frecuencia se puede presentar en una tabla básica, donde los intervalos se
ponen en correspondencia con las frecuencias absolutas. Sin embargo, para mejorar el análisis, casi
siempre es deseable elaborar la distribución de frecuencia relativa o la distribución porcentual,
dependiendo de si se prefieren las proporciones o los porcentajes.
Tabla de distribución de frecuencias completa
Tabla 4.5. Distribución de frecuencias de perímetros de troncos de damascos (en cm ), variedad Royal, de
4 años. Lavalle, 1994.
Intervalo de clase Punto
continuo
medio
24,5 –29,5
27,0
29,5 –34,5
32,0
34,5 –39,5
37,0
39,5 –44,5
42,0
44,5 –49,5
47,0
49,5 –54,5
52,0
54,5 -59,5
57,0
-
Frec.
Absoluta
8
13
21
33
23
13
9
120
Frec. Acumulada.
Ascen.
Desc.
8
120
21
112
42
99
75
78
98
45
111
22
120
9
-
Frec.
relativa
0,067
0,108
0,175
0,275
0,192
0,108
0,075
1,000
Frec. relativa
acumulada
0,067
0,175
0,350
0,625
0,817
0,925
1,000
-
Tabla de distribución porcentual
Como se anticipó, la utilidad de la distribución de frecuencia relativa o de la distribución
porcentual es grande cuando se comparan muestras diferentes, especialmente si el tamaño muestral no
es igual. Se emplean los valores de las frecuencias relativas multiplicados por 100, de modo parcial
(Tabla 4.6) o bien acumuladas.
Ejemplo 4.5: A partir de los datos del censo nacional agropecuario se ha analizado la distribución la
cantidad de hectáreas incultas por finca en una cierta zona, con el siguiente resultado:
Tabla 4.6. Distribución porcentual de las
hectáreas incultas por finca en cierta
zona (n=240).
Hectáreas incultas/finca
(n=240)
Porcentaje
de fincas
10,5 a menos de 20,5
20,5 a menos de 30,5
30,5 a menos de 40,5
40,5 a menos de 50,5
50,5 a menos de 60,5
60,5 a menos de 70,5
70,5 a menos de 80,5
48,9
26,7
12,8
6,4
3,0
1,5
0,7
Total
100,0
Tabla 4.7. Distribución porcentual
acumulada de las hectáreas incultas por
finca, menor al valor dado (n=240)
Hectáreas
Porcentaje de fincas
incultas/
“menor que”
finca
<20,5
48,9
<30,5
75,6
<40,5
88,4
<50,5
94,8
<60,5
97,8
<70,5
99,3
<80,5
100,0
Ref.: el valor mínimo de la variable fue
10,5 hectáreas
Interpretaciones:
• La tercera fila en la Tabla 4.6 indica que un 12,8 % de las 240 fincas poseen una superficie inculta
mayor o igual a 30,5 hectáreas y no mayor a 40,5
• La tercera fila en la Tabla 4.7 indica que hay un 75,6% de fincas con una superficie inculta menor a
30,5 hectáreas.
En forma análoga, se puede construir una tabla que muestre la distribución porcentual
acumulada mayor que el límite inferior de la variable.
Tabla 4.8. Distribución porcentual acumulada de
las hectáreas incultas por finca, mayor al valor
dado (n=240)
Porcentaje de fincas
Límite inferior
“mayor que”
>10,5
100,0
>20.5
51,1
>30.5
24,4
>40,5
11,6
>50,5
5,2
>60,5
2,2
>70,5
0,7
>80.5
0.0
63
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Una importante observación
En las tablas puede observarse que la frecuencia relativa tiene dos aspectos de gran interés:
1º) expresada en % resulta muy fácil de interpretar el significado y además facilita la
comparación entre muestras que tienen diferente tamaño.
2º) desde un punto de vista más teórico, se la puede considerar como una estimación empírica
de la probabilidad de ocurrencia de algún suceso empírico. Por tratarse de proporciones, una
propiedad que cumplen las frecuencias relativas es que sus valores varían en el intervalo [0 ; 1]
y, del mismo la función probabilidad que se estudiará en la Unidad de Probabilidad se define
numéricamente en un intervalo [0 ; 1]. En el caso de las probabilidades, el 0 indica que un
suceso es imposible (por ejemplo, que al tirar un dado de seis caras, resulte una cara con siete
puntos) en tanto que el 1 indica que el suceso va a ocurrir con certeza (por ejemplo, que al tirar
un dado de seis caras, resulte una cara con 1 a 6 puntos). En la realidad cuanto más probable
es que ocurra un suceso, por lo general la frecuencia relativa correspondiente a lo observado
resultará más cercana a 1, y cuanto menos probable sea su ocurrencia, por lo general la
frecuencia relativa correspondiente a lo observado resultará más cercana a 0.
La frecuencia relativa, permite intuir algunas propiedades fundamentales de la probabilidad.
4.8.1.2. Representación gráfica
4.8.1.2.1. Histograma
Definición 4.21.
Un histograma consiste en una serie de rectángulos adyacentes (en el diagrama de barras
son no adyacentes), cuyo ancho es proporcional al alcance de los datos que se encuentran dentro
de una clase, y cuya altura es proporcional al número de elementos que caen dentro de la clase.
Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho, lo más
común, entonces que las barras verticales del histograma también tengan el mismo ancho. La altura de
la barra correspondiente a cada clase representa el número de observaciones de la clase o frecuencia.
Como consecuencia de lo anterior, el área de cada barra del histograma puede ser:
Proporcional a la frecuencia de clase, si en ordenadas se
representan las frecuencias (ni )
ni ,
hi
A=b.h
A = ∆x . ni
xi
xi+1
Igual a la frecuencia de clase, si en ordenadas se representa la altura o
densidad de clase (hi ), que es xi /∆x.
A = ∆x . hi ; hi = ni / ∆x
A = ∆x (ni / ∆x)
A= ni
Un histograma que utiliza las frecuencias relativas de los puntos de datos de cada una de las
clases, en lugar de usar el número de puntos, se conoce como histograma de frecuencias relativas.
Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a
partir del mismo conjunto de datos. Esto es así debido a que en ambos, el tamaño relativo de cada
rectángulo es la frecuencia de esa clase comparada con el número total de observaciones.
Frecuencia relativa
0,4
0,36
0,3
0,2
0,2
0,1
0,17
0,1
0,1
0,07
0
15,15 - 15,45 15,45 - 15,75 15,75 - 16,05 16,05 - 16,35 16,35 - 16,65 16,65 - 16,95
Nivel de producción, en metros
Gráfico 4.1. Distribución de frecuencias relativas de los niveles de producción, en metros.
64
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Ventajas de un histograma de frecuencias relativas:
Presentar los datos en términos de la frecuencia relativa de las observaciones, más que en
términos de la frecuencia absoluta, es de utilidad ya que mientras los números absolutos pueden sufrir
cambios, la relación entre las clases permanece estable.
Resulta fácil comparar los datos de muestras de diferentes tamaños cuando utilizamos
histogramas de frecuencias relativas. Sin embargo, cuando se comparan dos o más conjuntos de datos,
no es posible construir los diversos histogramas en la misma gráfica, porque la superposición de barras
verticales dificulta su interpretación. Para ese caso, es necesario construir polígonos porcentuales o de
frecuencia relativa.
4.8.1.2.2. Polígono de frecuencias
Los polígonos de frecuencias son otra forma de representar gráficamente distribuciones, tanto de
frecuencias simples como relativas.
Construcción. Para construir un polígono de frecuencias, en el eje de abscisas señalamos, como
en el histograma, los valores de la variable pero en este caso corresponde usar los puntos medios.
A continuación, graficamos los puntos en correspondencia a las frecuencias de clase (proyectando
por sobre el valor del punto medio) y conectamos los puntos resultantes sucesivos con segmentos,
de modo que resulta una línea irregular (quebrada) abierta. Finalmente se cierran los extremos
(límite inferior y límite superior) formando un polígono (una figura con muchos lados).
14
frecuencia
12
10
8
6
4
2
0
15.0
15.3
15.6
15.9
16.2
16.5
16.8
17.1
Nivel de producción en metros
Si se compara la figura que representa un polígono de frecuencias con el gráfico del histograma
anterior, se dará cuenta que se han añadido dos clases, una en cada extremo de la escala de valores
observados. Estas dos nuevas clases contienen cero observaciones, pero permiten que el polígono
alcance el eje horizontal en ambos extremos de la distribución (100% área ).
50
45
40
35
30
25
20
15
10
5
0
porcentaje de fábricas
porcentaje de fábricas
El polígono porcentual se forma haciendo que el punto medio de cada clase represente los
datos de esa clase y después conectando la secuencia de sus respectivos porcentajes de clase.
5
15
25
35
45
55
65
75
85
Producción en miles de pesos
50
45
40
35
30
25
20
15
10
5
0
5
15
25
35
45
55 65 75 85
Producción en miles de pesos
Polígonos de frecuencia porcentual
Construcción de un polígono de frecuencias relativas: Un polígono de frecuencias que utiliza
frecuencias relativas de puntos de datos en cada una de las clases, en lugar del número real de
puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que
el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala
diferente en los valores del eje vertical. Más que el número absoluto de observaciones, la escala es
el número de observaciones de cada clase como una fracción del número total de observaciones.
65
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Análisis comparativo de ventajas
Histograma
Polígonos de frecuencias
Los rectángulos muestran cada clase de la
distribución por separado.
El área de cada rectángulo, en relación con el
resto, muestra la proporción del número total de
observaciones que se encuentran en esa clase.
El polígono de frecuencia es más sencillo que
su correspondiente histograma.
Traza con más claridad el perfil del patrón de
los datos.
El polígono se vuelve cada vez más liso y
parecido a una curva conforme aumentamos el
número de clases y el número de
observaciones.
4.8.1.2.3. Polígonos de frecuencias acumuladas u ojivas.
Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por
encima, o por debajo, de ciertos valores.
Polígono de frecuencias acumuladas “menor que” u ojiva ascendente: Los puntos representados
en la gráfica indican la cantidad de datos que tienen un valor de variable igual o menor que el valor
correspondiente al límite superior del intervalo de clase (eje de abscisas). Observar lo siguiente: el
polígono comienza con ordenada cero en el límite superior de un intervalo imaginario anterior (coincide
con el inferior del primer intervalo de clase para los valores observados) y termina con ordenada igual a
n, en el límite superior de la última clase.
Número acumulado de árboless
muestreados
Polígono de frecuencias acumuladas “mayor que” u ojiva descendente: Los puntos representados
en la gráfica indican la cantidad de datos que tienen un valor de variable igual o maqyor que el valor
correspondiente al límite inferior del intervalo de clase (eje de abscisas). En este caso el polígono
comienza con ordenada igual a n en coincidencia con el límite inferior de un intervalo imaginario anterior
(coincide con el inferior del primer intervalo de clase para los valores observados) y termina con
ordenada igual a n, en el límite superior de la última clase.
350
300
Clasificación
Kg de manzana Cantidad de
/árbol
árboles
45.2 – 45.4
20
45.5 – 45.7
50
45.8 – 46.0
110
46.1 – 46.3
60
46.4 – 46.6
30
30
46.7 – 46.9
300
250
200
150
100
50
0
45.2
45.5
45.8
46.1
46.4
46.7
47.0
Nivel de producción en kilogramos
Menor que 45,2
no hay datos
Menor que 47
toda la muestra
Distribución de niveles de producción “menor que” de una muestra de árboles de manzana.
66
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
que”.
En forma análoga podría construirse un polígono de frecuencias relativas acumuladas “mayor
Gráficos para distribuciones de frecuencias de variables estadísticas
cuantitativas
antitativas continuas
Gráfico (a)
ni
Muestra superpuesta, la
silueta del histograma
con el
polígono de
frecuencias. Notar,
1) que las frecuencias
corresponden
respectivamente a los
Variable x
intervalos de clase y a los
Gráfico (a)
Fi
puntos medios, y
2) los puntos de cierre del
polígono.
Variable x
Gráfico (b)
Polígono de frecuencias
acumuladas
“menor
que”,
con
límites
superiores del intervalo
(ojiva ascendente)
Gráfico (b)
Tablas versus gráficos de distribuciones de frecuencias
Las tablas proporcionan datos numéricos más exactos, mientras que los gráficos solo
permiten una lectura aproximada.
La interpretación de tablas con abundantes datos numéricos suele resultar compleja y
requiere una buena preparación, en tanto que las representaciones gráficas suelen permitir tomar
una idea rápida del fenómeno en estudio. Por ejemplo, la gráfica de una di
distribución
stribución de
frecuencias pone en evidencia los patrones de comportamiento de los datos muestrales, con
mayor facilidad que las correspondientes tablas.
Las gráficas de variables continuas permiten tomar rápidamente idea acerca del patrón de
la distribución
ón poblacional (dado que para ésta se tienen infinitos valores de variable, se tendrían
infinitos intervalos de clases, k→∞,
k
y entonces ∆x →0).
0). Esto se hace creando una curva de
frecuencias, f(x), para lo cual se procede a elaborar un polígono de frecuenci
frecuencias
as relativas, y luego
se le hace un suavizado al trazo irregular del polígono.
polígono
Figura II.33. Área para el ejemplo
II.38.
4.8.2. Herramientas de análisis numérico: Estadígrafos
4.8.2.1. Medidas de tendencia central y otras
4.8.2.1.1. Media aritmética
En esta situación, siempre haremos la suposición de que, en cada intervalo de la tabla la
frecuencia que le corresponde,
corresponde, se encontrará repartida de forma uniforme a lo largo del intervalo, lo que,
como consecuencia, da lugar a que el valor medio de cada intervalo coincida exactamente con el punto
medio del mismo, y que hemos denominado en un capítulo anterior “marca de lla
a clase” o del intervalo
correspondiente, o bien “punto medio”.
67
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Bajo esta hipótesis, la suma del conjunto de valores de un intervalo dado será, pues, igual al
producto de su frecuencia por el valor de su marca de clase, sin más que tener en cuenta la
interpretación de la media aritmética para los puntos de tal intervalo.
Así, pues, cuando la tabla de datos es de Tipo II y los datos están repartidos entre k intervalos
contiguos, cuyas marcas de clase y frecuencias asociadas son, respectivamente, xi y ni, la media puede
ser obtenida por el siguiente procedimiento.
Definición 4.22
La media en distribuciones Tipo II, es igual a:
k
∑x
x=
Siendo: n =
. ni
i
i=1
n
k
∑n
i
y
xi : punto medio del i-ésimo intervalo
i =1
Es de notar que, en este caso, para poder disponer de la marca de clase de cada intervalo, se
requiere que los intervalos están perfectamente, determinados por unos extremos concretamente
definidos. Así, pues, no podríamos calcular la media de una distribución de datos que nos midiera el
número de habitantes de los municipios de una provincia, si el grupo de municipios más poblados
estuviese definido ambiguamente, diciendo sólo, por ejemplo, que tiene más de 200.000 habitantes.
Ejemplo 4.5: Supongamos que estudiamos el salario anual de los empleados de una fábrica de
automóviles y tenemos los datos de dichos salarios recogidos en la siguiente tabla de tipo II:
Miles de
Pesos
50,5 – 60,5
60,5 – 70,5
70,5 – 80,5
80,5 – 100,5
100,5 – 120,5
Marcas de
clase (xl)
55,0
65,0
75,0
90,0
130,0
Nº empleados
xi ni
12
20
18
15
5
n=70
660
1300
1350
1350
650
5310
5310
= 75,857PQRSTSUSV
70
Precaución: En adelante nos referiremos de forma general con xi al valor i-ésimo de la variable, pero
hay que tener en claro que: a) si se trabaja con una distribución simple o con una distribución Tipo I con
clases numéricas, xi corresponde a un valor medido y, b) si se trabaja con datos de una distribución tipo
II, xi corresponde a la marca de clase o punto medio del intervalo i-ésimo. Con esta notación, la
formulación matemática de las medidas puede parecer la misma, pero el significado puede llegar a ser
muy diferente
̅ =
Ventajas y desventajas de la media
Ventajas
- Es sencilla de calcular
-Está perfectamente definida de forma objetiva,
y es única
-Tiene un claro significado interpretativo
-Para su cálculo se utilizan todos los valores de
su distribución
Inconvenientes
-Los valores extremos muy dispares influyen de
forma notable en su valor, haciéndola menos
representativa.
A pesar de este inconveniente, por sus ventajas, se puede decir que es la medida de posición
central más utilizada.
Existe una variante importante de la media aritmética, de aplicación en aquellas circunstancias
en las que se conoce que los valores de la variable no tienen todos la misma importancia para su
tratamiento, sino que, por el contrario, existen observaciones que deben ser consideradas como más
representativas que otras. A esta variante de la media aritmética se la llama Media aritmética
ponderada. Para su cálculo se le asocia a cada valor de xi un peso wi , que nos medirá su grado de
importancia o representatividad dentro de la distribución. Estos pesos wi serán valores positivos que
representarán el número de veces que sus correspondientes valores xi son más representativos que un
valor que tuviese peso asociado a la unidad.
Definición 4.23
La media aritmética ponderada de una distribución de valores x1,x2,…, xk cuyos pesos o
importancias relativas w1,w2,…wk respectivamente, se define como
k
∑x
xw =
i
⋅ wi
i =1
k
∑w
i
i =1
68
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Obsérvese que la media aritmética ponderada puede considerarse como una media aritmética
de una distribución hipotética con los mismos valores que la real, pero en lo que un peso wi de un valor
xi correspondería a que ese valor xi se repitiese wi veces y, por lo tanto, pesase wi veces más que un
valor que sólo apareciese una vez. Tal distribución hipotética estaría, entonces caracterizada por
valores x1, x2………, xk con pesos o importancias w1, w2,……., wk respectivamente.
Sin embargo, aunque para comprender intuitivamente el significado de la media aritmética
ponderada este razonamiento es válido y es por otra parte, importante remarcar que en él nos hemos
referido al caso particular en que los pesos wi eran números enteros, mientras que en general, dichos
pesos pueden ser números reales positivos cualesquiera.
Ejemplo 4.6: Sea el caso de un vino que durante su añejamiento aumenta las cantidades de taninos se
tiene una partida de vinos de distintos años, de modo que se pueden otorgar las siguientes importancias
relativas.
Tiempo
Cantidad de taninos a los 6 meses
Cantidad de taninos a los 12 meses
Cantidad de taninos a los 15 meses
Cantidad de taninos a los 2 años
g/l
0,7
0,7
1
3
Ponderación
1
1
2
5
Como observamos en la tabla, hemos asignado a los vinos una misma importancia básica de 1
hasta el año, y una importancia 5 veces mayor a los dos años. Bajo estos supuestos, si se quiere sacar
un valor promedio de la cantidad de tanino para una muestra de esas partidas de vino, sería:
xw =
0,7 × 1 + 0,7 × 1 + 1 × 2 + 3 × 5
1+1+ 2 + 5
4.8.2.1.2. Mediana
Cuando la distribución se presenta en forma de tabla de tipo II, puesto que para este tipo de
tablas se asume que la variable evoluciona de una forma continua y uniforme, entonces tendremos que
encontrar el valor de la variable al que correspondería la frecuencia n/2. Ahora bien, dicho valor se
encontrará en el primer intervalo en que su frecuencia absoluta acumulada sea igual o supere a n/2.
Llamemos li (q2) al límite inferior de tal intervalo, al que llamaremos intervalo mediano, y por lo tanto que
se lee:
Definición 4.24
La mediana, en una distribución de tipo II, es igual al límite inferior del intervalo mediano li (q2) más el
cociente que resulta de dividir el valor n/2 menos la frecuencia acumulada hasta el intervalo de clase
anterior al mediano F(q2 – 1), por la frecuencia absoluta del intervalo mediano, n(q2), multiplicado por la
longitud del intervalo de clase ∆x.
xd = li ( q 2) +
n / 2 − F( q2 −1 )
n( q 2)
× ∆x
Ventajas e inconvenientes de la mediana
Ventajas
Es sencilla de calcular
Es de fácil interpretación al ser siempre un valor
propio de la variable
No influye en ella más que los datos centrales de
la distribución por lo que se puede calcular aún
desconociendo los valores extremos de la
distribución, siempre que tengamos suficiente
información acerca de sus frecuencias.
Inconvenientes
No puede expresarse mediante una fórmula
matemática sencilla que permita realizar grandes
desarrollos algebraicos con ella
No intervienen en su confección todos los valores
de la variable, sino sólo los centrales. a pesar de
todo, este último inconveniente lo es realmente
cuando todos los valores de la distribución son
conocidos, cosa que no siempre ocurre, y es
precisamente en estos casos donde este
“inconveniente” se traduce a la tercera “gran
ventaja” de la mediana.
La determinación gráfica puede hacerse rápidamente utilizando el polígono de frecuencias
acumuladas, y teniendo en cuenta la definición de mediana. La ordenada máxima en este gráfico
representa la frecuencia total, o sea n. Dado que la mediana se relaciona con la mitad de los individuos,
se individualiza el valor correspondiente a n/2 en el eje vertical. A partir de ese valor se prolonga una
línea paralela al eje de abscisas hasta intersectar el polígono de frecuencias acumuladas en el punto A.
Desde el punto A luego se baja una perpendicular hasta el eje de abscisas, donde se puede leer el valor
de la mediana.
69
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
Frecuencia acumulada
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
F'i
Fi
n/2
Int. De clase
4.8.2.1.3. Moda.
Cuando los datos están sin agrupar, se puede hablar de la moda en relación al dato observado
con mayor frecuencia, pero cuando los datos están
están agrupados sólo se puede hablar del intervalo con
mayor frecuencia o intervalo modal.
modal Una vez que los datos se han clasificado no es correcto hablar de la
moda porque el valor encontrado será teórico, y teóricamente la población es infinita (N
(N→ ∞), en otras
palabras la variable toma en cada en cada elemento un valor diferente. Para la variable continua, como
veremos en la Unidad de probabilidad, la probabilidad de ocurrencia de un determinado valor es igual a
cero, por tanto, hablar de que un valor de variable
variable continua es la moda (tiene la más alta frecuencia)
resulta una seria contradicción. Sin embargo, esto
esto no es reflejado por los datos muestrales, debido a
que la medición tiene error y entonces aparecen datos repetidos.
Determinación de la moda
Se identifica
entifica el (o los) intervalo modal donde se clasificó el mayor número de datos y
podemos referirnos al punto medio de la clase modal,
modal, como el valor alrededor del cual se tiene el
mayor agrupamiento o densidad de datos.
clase
postmodal
clase modal
clase
premodal
En el caso de variable continua, también puede hablarse de un intervalo premodal y uno
posmodal, como se muestra en el siguiente diagrama:
Definición 4.25
W , a aquel valor de la variable cuya frecuencia
Se llama moda absoluta,, representada por absoluta no es superada por ningún otro valor de la variable en la muestra.
Definición 4.26
Se llama moda relativa a aquel valor de la variable cuya frecuencia absoluta asociada no es
superada por las de sus valores contiguos.
Ventajas e inconvenientes de la moda
Ventajas
Inconvenientes
No puede expresarse de forma sencilla mediante
Es sencilla de calcular lo modal.
fórmula matemática que permita operar
En variables discretas es de fácil interpretación, cómodamente con ella.
al ser siempre un valor propio de la variable.
No detecta ningún cambio en la distribución que
se produzca ajeno al valor modal o in
intervalo
modal.
Resulta adecuada una visión integral de las tres medidas descriptas, media, mediana y moda,
pero la postergaremos hasta tratar el tema de simetría y sesgo de una distribución.
4.8.2.1.4. Cuantiles o fractiles
Las medidas que vamos a ver ahora se llaman
llaman medidas de posición no central, porque, aún
tratándose de posicionar sobre la escala de posibles valores de la variable algún punto característico de
la distribución, ese punto de interés generalmente no es el central. La combinación de estas medidas de
posición no necesariamente centrales, con las medidas de posición central, nos permitirá evaluar el
comportamiento de la distribución de frecuencias desde un punto de vista general, a lo largo de todos
los valores de la variable, y no concentrándonos en unos
unos pocos de ellos que dicen mucho sobre la
70
Cátedra de Cálculo Es
Estadístico y Biometría – Facultad de Ciencias
ias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
tendencia central pero nada acerca de las colas de la distribución, esto es, los valores que se
posicionan por debajo de los centrales y por encima de los centrales).
La idea es análoga a la que nos permitió definir la mediana, que, recordemos es un valor de la
variable que deja a cada uno de sus lados igual cantidad de datos muestrales (50% por debajo y 50%
por encima). Ahora, siempre con los datos de la variable ordenados en forma creciente, nos interesa
encontrar cuál de los xi, deja a su izquierda (incluyéndolo a él) cierta proporción generalmente diferente
al 50% de la distribución. Un gráfico dará luz a este nuevo concepto. En (a) se indica el cuantil que deja
por debajo (incluyéndolo a él) un 20% de los valores de la variable X y, por encima (incluyéndolo a él)
un 80%, mientras que en (b) se da la situación inversa.
80%
Gráfico (a)
80%
20%
Gráfico (b)
Los cuantiles se pueden clasificar en cuatro clases de medidas, de las cuales en este curso, nos
interesa en especial la primera y la última:
Cuartiles: dividen la distribución en cuatro partes de igual frecuencia (n/4) , lo que significa que
cada parte contiene ¼ del total de datos, es decir, un 25%.
Quintiles: dividen la distribución en cinco partes de igual frecuencia (n/5), lo que significa que cada
parte contiene un 20% del total de datos.
Deciles: dividen la distribución en diez partes de igual frecuencia (n/10), lo que significa que cada
parte contiene un 10% del total de datos.
Percentiles: dividen la distribución en cien partes de igual frecuencia (n/100), lo que significa que
cada parte contiene un 1% del total de datos.
Notar que si los cuantiles dividen en k partes, la cantidad de cuantiles es igual a k-1.
Definición 4.27
Un cuantil, que se representa por qr/c y se lee como “cuantil r-ésimo de orden c”, es aquel valor de
la variable xi, que en un arreglo de datos ordenados en forma creciente, permite dividir a la
distribución del total de los datos dejando por debajo al menos r/c partes de datos, y por encima al
menos las (r/c)/c partes restantes.
Por ejemplo: sea el segundo cuantil de orden 4, esto es q2/4 . Primeramente entendemos que nos
estamos refiriendo a una distribución dividida en 4 partes (cuartos o cuartiles), y un valor de variable que
deja por debajo 2 de esas 4 partes, es decir, la mitad de los datos y por encima el resto, que son otras 2
de esas 4 partes porque 1- (2/4) = 2/4. En otras palabras, nos estamos refiriendo a aquél valor de
variable por xi, que en un arreglo ordenado de menor a mayor, permite dividir la distribución de
frecuencias dejando por debajo al menos la mitad de los datos de la distribución, y por encima al menos
la otra mitad, o sea, que en definitiva al segundo cuartil, en símbolo q2/4, que es la mediana ya conocida
por nosotros.
En forma análoga a la dada para la mediana, se pueden desarrollar fórmulas para el cálculo del
primer y tercer cuartil.
Los percentiles serán muy utilizados en inferencia estadística en relación a conceptos
probabilísticos. En este contexto, las poblaciones de variables continuas se representan con curvas que
se definen mediante funciones f(x), una de las cuales es la curva normal o curva campanular. La función
de la normal, es de gran utilidad porque representa a la distribución teórica de muchas variables
continuas de interés en Agronomía y Bromatología, y ya resulta familiar a quienes han estudiado la
teoría de errores en Física. A partir de ella, mostraremos los gráficos que indican los cuartiles, deciles y
percentiles:
71
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
q1/4 q2/4 q3/4
d1/10 d2/10 d3/10 d4/10 d5/10 d6/10 d7/10 d8/10 d9/10
Cuartiles
p1/100
Deciles
p50/100
p99/100
Percentiles
Ejemplo 4.7: Sea la variable peso de racimos de uva en gramos. Si se dice esta variable en la
población se puede representar con la curva normal, y que q3/4 ,es decir el tercer cuartil (q3) es igual a
450 gramos, significa que el 75% de los valores poblacionales son cuando más igual a 450 gramos, y
sólo un 25% toma valores por encima. Nótese la equivalencia entre el q3/4 y el percentil 75, p75 .
CUARTILES
Primer cuartil, q1/4
O bien q1
Segundo cuartil, q2/4
o bien q2
Tercer cuartil, q3/4
o bien q3
PERCENTILES
Resumen para interpretar los cuantiles
Primer percentil, q1/100
o bien p1
Segundo percentil,
q2/100
o bien p2, p3 , p4 , …
p98
99 avo percentil, q99/100
o bien p99
deja a su izquierda el 25% de la distribución y el 75% a
su derecha
deja a su izquierda el 50% de la distribución y el 50% a
su derecha
deja a su izquierda el 75% de la distribución y el 25% a
su derecha.
deja a su izquierda el 1% de la distribución y el 99% a su
derecha
deja a su izquierda el 2 % de la distribución y el 98% a su
derecha
deja a su izquierda el 99% de la distribución y el 1% a su
derecha.
4.8.2.2. Medidas de dispersión.
Las medidas de posición central, por sí solas sabemos que son insuficientes para describir una
variable relacionada con un fenómeno de interés, de modo que tengamos una correcta comprensión del
mismo. Para reforzar esta idea, recordemos la situación más simple que se nos puede presentar al
estudiar una muestra de variables cuantitativas: el caso de muestras pequeñas. Para ellas, vimos que
era “obligatorio” utilizar al menos una medida promedio y una medida de la variabilidad.
4.8.2.2.1. Amplitud muestral (recorrido o rango), ∆m o bién A
Es válido lo visto para muestras pequeñas.
4.8.2.2.2. Recorrido intercuartílico ∆q o bién RI
Para evitar situaciones en que los valores extremos anormales distorsionan la realidad más
común, esta medida de dispersión absoluta se define como:
Definición 4.28
El “rango intercuartílico” es la diferencia entre el tercer cuartil y el primer cuartil.
∆q = RI = q3/4 - q1/4
Las dos medidas de dispersión descriptas, insistimos, adolecen de un gran defecto: no
consideran la totalidad de los valores observados, con lo cual es fácil que distribuciones
sustancialmente distintas puedan dar las mismas medidas de dispersión al no acusar éstas cambios en
la mayoría de los valores de la variable.
Para evitar estos problemas se recurre a la idea intuitiva de medir alejamientos medios, de los
valores de la variable a las distintas medidas de posición central de la distribución, y surgen las medidas
de dispersión absolutas que se describen a continuación.
4.8.2.2.3. Varianza y desviación típica
En variables continuas, xi es el valor del punto medio que representa a todos los datos
clasificados en la clase i-ésima o i-ésimo intervalo de clase.
72
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Varianza
Cálculo por el procedimiento directo
k
∑ (x
s2 =
i
− x ) 2 ni
i =1
n −1
; siendo i = 1,2,…,k
Cálculo por el procedimiento abreviado.
 k

 ∑ xi .ni 
k
2
i =1

xi .ni − 
∑
n
s 2 = i =1
n −1
2
; siendo i = 1,2,….,k
Desviación típica
La desviación típica, se obtiene según ya se ha visto como la raíz cuadrada positiva de la varianza
s = + s2
Insistiremos, por la importancia de estas medidas, en su interpretación:
La varianza muestral se puede interpretar como casi un promedio de la suma de cuadrados de
desvíos.
La desviación típica, puede ser comprendida examinando dos enunciados:
* la Regla empírica: aplicable a distribuciones de tipo campanular
* el teorema de Chebyshev: aplicable a cualquier distribución
Regla empírica
El examen de muchos conjuntos de datos sugiere una regla empírica que se utiliza para la
interpretación de la desviación típica o estándar. Esta regla describe exactamente la variabilidad de los
datos poblacionales de una distribución con forma de campana o acampanada, que ya mencionamos es
conocida como distribución normal y que se discutirá en detalle en otro capítulo más adelante. Pero
también proporciona una descripción bastante adecuada de la variación de muchos otros tipos de
variables que poseen distribuciones de frecuencia relativa con forma de pico de montaña.
Además, en la práctica, se puede utilizar la denominada Regla Empírica para explicar la
propiedad de variabilidad de los datos de una muestra, esto es: que porcentaje de datos observados se
encuentra comprendido por los siguientes intervalos: la media ± k veces la desviación típica.
Generalmente estamos interesados en k = 1, 2 ó 3, esto es, la media ± l desviación típica, la media ± 2
desviación típica y la media ± 3 desviación típica, respectivamente, (x± s) , (x± 2s) y (x± 3s) . Estos
porcentajes en la muestra se aproximan al 68%, 95% y 99%, respectivamente, en tanto que en la
población normal estos porcentajes ocurren de manera exacta (Ver tabla 4.3). La aproximación es tanto
mejor, cuanto más grande sea la muestra y además provenga de una distribución normal o
aproximadamente normal, es decir, cuando no se da un sesgo extremo y se observa ese aglutinamiento
más o menos central de datos. La siguiente Figura muestra los intervalos muestrales comprendidos
dentro de una, dos y tres desviaciones típicas de la media y los valores porcentuales el área del
histograma abarcada.
99.7%
95%
68%
− XE
− E
+ E
+ XE
− E
+ E
Se formalizará ahora el enunciado la regla en discusión.
REGLA EMPÍRICA :
Si una variable está distribuida normalmente, entonces hay un 68% de los datos, aproximadamente,
dentro de una desviación estándar de la media. Dentro de dos desviaciones estándares hay un 95%
más o menos, y dentro de tres desviaciones estándares de la media hay cerca de 99,7% de los
datos. Esta regla es aplicable específicamente a una distribución normal (en forma de campana),
aunque con frecuencia se aplica como guía a cualquier distribución de montículo.
73
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Ejemplo 4.8:: La regla empírica puede utilizarse para determinar si se puede considerar que la
distribución de frecuencias de una muestra aproximadamente se distribuye, o no, de manera normal.
Supongamos una muestra, referida a rendimientos en kg/parcela, que tiene un
una media x
x y una
desviación típica s, cuyos valores son 82,9 y 24,3, respectivamente. Utilizando la tabla de la distribución
de frecuencias, a través de las frecuencias relativas acumuladas, podríamos encontrar que: el intervalo
comprendido desde una desviación
desviación típica por debajo de la media hasta una desviación estándar por
arriba, esto es [x –s, x+s]
+s] = [(82,9 – 24,3); ( 82,9 + 24,3)] = [58,6; 107,2
107,2] comprende el 64% de los
datos centrados en la media. Además podríamos
podríamos encontrar que:
G̅ − 2; ̅ + 2YY G34,2; 131,5Y;G̅ − 3; ̅̅ + 3Y G10; 155,8Y
incluyen el 98% del total de datos y el 100%, respectivamente, de los datos muestrales. Esta
información nos lleva a decir que resulta bastante probable que la variable tenga una distrib
distribución
ución
normal, lo que posteriormente puede ser comprobado a través de la Estadística Inferencial.
Teorema de Chebyshev
La idea asociada al teorema de Chebysheff, para la distribución de datos en una población
cualquiera es la siguiente: construir un intervalo
intervalo fijando una distancia de k a ambos lados de la media µ,
con la condición de que k sea por lo menos igual a 1. Entonces, al calcular la fracción 1 – (1/k2), el
teorema de Chebysheff afirma que por lo menos esta fracción, del número total de n mediciones, caerá
dentro del intervalo determinado.
Tomemos algunos valores numéricos para k. Cuando k=1, el teorema afirma que por lo menos
1–1/(1)2=0 de las mediciones caen dentro del intervalo de µ-σ a µ+σ , un resultado poco informativo y
sin uso práctico, por eso,
so, el teorema resulta útil si k>1. Cuando k=2, resulta que al menos 1
1–1/(2)2 = ¾
de las mediciones caerán en el intervalo [(µ
[( -2σ) ; (µ +2σ)],
)], y cuando k=3, al menos 8/9 de las
mediciones estarán en el intervalo de [(µ
[( -3σ) ; (µ + 3σ)],
)], es decir, dentro de tres desviaciones típicas
respecto de la media.
Haremos ahora el enunciado formal de la regla en discusión.
TEOREMA DE TCHEBYSCHEFF
La proporción de cualquier distribución situada dentro de k desviaciones estándares de la media es,
por lo menos la fracción , 1 – (1/k2), donde k es cualquier número positivo mayor que 1
1.
Ejemplo 4.9: Ahora consideraremos un ejemplo donde se aplica la media y la desviación típica
muestrales,, para formar una imagen mental de la distribución de frecuencias para la variable, sin
presuponer nada acerca de la población (normal o no). La media y la variación de una muestra con
n=25 mediciones, son datos son x=75 y s2=100. Por lo tanto, la desvi
desviación típica es s=√100=10.
100=10. Para
una distribución que se centra aproximadamente en
en x=75, el teorema de Chebysheff nos permite
afirmar lo siguiente:
Al menos ¾ de las 25 mediciones caen en el intervalo ((x ± 2s) = [75 ± 2(10)],, es decir, el
intervalo de valores xi que va de 55 a 95.
Al menos 8/9 de las 25 mediciones caen en el intervalo (
(x ± 3s) = [75 ± 3(10)],, es decir, de 45 a
105. Finalmente haremos un análisis comparativo, analítico y gráfico, acerca de lo expuesto.
Tabla 4.9:: Forma en la que varían los
los datos alrededor de la media
media.
Número
de
desviaciones
en unidades k; (x ± ks),
k=1
2
3
4
Porcentaje de valores de la variable, contenidas entre la media y
k desviaciones típicas, para la población
Regla de
Distribución
Chebyshev
de Gauss
No es calculable
Exactamente 68,26% (≅68%)
Al menos 75,00%
Exactamente 95,44% (≅95%)
Al menos 88,89%(≅89%)
89%)
Exactamente 99,73% (≅ 100%)
Al menos 93,75%(≅94%)
Exactamente 99,99%
100%
Gráfico 4.6 Ilustración del teorema de Chebyshev
Gráfico 4.7
4.7: La distribución campanular
74
Cátedra de Cálculo Es
Estadístico y Biometría – Facultad de Ciencias
ias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Para concluir, nótese que:
* el teorema de Chebyshev es un hecho que se puede demostrar matemáticamente, y que se
aplica a cualquier conjunto de datos (Tabla 4.9 y Gráfico 4.6). Proporciona una cota inferior para la
fracción de mediciones que se pueden encontrar en un intervalo (x± ks), donde k es un número mayor
que o iguala uno.
* la Regla empírica, por el contrario, es una afirmación arbitraria acerca del comportamiento de
los datos. Aunque los porcentajes contenidos en la regla vienen del área bajo la curva normal, los
mismos porcentajes son válidos aproximadamente para distribuciones con forma diferente, en tanto
tienden a tener forma de pico de montaña (o sea, los datos tienden a acumularse cerca del centro de la
distribución).
4.8.2.2.4. Coeficiente de variación
Es válido lo visto para muestras pequeñas.
4.8.2.3. Medidas de asimetría y curtosis.
Hasta ahora, con las medidas de posición hemos situado sobre la escala de valores de la
variable las posiciones centrales o más importantes de la distribución y, a través de las medidas de
dispersión, hemos medido en promedio el alejamiento o cercanía de los valores de la variable a las
medidas de posición central. Sin embargo, aunque a través de estas medidas podemos deducir algo
acerca de la “forma” de la distribución de frecuencias, la mayor parte de la información en tal sentido la
obtenemos de la observación de las representaciones gráficas de la misma.
Parece, pues, necesario definir una serie de medidas que permitan cuantificar en lo posible la
forma de la distribución. Esta cuantificación se realiza en dos sentidos principales:
Propiedad de simetría: simetría o asimetría de la distribución de frecuencias, centrándola en su
media, evaluada con las medidas de asimetría.
Propiedad de curtosis: la concentración o apuntalamiento más o menos acusada de los valores
centrales de la distribución en torno de las medidas de posición central, evaluada con las medidas
de curtosis.
La simetría y la curtosis, son características propiamente ligada a la forma de la distribución y no
a sus valores o unidades de medida. Por ello, cualquier medida que trate de cuantificar exclusivamente
algún aspecto de la forma de la distribución debe ser, lógicamente, adimensionales, y en lo posible no
influenciables por cualquier transformación de escala o cambio de origen de la escala.
4.8.2.3.1. La simetría
En primer lugar, diremos que vamos a considerar distribuciones unimodales, y que la distribución
es simétrica con respecto de algún punto a en el eje de abscisas, si lo es la representación gráfica de
sus frecuencias. Es decir, si al trazar una paralela al eje de ordenadas, pasando por el punto a, deja el
mismo número de observaciones a ambos lados, y además, a puntos opuestos y equidistantes de a,
siempre les corresponden iguales frecuencias.
Utilizaremos para medirla un coeficiente que se basa en los desvíos a la tercera potencia de los
valores de la variable respecto a su media, − Z (o bien para la muestra, − ̅ ), con el siguiente
criterio:
W , y el índice de asimetría
En una distribución de frecuencias perfectamente simétrica vale cero.
≥
W , es decir, la moda es menor que la media, resulta que la
En una distribución donde distribución se extiende hacia la derecha, tiene exceso hacia valores xi grandes sesgo positivo, o que
“tiene cola hacia la derecha”. El coeficiente debería tener signo positivo.
≤
W , es decir, la moda es mayor que la media, resulta que la
En una distribución donde distribución se extiende hacia la izquierda, tiene exceso hacia valores xi pequeños o sesgo negativo,
o simplemente “tiene cola hacia la izquierda”. El coeficiente debería tener signo negativo.
Así pues los tres casos posibles son:
xm < x
Posición Intervalo modal
a la izquierda de xd, de x
y xm
xm = x
Posición Intervalo modal
en coincidencia con xd y  x
x < xm
Posición Intervalo modal
a la derecha de xd
75
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
µ = µ d = µm
µm < µ
Asimetría a la derecha
µ < µ
Simetría
a>0
m
Asimetría a la izquierda
a=0
a< 0
En Estadística, la expresión
mr
∑ (x
=
− µ)r
i
N
i= 1, 2, …, N
corresponde al momento verdadero del r-ésimo orden, esto quiere decir desvíos respecto a la media
paramétrica.
El momento verdadero de primer orden es igual a cero, m1=0
El momento verdadero de segundo orden resulta ser igual a la varianza poblacional
m2 = σ 2 =
∑ (x
i
− µ)2
N
El momento verdadero de tercer orden, con desvíos basados en la media y elevados a la tercera
potencia (xi -µ)3, se relaciona con la propiedad de simetría de un distribución.
El momento verdadero de cuarto orden, análogamente con desvíos (xi -µ)4 ,se relaciona con la
propiedad de curtosis.
Para datos muestrales agrupados se tiene la expresión
k
∑x
mr =
r
i
.ni
∑n
i
,
i= 1, 2, …, k donde xi se refiere al desvío entre el i-ésimo punto medio y la
media muestral.
Coeficiente de asimetría de Charlier:
g1 =
m3
s3
∑
=
(
)
 x − x 3n  / n
i
 i

2
s .s
donde m3 son los momentos verdaderos (puntos medios menos la media) de tercer orden, basados
en (xi - µ)3.
g1 < 0 : asimetría negativa;
g1 = 0: simetría;
g1 > 0 : asimetría positiva.
4.8.2.3.2. La curtosis
Como ya dijimos, con este coeficiente se trata de medir el grado en que los valores de la variable
tienden a agruparse en torno de la media, hay mayor agrupamiento cuanto más elevada o apuntalada
sea la distribución. La medida de esta propiedad se hará por referencia a la curtosis que posee la
distribución o curva normal, que recibe el nombre de distribución normal, o también campana de Gauss.
Esta distribución es simétrica con respecto a su media y verifica que el valor de las potencias cuartas de
las desviaciones de las observaciones a la media aritmética, (xi - µ)4, vale precisamente tres veces lo
mismo que la potencia cuarta de su desviación típica, 3 σ4.
Se utiliza para medirla un coeficiente que se basa en la cuarta potencia de los desvíos de los
valores de la variable respecto a su media, xi - µ (o bien para la muestra, xi -x ), con el siguiente
criterio:
76
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
En una distribución de frecuencias con un grado de concentración similar a la normal, se dirá
que la distribución es mesocúrtica y el índice de curtosis debe valer cero.
En una distribución donde los datos centrales se concentran más que en el caso de la
mesocúrtica se dirá que la distribución es leptocúrtica y su índice de curtosis deberá valer
más de cero.
En una distribución donde los datos centrales se concentran menos que en el caso de la mesocúrtica
se dirá que la distribución es platicúrtica y su índice de curtosis deberá valer menos de cero.
Gráficamente, las tres situaciones, considerando las poblaciones normales son:
Coeficiente de curtosis:
4

k 
−  / n

 Σ xi − x  

 
 
m4  
=
g2 =
2
s4
s2
( )
donde m4 son los momentos verdaderos (puntos medios menos la media) de cuarto orden basados
en (xi - µ)4.
g2 < 3: platicúrtica;
g2 = 3: mesocúrtica;
g2 > 3: leptocúrtica.
El índice se lleva a valor cero para la mesocúrtica, restándole 3 unidades, como:3-3 = 0. De este
modo, el índice en una platicúrtica resultará menor a 0 y en una leptocúrtica mayor a 0.
4.9. COMUNICACIÓN Y PRESENTACIÓN DE RESULTADOS
Realizado el análisis estadístico descriptivo (etapa de cálculos) se deberá realizar un informe
técnico para comunicar los resultados, en el que se deberán considerar los siguientes aspectos:
1º) Acerca de los resultados numéricos:
Se deberán redactar conclusiones aplicando la terminología y simbología estadística, y además se
deberá proceder a interpretar los resultados en términos del problema. En el caso de variables
cuantitativas es muy utilizada la expresión x± s y, en correspondencia resultados del siguiente tipo: 2,1
± 0,17, sin olvidar el acompañamiento de las unidades en que se haya medido la variable.
2º) Acerca de los resultados gráficos:
En general se utilizarán gráficos (tablas y representaciones gráficas) de presentación, no
corresponde acompañar con tablas auxiliares de cálculo, salvo que se adjunten en un anexo separado.
Además de las representaciones gráficas vistas, conocida la descripción numérica, estamos en
condiciones de presentar un nuevo gráfico, el denominado diagrama de caja o bien diagrama de caja y
bigotes (respectivamente, boxplot y box and whiskers) que es un gráfico muy simple en su forma pero
muy informativo en su contenido (describe varias características importantes). El esquema general
responde a lo siguiente
Estructura general
Contenido informativo
Permite visualizar, para un conjunto de datos,
información con relación a las cuatro propiedades
estadísticas de los datos:
a) Posición o tendencia central
b) Dispersión general y presencia de datos atípicos.
c) Asimetría
d) Curtosis
77
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
El paso a paso para
ara construir un diagrama de caja es:
1º) Identifique los límites muestrales (xmín , xmáx),
posiciónelos en la recta de los reales, y únalos para
definir un segmento horizontal (o vertical) con longitud
xmín
igual a la amplitud muestral,
2º) Calcule los cuartiles (q1, q2 = xd , q3) y posiciónelos en
el eje anteriormente trazado. Con los cuartiles 1 y 3
dibuje una caja y particiónela en dos partes trazando una xmín q1 q2 = xd
línea en correspondencia al cuartil 2.
3º) Puede agregar la representación de la media,
agregando una cruz
xmín q1 q2 = xd
xmáx
q3
xmáx
q3
xmáx
x
Ejemplo 4.10. Se trata de construir un diagrama de caja con los datos de una muestra de datos de
peso, en kg (n=20)
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
1º) Ordenación de los datos
20
0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
2º) Identificación de los valores extremos: mín 20 kg y máx 45 kg
kg.
3º) Cálculo de los cuartiles
q1=(24 + 25) / 2 = 24,5 kg ;
q2 =
xd
= (33 + 34)/ 2 =33,5 kg; q3 = (39 + 39) / 2 = 39,0 kg
4º) Dibujar la caja y los bigotes
5º) Interpretación gráfica
•
•
•
muestra, y el cuartil 1 (25% de los datos
El bigote izquierdo informa sobre el menor valor de la muestra
son menores o igual a q1 y, el 75% son mayores o iguales
iguales)
La caja informa sobre los tres cuartiles: a) el borde izquierdo indica el valor del cuartil inferior y el
derecho
echo el valor del cuartil superior, y representa el 50% de los datos posicionados
centradamente. La división interna definida por el cuartil mediano, determina dos compartimentos
desiguales, cada uno contiene 25% de los datos centrales, pero se observa may
mayor
or variabilidad
(mayor amplitud) en el primero, y menor variabilidad en el segundo. Nótese también el diferente
largo de los bigotes. Puede constatarse en la serie ordenada de datos
20
0 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
xmín
q1
q2
q3
xmáx
El bigote derecho informa sobre el cuartil 3 (75% de los datos son menores o igual al q3 y el 25%
son mayores o iguales)
iguales y el mayor valor de la variable observada en la muestra.
6º) Descripción de las propiedades estadísticas:
estadísticas
Posicionamiento de la distribución:
distribución
a1. La mediana tomó el valor 33,5 kg, por tanto un 50% de los datos muestrales correspondieron a
pesos menores y un 50% a pesos mayores.
a2. El primero y segundo cuartil, indican que hay un 25% de datos que son inferiores a 24,5 kg (más
precisamente, entre
e 20 y 24,5 kg) y un 25 % que son superiores a 39 kg (más precisamente entre 39
y 45 kg); el 50% restante de los datos presenta valores intermedios a éstos.
a3. Dado que la primera parte de la caja es mayor que la segunda, hay que interpretar que la
distribución tiene cola izquierda, con lo cual se induce que el valor de la media es inferior al de la
mediana ( x < xd ).
Dispersión de la distribución:
distribución
b1. Amplitud. ∆m = xmáx - xmín = 45 – 20= 25 kg; significa que el recorrido total fue de 25 kg, la variación
total de la muestra fluctuó entre 20 y 45 kg.
b2. Recorrido intercuartílico.
intercuartílico RI = q3 - q1 = 14,5 kg; es decir, el 50% de los datos muestrales está
comprendido entre 24,5 y 39 kg.
b3. Con relación a los valores de la variable comprendidos en el recorrido intercuartílico, se observa que
los datos se han distribuido con mayor dispersión a la izquierda de la mediana (la primera parte de la
caja es mayor) y menor a su derecha (la segunda
segunda parte de la caja se extiende menos). Quiere decir
78
Cátedra de Cálculo Es
Estadístico y Biometría – Facultad de Ciencias
ias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
que los pesos variaron más entre 24,3 y 33,5 kg (a la izquierda del valor mediano) que entre 33,5 y
39 kg (a la derecha del valor mediano).
b4. Con relación a los valores comprendidos en los extremos del recorrido total, resulta que el bigote de
la izquierda o cola izquierda es más corta que la derecha; por ello el 25% de los pesos inferiores
están más concentrados que el 25% de los pesos mayores.
b5. En la muestra no hay datos muy atípicos (desviaciones individuales muy grandes, es decir, pesos
excesivamente pequeños o excesivamente grandes). Un valor atípico puede resultar de transponer
los dígitos al registrar una medición, de leer incorrectamente la carátula de un instrumento, del mal
funcionamiento de
e una parte del equipo, y de otros problemas. Incluso cuando no hay errores de
registro o de observación, un conjunto de datos puede contener una o más mediciones válidas que,
por una razón u otra, difieren notablemente de las otras en el conjunto. Estos vvalores
alores atípicos pueden
causar una marcada distorsión en los valores de los estadígrafos, de modo que aislarlos es un paso
importante en cualquier análisis preliminar de un conjunto de datos (análisis exploratorio de datos),
pero nunca se deberá proceder a simplemente eliminarlos, de hecho los valores atípicos por sí
mismos, podrían estar llamando la atención sobre lo siguiente: que contienen información importante
no compartida con las otras mediciones del conjunto.
Asimetría de la distribución:
distribución este gráfico también proporciona información con respecto a la simetría o
asimetría de la distribución general de los datos. Para la interpretación se utilizan los siguientes criterios:
a) si la mediana está en el centro de la caja o cerca de él, constituye un indic
indicio
io de simetría de los datos,
b) si la mediana está a la izquierda del centro de la caja o sea se aproxima al primer cuartil,
cuartil la
distribución está sesgada a la derecha (asimetría positiva) y, c) si la mediana está a la derecha del
centrode la caja, la distribución
ribución está sesgada a la izquierda (asimetría negativa. Asimismo, la longitud
relativa de los bigotes se puede emplear como un indicio de su asimetría
asimetría:: el bigote del lado sesgado de
la caja tiende a ser más largo que el opuesto. Para el caso de la muestr
muestra
a estudiada, tomando el
centrado en la mediana, se observa que las dos partes de la caja tienen diferente tamaño, lo cual indica
una falta de simetría. Por ser mayor la primera parte, se interpreta que se trata de una distribución con
asimetría negativa (mayor
mayor dispersión en cola izquierda).
Curtosis de la distribución:
distribución: el ancho total de la caja abarca gran parte del recorrido total, por tanto la
concentración de los datos no es importante y se trata de una distribución con escaso apuntalamiento,
es decir, que es de tipo platicúrtico.
Para finalizar, y comprobar la gran utilidad del diagrama de caja como gráfico resumen de las
propiedades estadísticas de los datos en masa, se considerará que se dispone de más de una muestra.
Un resultado posible podría ser
se el siguiente:
Muestra 1
Muestra 2
Notar que claramente se muestra que los valores extremos de las muestras son
algo diferentes y que la distribución general de los datos también lo es: en la
muestra 1 la división de la caja indica mayor variabilidad para los datos por
encima de la mediana, mientras que en la muestra 2 ocurre esto con los datos
inferiores a la mediana.
Ejemplo 4.11: Supóngase que además de la muestra de pesos analizada precedentemente, se dispone
de los datos de una segunda muestra
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
y al representar los datos del análisis resulta el siguiente diagrama de caja
Dejamos al alumno la tarea de realizar un análisis comparativo de las distribuciones correspondientes a
los datos de las dos muestras.
Ejemplo 4.12. Intente ahora obtener información acerca de cinco muestras. La variable estudiada es el
tiempo que demora un corredor, que se está preparando para una carrera, en recorrer 100m. Su
entrenador le ha tomado los tiempos desarrollados en varias corridas realizadas el 1º día de
entrenamiento,
enamiento, el 2º, el 3º, el 4º y el 10º. ¿Qué puede decir acerca de los logros del corredor?
79
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Ejemplo 4.13. Seguidamente le proporcionamos dos distribuciones referidas al crecimiento de plantas,
en cm, sometidas durante un período de tiempo bajo diferentes condiciones. Realice el análisis
comparativo de los resultados.
Para finalizar, cabe explicar el caso de los diagramas de caja que muestran valores atipicos (outliers).
El cuerpo principal de un diagrama de caja muestra el patrón general de comportamiento que tienen los
datos, pero a veces resulta que se tienen algunos datos con un valor “inusual”, esto es, datos muy
grandes o muy pequeños con relación al patrón general de los datos. Estos datos con valores que se
alejan de los restantes pueden deberse a efectos de causas extrañas, como algún error de medición o
registro pero también pueden tener otra explicación. Por tanto su eliminación no debe ser precipitada y
se justifica recurrir al diagrama de caja para mostrarlos en forma particular. A tal efecto, se requiere
agregar otra información al diagrama de caja: la correspondiente a dos tipos de bordes o barreras,
internos y externos, que se definen teniendo en cuenta el recorrido intercuartílico (RI), que se calcula
como la diferentica entre el cuartil superior y el cuartil inferior del siguiente modo:
Barreras internas
Barrera interior inferior = Primer cuartil – 1,5 RI
Barrera interior superior =Tercer cuartil + 1,5 RI
Barreras externas
Barrera exterior inferior = Primer cuartil – 3 RI
Barrera exterior superior = Tercer cuartil + 3 RI
80
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD I: ESTADÍSTICA DESCRIPTIVA
Cuerpo principal del gráfico
Barrera
exterior
inferior
Barrera
interior
superior
Borarrera
interior
inferior
Barrera
exterior
superior
• ••
Datos atípicos
q3 +1,5 RI
q1 -1,5 RI
Cola
Izquierda
(25% datos)
Datos atípicos
extremos
q1 q2
q3
Cola
Derecha
(25% datos)
Recorrido
Intercuartílico
q1 -3 RI
RI = q3 – q1
(50% datos)
q3 +3 RI
Gráfico 4.8. Diagrama de caja con barreras
Si existen valores de la variable atípicos, según la magnitud de sus desvíos, se los encontrará
comprendidos entre las barreras interiores y exteriores.
• Un valor atípico sospechoso o leve, se marca en la gráfica con un círculo relleno (•), en
cambio un valor atípico extremo o severo se suele indicar con un círculo vacío (o) o un
asterisco (*).
Los bordes internos y externos se muestran en el gráfico 4.8. con líneas discontinuas, pero
usualmente no se dibujan en el diagrama de caja. Cualquier medición que esté entre los bordes interno y
externo se llama valor atípico sospechoso, y cualquier medición que esté más allá de los bordes
externos es u valor atípico extremo. Las mediciones que quedan al ubicarse dentro de los bordes, no
son raras. El diagrama de caja también marca el rango de las mediciones dentro del borde al localizar
los valores adyacentes, es decir las mediciones más grande y más pequeña antes de los bordes
internos.
Algunas preguntas que conviene formularse para una mejor interpretación y comprensión del
comportamiento de la variable observada, son:
•
•
•
•
•
•
•
¿Cuáles son los conceptos del análisis descriptivo (estadígrafos) que pueden analizarse en este
tipo de gráfico?
¿Qué valores han tomado esos estadígrafos?
¿Qué porcentaje de datos representa la caja?
¿Qué porcentaje representa cada uno de los bigotes?
¿Siempre se encuentra la mediana en el centro de la caja?
¿Puede ser un bigote más largo que otro?. ¿Qué estaría indicando, si así fuera?
¿Para qué sirven las barreras?
81
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
Descargar