Subido por maurizio1303

estadistica mono

Anuncio
I.E.S.T.P MARÍA ROSARIO ARAOZ PINTO
ESTADISTICA EN LA
INVESTIGACION
FUNDAMENTOS DE INVESTIGACION
2019
INTEGRANTES:






MANRIQUE TRILLO CARLOS
VALVERDE FRANCO NICOLE
ACOSTA HUARI LUIS
MORALES TULLUME CINTHIA
DELGADO AMADO KARLHA
SOTELO AYBAR JOSSELIN
CICLO: II
TURNO: DIURNO
DOCENTE: HEBERT MAMANI
AREA ACADEMICA DE ADMINISTRACION DE EMPRESAS
ESTADISTICA EN LA INVESTIGACION
INDICE
INTRODUCCION .............................................................................................................................. 2
1.
LA ESTADÍSTICA EN EL DISEÑO DE LA INVESTIGACIÓN ......................................... 3
2.
LAS ESTADÍSTICAS EN EL ANÁLISIS DE DATOS ........................................................ 6
3.
MEDIDAS DE TENDENCIA CENTRAL ............................................................................... 8
3.1 LA MEDIA ............................................................................................................................................................... 8
3.2 LA MEDIANA ....................................................................................................................................................... 10
3.3 LA MODA ............................................................................................................................................................. 12
4.
LA CORRELACIÓN ESTADÍSTICA ................................................................................... 13
4.1 Relación entre las variables .......................................................................................................................... 13
4.2 Coeficiente de Correlación ............................................................................................................................. 13
4.3 Medición de la fuerza de la correlación lineal con r............................................................................... 14
4.4 El puntaje z o estandarizado ......................................................................................................................... 15
4.5 Cálculo del coeficiente de correlación lineal r ......................................................................................... 16
4.6 Significación del coeficiente de correlación ............................................................................................ 18
4.7 Interpretación del coeficiente de correlación. ......................................................................................... 21
4.8 Errores comunes relacionados con la correlación ................................................................................ 22
5.
MEDIDAS DE DISPERSION ................................................................................................ 23
5.1 El Rango ............................................................................................................................................................... 23
5.2 Rango intercuartil y rango semiintercuartil .............................................................................................. 24
5.3 Varianza y desviación estándar .................................................................................................................... 25
5.3.1 Varianza para una muestra ...................................................................................... 26
5.3.2 Desviación estándar de la muestra ....................................................................... 26
5.4 COEFICIENTE DE VARIACIÓN ...................................................................................................................... 29
5.4.1 Comparación de dos coeficientes de variación cuando dos variables
tienen distintas unidades de medida .............................................................................. 29
CONCLUSIONES........................................................................................................................... 31
BIBLIOGRAFIA .............................................................................................................................. 32
FUNDAMENTOS DE INVESTIGACION
Página 1
ESTADISTICA EN LA INVESTIGACION
INTRODUCCION
El campo de las estadísticas se remonta a 1654 cuando el jugador francés, Antoine Gombaud,
le preguntó al renombrado matemático y filósofo Blaise Pascal cómo uno debía dividir lo que
está en juego entre los jugadores, cuando un juego de azar es interrumpido prematuramente.
Pascal se lo preguntó al abogado y matemático Pierre de Fermat, y a través de una serie de
cartas, Pascal y Fermat concibieron un sistema matemático que no sólo contestaba la pregunta
original de Gombaud, sino que además ponía los cimientos de la teoría de la probabilidad y
estadística.
Desde sus raíces en los juegos de azar, la estadística se ha desarrollado en un campo de
estudio que consiste en el desarrollo de métodos y pruebas usados para definir
cuantitativamente la variabilidad inherente en los datos, la probabilidad de ciertos resultados y
el error y la incertidumbre asociados a estos resultados (ver nuestro módulo Data: Uncertainty,
Error, and Confidence). De esta manera, los métodos estadísticos son usados extensivamente
a través del proceso científico, desde el diseño de las interrogantes de investigación, al análisis
de datos y a la interpretación final de los datos.
Los métodos estadísticos específicos que se usan, varían mucho entre las diferentes
disciplinas científicas; sin embargo, las razones por las que se usan estas pruebas y técnicas
son similares a través de las disciplinas.
FUNDAMENTOS DE INVESTIGACION
Página 2
ESTADISTICA EN LA INVESTIGACION
1. LA ESTADÍSTICA EN EL DISEÑO DE LA INVESTIGACIÓN
Mucha gente malinterpreta las declaraciones de posibilidad y probabilidad como un signo de
debilidad o incertidumbre en los resultados científicos. Sin embargo, el uso de métodos
estadísticos y pruebas de probabilidad en la investigación es un importante aspecto de la
ciencia que fortalece y añade certidumbre a las conclusiones científicas. Por ejemplo, en 1843,
John Bennet Lawes, un empresario inglés, fundó el instituto agrícola Rothamsted Experimental
Station in Hertfordshire, Inglaterra, para investigar el impacto de las aplicaciones de
fertilizantes en la cosecha. Lawes lo hizo porque había establecido una de las primeras
fábricas de fertilizantes artificiales el año anterior. Durante los próximos 80 años, los
investigadores de este instituto condujeron experimentos en los cuales aplicaron fertilizantes,
cosecharon diferentes productos, registraron la cantidad de precipitación pluvial y midieron el
tamaño de la cosecha al final de cada temporada de crecimiento.
Al final del siglo, el instituto tenía una gran acumulación de datos, pero pocas conclusiones
útiles: un fertilizante podía superar en rendimiento a otro en un año, pero podía tener un
rendimiento inferior en el siguiente, ciertos fertilizantes parecían afectar sólo a algunas
cosechas, y la diferencia en la cantidad de precipitación pluvial cada año continuamente
confundía los experimentos (Salsburg, 2001). Los datos eran esencialmente inútiles porque
había un gran número de variables incontrolables.
En 1919, el centro Rothamsted Station contrató a un joven estadista llamado Ronald Aylmer
Fisher para que trate de entender los datos. Los análisis estadísticos de Fisher sugerían que
la relación entre precipitación pluvial y crecimiento agrícola era mucho más significativa
estadísticamente que la relación entre el tipo de fertilizante y el crecimiento agrícola. Pero la
meta de los científicos agrícolas del centro no era medir la temperatura - ellos querían saber
qué fertilizantes eran los más eficientes para qué productos. Nadie podía sustraer la variable
temperatura en el experimento, pero Fisher se dio cuenta que sus efectos podían
esencialmente ser separados si los experimentos estaban diseñados apropiadamente.
Para poder compartir sus conocimientos con la comunidad científica, publicó dos libros
Métodos estadísticos para investigadores (Statistical Methods for Research Workers) en 1925
y El diseño de los experimentos (The Design of Experiments) en 1935. Al resaltar la necesidad
de considerar el análisis estadístico durante las etapas de planeamiento de la investigación,
Fisher revolucionó la práctica de la ciencia y transformó el centro Rothamsted en un importante
centro de investigación sobre las estadísticas y la agricultura hasta hoy en día.
En el libro El diseño de los experimentos (The Design of Experiments), Fisher introduce varios
conceptos que se han convertido en un sello de la buena investigación científica, incluyendo
el uso de los controles, la aleatorización y la duplicación (Figura 1).
FUNDAMENTOS DE INVESTIGACION
Página 3
ESTADISTICA EN LA INVESTIGACION
Figura 1: Una figura original del libro de Fisher El diseño de los experimentos que muestra el
conjunto de los grupos de tratamiento y la cosecha de cebada en un experimento en el centro
Rothamsted en 1927 (Fisher, 1935). Las letras en paréntesis denotan los terrenos de control
que no han sido tratados con fertilizantes (I) o los que han sido tratados con diferentes
fertilizantes (s = sulfato de amonio, m = cloride of amonio, c = cianamida, and u = urea) con o
sin superfosfato (p). Los números con subíndice entre paréntesis indican las cantidades
relativas del fertilizante usado. Los números debajo de cada bloque indican la cosecha relativa
de cebada de cada terreno.
Controles: El uso de controles está basado en el concepto de variabilidad. Puesto que
cualquier fenómeno tiene alguna medida de variabilidad, los controles ayudan al investigador
a medir variabilidades naturales, aleatorias, o sistemáticas en un sistema similar y usar ese
estimado como una base de comparación para la variable observada o el fenómeno. En el
centro Rothamsted, un control podía ser un producto cosechado que no había recibido la
aplicación de un fertilizante (ver los terrenos señalados I en la Figura 3). La variabilidad
inherente en el crecimiento de las plantas podía seguir produciendo plantas de varias alturas
y tamaños. El control podía proveer una medida del impacto que el clima u otras variables
podían tener sobre el crecimiento agrícola independientemente de la aplicación del fertilizante,
permitiendo de esta manera que los investigadores eliminen este factor.
Aleatorización: La aleatorización estadística ayuda a manejar el sesgo en la investigación
científica. Al contrario que el uso común de la palabra aleatoria, que implica azar o
desorganización, la aleatorización estadística es un procedimiento preciso en el cual se les
asigna a las unidades observadas un grupo de control o tratamiento de una manera que toma
en consideración la influencia potencial de las variables confundidas. Esto permite al
investigador cuantificar la influencia de estas variables confundidas al observarlas en ambos
FUNDAMENTOS DE INVESTIGACION
Página 4
ESTADISTICA EN LA INVESTIGACION
grupos de control y de tratamiento. Por ejemplo, con anterioridad a Fisher, en el centro
Rothamsted, se aplicaba los fertilizantes al borde de diferentes hileras de productos agrícolas,
algunos de los cuales caían casi todos en el borde del terreno. Sin embargo, se sabe que los
bordes afectan el rendimiento agrícola, así que era difícil en muchos casos distinguir los
efectos del borde de los efectos del fertilizante. Fisher introdujo un proceso de aleatorización
al asignar diferentes fertilizantes a diferentes terrenos dentro de un campo agrícola en un año
único, a la vez que se aseguraba que no todos los terrenos de tratamiento (o control) para
cualquier fertilizante cayese al borde del campo agrícola (ver Figura 3).
Duplicación: Fisher también recomendó la duplicación experimental de pruebas y medidas
para que la gama de variabilidad inherentemente asociada al experimento o medida, pudiese
ser cuantificada y la fortaleza de los resultados pudiese ser evaluada. En Rothamsted esto
significaba plantar múltiples terrenos con el mismo producto y aplicar el mismo fertilizante a
cada uno de estos terrenos (ver Figura 3). Es más, esto significaba que se repetían similares
aplicaciones en años diferentes de manera que la variabilidad de las diferentes aplicaciones
de fertilizantes en función de las condiciones meteorológicas climáticas podía ser cuantificada.
En general, los científicos diseñan los estudios de investigación basados en la naturaleza de
las cuestiones que buscan investigar, pero pulen su plan de investigación para concordar con
muchos de los conceptos estadísticos de Fisher y así aumentar la posibilidad de que sus
descubrimientos puedan ser útiles. La incorporación de estas técnicas facilita el análisis y la
interpretación de los datos, otro lugar donde se usan las estadísticas.
FUNDAMENTOS DE INVESTIGACION
Página 5
ESTADISTICA EN LA INVESTIGACION
2. LAS ESTADÍSTICAS EN EL ANÁLISIS DE DATOS
Se ha desarrollado una multitud de técnicas estadísticas para el análisis de datos, pero
generalmente se dividen en dos grupos: descriptivo e inferencial.
Estadística descriptiva: Las estadísticas descriptivas le permiten al científico sumar
rápidamente los atributos más importantes de un conjunto de datos, usando medidas como el
promedio, la media, y la desviación estándar. Estas medidas proveen un sentido general del
grupo estudiado, permitiéndoles a los científicos colocar el estudio en un contexto más amplio.
Por ejemplo, el Cancer Prevention Study I (CPS-I) era un estudio prospectivo de mortalidad
iniciado en 1959, tal como se mencionó con anterioridad. Los investigadores que condujeron
el estudio informaron la edad y la demografía de los participantes, entre otras variables, para
permitir la comparación entre los grupos de estudio y la población más amplia en los Estados
Unidos, en ese momento. Los adultos que participaban en el estudio iban de 30 a 108 años,
con la media de 52 años. Los sujetos del estudio eran 57% de mujeres, 97% de blancos y 2%
de negros. En comparación, la edad media en los Estados Unidos en 1959 era 29.4 años,
obviamente mucho menor que la del grupo de estudio, puesto que el CPS-I no alistó a nadie
menor de 30 años. Es más, 51% de los residentes americanos era mujeres en 1960, el 89%
era blanco, y aproximadamente el 11% era negro. Una reconocida deficiencia del CPS I,
fácilmente identificable en las estadísticas descriptivas, es que el estudio no considera
adecuadamente el perfil de enfermedades en los grupos minoritarios en los Estados Unidos,
ya que el 97% de los participantes están categorizados como blanco.
Estadísticas inferenciales: Se usan las estadísticas inferenciales para modelar los patrones
en los datos, emitir juicios sobre los datos, identificar las relaciones entre las variables en el
conjunto de datos, e inferir sobre poblaciones más amplias basándose en muestras de datos
más pequeñas. Es importante recordar que desde una perspectiva estadística la palabra
"población" no tiene que significar un grupo de personas, como lo significa en el lenguaje
común. En una población estadística se usa el grupo más importante para inferir - este puede
ser un grupo de personas, de plantas de maíz, de impactos de meteoritos, o cualquier grupo
de medidas que se pudiesen usar.
En los estudios científicos es especialmente importante transferir los resultados de una
pequeña muestra a la población más amplia. Por ejemplo, mientras que los estudios Cancer
Prevention Studies I y II inscribieron aproximadamente de 1 millón a 1.2 millones de personas,
respectivamente, representaban una pequeña fracción de los 179 y 226 millones de personas
que vivían en los Estados Unidos en 1960 y 1980. Algunas de las técnicas inferenciales
comunes incluyen la regresión, la correlación y la prueba o estimación de puntos. Por ejemplo,
Petter Kristense y Tor Bjerkedal (2007) examinaron los resultados de exámenes de CI en un
grupo de 250,000 hombres en el personal militar de Noruega. Su análisis sugirió que los niños
primogénitos tenían un promedio de CI en los resultados de los exámenes de 2.82 ± 0.07
FUNDAMENTOS DE INVESTIGACION
Página 6
ESTADISTICA EN LA INVESTIGACION
puntos superiores a los niños que nacen en segundo lugar, una diferencia estadística en el
nivel de 95% de confiabilidad (Kristensen & Bjerkedal, 2007).
La frase "estadísticamente significativa" es un concepto clave en el análisis de datos, y es
comúnmente malentendido. Mucha gente asume que, de acuerdo como se usa comúnmente
la palabra significativa, denominar algo estadísticamente significativo quiere decir que el
resultado es importante o crucial, pero no es así. Al contrario, algo estadísticamente
significativo es un estimado de la probabilidad en la que la asociación o diferencia observada
se debe al azar en vez de a una asociación real. En otras palabras, las pruebas
estadísticamente significativas describen la posibilidad de que una asociación o diferencia
observada podría ser vista, aunque no hubiese presente una asociación o diferencia real. La
medida de lo significativo es usualmente expresada en términos de confiabilidad, lo que tiene
el mismo significado en las estadísticas que en el lenguaje común, pero puede ser cuantificado.
En el trabajo de Kristensen y Bjerkedal, por ejemplo, se encontró que la diferencia en el CI
entre los primogénitos y los niños que nace en segundo lugar es significativa con un nivel de
95% de confiabilidad, lo que quiere decir que sólo hay un 5% de probabilidad que la diferencia
en el CI sea debida al azar. Esto no quiere decir que la diferencia sea grande o siquiera
importante: 2.82 puntos en el CI es una pequeña diferencia en la escala del CI y casi
insignificante como para declarar que los primogénitos son unos genios en relación a sus
hermanos menores. Los descubrimientos tampoco implican que el resultado sea un 95%
correcto. Al contrario, indican que la diferencia observada se debe simplemente a un sesgo en
el muestreo aleatorio y que hay un 95% de probabilidades que se pueda obtener el mismo
resultado si otro investigador conduce un estudio similar en una población de hombres
noruegos. Un noruego que nace en segundo lugar y que tiene un CI superior a su hermano
mayor no refuta la investigación - es solamente un resultado estadísticamente menos
probable.
La falta de diferencia estadística significativa es tan reveladora como la diferencia o relación
estadística. Por ejemplo, los investigadores han encontrado que los riesgos de muerte por
enfermedades coronarias en los hombres que han dejado de fumar durante por lo menos dos
años no es significativamente diferente del riesgo de estas enfermedades en hombres no
fumadores (Rosenberg et al., 1985). Así que las estadísticas muestran que mientras que los
fumadores tienen un índice significativamente superior de enfermedades coronarias que los
no fumadores, este riesgo vuelve al estado base en sólo dos años después de haber dejado
de fumar.
FUNDAMENTOS DE INVESTIGACION
Página 7
ESTADISTICA EN LA INVESTIGACION
3.
MEDIDAS DE TENDENCIA CENTRAL
Es posible caracterizar cualquier conjunto de datos numéricos por la medición de su tendencia
central, variación y forma. La mayoría de los conjuntos de datos presentan una tendencia
central a agruparse en torno a un valor central. Cuando la gente habla de un “promedio”, o
“valor medio”, o del valor más común o frecuente, se refiere de manera informal a la media, la
mediana y la moda, tres medidas de tendencia central.
3.1 LA MEDIA
La media aritmética (por lo general llamada la media) es la medida más común de la tendencia
central. La media es la medida más común en la que todos los valores desempeñan el mismo
papel.
La media sirve como “punto de equilibrio” del conjunto de datos (como el punto de apoyo de
un balancín). La media se calcula sumando todos los valores del conjunto de datos y dividiendo
el resultado por el número de valores considerados.
Para representar a la media de una muestra, utilice el símbolo , llamado X testada. Si se
considera una muestra que contiene n valores, la ecuación de su media se escribe como:
Al utilizar la serie X1, X2, . . . , Xn para representar al conjunto de n valores y n para representar
al número de valores, la ecuación se convierte en:
Al utilizar la notación de sumatoria, reemplace el numerador X1 + X2 + … + Xn por el término
, que significa la suma de todos los valores XI desde el primer valor de X, que es XI.,
hasta el último valor de X, que es Xn, para formar la ecuación, una definición formal de la media
de una muestra.
FUNDAMENTOS DE INVESTIGACION
Página 8
ESTADISTICA EN LA INVESTIGACION
Media de una muestra
La media de una muestra es la suma de los valores dividida por el número de valores.
Como todos los valores desempeñan un papel semejante, una media se verá muy afectada
por cualquier valor que difiera mucho de los demás en el conjunto de datos. Cuando tenga
tales valores extremos, debe evitar el uso de la media.
La media sugiere cuál es un valor “típico” o central del conjunto de datos. Por ejemplo, si
conocemos el tiempo que le lleva arreglarse por las mañanas, podrá planear mejor su inicio
del día y reducir al mínimo cualquier retraso (o adelanto) para llegar a su destino. Supongamos
que definimos en minutos (redondeando al minuto más cercano) el tiempo que le llevamos
arreglándonos, desde que nos levantamos hasta que salimos de casa. A lo largo de 10 días
hábiles consecutivos, recabamos los tiempos que se muestran a continuación:
FUNDAMENTOS DE INVESTIGACION
Página 9
ESTADISTICA EN LA INVESTIGACION
3.2 LA MEDIANA
La mediana se puede considerar de manera general como un “valor medio” en el sentido de
que aproximadamente la mitad de los valores en un conjunto de datos son menores y la mitad
con mayores que la mediana. La siguiente definición es más precisa.
La mediana de un conjunto de datos es la medida de tendencia central que indica el valor
intermedio, cuando los datos originales se presentan en orden de magnitud creciente (o
decreciente).
Propiedades importantes de la mediana


La mediana no cambia por mucho cuando se incluyen sólo unos pocos valores
extremos, por lo que la mediana es una medida de tendencia central resistente.
La mediana no utiliza directamente todos los valores de datos. (Por ejemplo, si el valor
mayor se cambia por uno mucho más grande, la mediana no cambia).
Cálculo y notación de la mediana
La mediana de una muestra se denomina a veces x (que se pronuncia “x tilde”) o M o Med; no
existe una notación generalmente aceptada y no hay un símbolo especial para la mediana de
una población. Para encontrar la mediana, primero ordene los valores (póngalos en orden) y
luego siga uno de los siguientes dos procedimientos:
1. Si el número de valores de datos es impar, la mediana es el número ubicado en el intermedio
exacto de la lista ordenada.
2. Si el número de valores de datos es par, la mediana se obtiene calculando la media de los
dos números intermedios de la lista ordenada.
Para calcular la mediana del conjunto de datos, primero ordene los valores de menor a mayor.
Utilice la ecuación para calcular la clasificación del valor que corresponde a la mediana.
MEDIANA
El 50% de los valores son menores que la mediana y el otro 50% son mayores.
FUNDAMENTOS DE INVESTIGACION
Página 10
ESTADISTICA EN LA INVESTIGACION
Se puede calcular el valor de la mediana siguiendo una de las dos reglas siguientes:


Regla 1 Si en el conjunto de datos hay un número impar de valores, la mediana es el
valor colocado en medio.
Regla 2 Si en el conjunto de datos hay un número par de valores, entonces la mediana
es el promedio de los dos valores colocados en medio.
Para calcular la mediana de la muestra de los 10 tiempos para arreglarse en las mañanas, los
tiempos diarios se ordenan de la siguiente manera:
Puesto que para esta muestra de 10 elementos el resultado de dividir n + 1 por 2 es (10+1) /2
= 5.5, debe utilizarse la regla 2 y promediar los valores clasificados quinto y sexto, 39 y 40.
Por lo tanto, la mediana es 39.5. Una mediana de 39.5 significa que la mitad de los días, el
tiempo necesario para arreglarse es menor o igual que 39.5 minutos, y la otra mitad de los
días es mayor o igual que 39.5 minutos. Esta mediana de 39.5 minutos es muy cercana a la
media del tiempo para arreglarse de 39.6 minutos.
FUNDAMENTOS DE INVESTIGACION
Página 11
ESTADISTICA EN LA INVESTIGACION
3.3 LA MODA
La moda no se utiliza mucho con datos cuantitativos, pero es la única medida de tendencia
central que puede usarse con datos cualitativos (que consisten solamente en nombres,
etiquetas o categorías).
La moda de un conjunto de datos es el (los) valor(es) que ocurre(n) con mayor frecuencia.
Propiedades importantes de la moda







La moda se puede encontrar con datos cualitativos.
Un conjunto de datos puede tener una moda, o múltiples modas, o no tener ninguna
Determinación de la moda: Un conjunto de datos puede tener una moda, más de una
moda, o ninguna moda.
Cuando dos valores de datos ocurren con la misma mayor frecuencia, cada uno es una
moda y se dice que el conjunto de datos es bimodal.
Cuando más de dos valores de datos ocurren con la misma mayor frecuencia, cada
uno es una moda y se dice que el conjunto de datos es multimodal.
Cuando ningún valor de datos se repite, se dice que no hay moda.
Cuando usted pide helado con su pastel, se dice que está “a la moda”.
Cálculo de la moda
El gerente de sistemas encargado de la red de una empresa lleva un registro del número de
fallas del servidor que se presentan por día. Calcule la moda de los siguientes datos, que
representan el número de fallas diarias del servidor durante las últimas dos semanas.
1 3 0 3 26 2 7 4 0 2 3 3 6 3
SOLUCIÓN
El arreglo ordenado de estos datos es:
0 0 1 2 2 3 3 3 3 3 4 6 7 26
Como el 3 aparece cinco veces, más que ningún otro valor, la moda es 3. De esta forma, el
gerente de sistemas se dará cuenta de que la situación más común es la presencia de tres
fallas del servidor al día. Para este conjunto de datos, la mediana también es igual a 3, mientras
que la media es de 4.5.
El valor extremo de 26 es atípico. Con estos datos, la mediana y la moda miden la tendencia
central mejor que la moda.
FUNDAMENTOS DE INVESTIGACION
Página 12
ESTADISTICA EN LA INVESTIGACION
4.
LA CORRELACIÓN ESTADÍSTICA
La correlación estadística constituye una técnica estadística que nos indica si dos variables
están relacionadas o no.
Por ejemplo, considera que las variables son el ingreso familiar y el gasto familiar. Se sabe
que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto, están relacionados
en el sentido de que el cambio en cualquier variable estará acompañado por un cambio en
la otra variable.
De la misma manera, los precios y la demanda de un producto son variables relacionadas;
cuando los precios aumentan la demanda tenderá a disminuir y viceversa.
Si el cambio en una variable está acompañado de un cambio en la otra, entonces se dice
que las variables están correlacionadas. Por lo tanto, podemos decir que el ingreso familiar
y gastos familiares y el precio y la demanda están correlacionados.
4.1 Relación entre las variables
La correlación puede decir algo acerca de la relación entre las variables. Se utiliza para
entender:
a) si la relación es positiva o negativa
b) la fuerza de la relación.
La correlación es una herramienta poderosa que brinda piezas vitales de información.
En el caso del ingreso familiar y el gasto familiar, es fácil ver que ambos suben o bajan
juntos en la misma dirección. Esto se denomina correlación positiva.
En caso del precio y la demanda, el cambio se produce en la dirección opuesta, de modo
que el aumento de uno está acompañado de un descenso en el otro. Esto se conoce como
correlación negativa.
4.2 Coeficiente de Correlación
La correlación estadística es medida por lo que se denomina coeficiente de correlación (r).
Su valor numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación.
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa, mientras
que r = 0 indica que no hay relación (o que las variables son independientes y no están
relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r = -1,0 describe
una correlación negativa perfecta.
Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la relación
entre las variables.
FUNDAMENTOS DE INVESTIGACION
Página 13
ESTADISTICA EN LA INVESTIGACION
Como norma general, las siguientes directrices sobre la fuerza de la relación son útiles
(aunque muchos expertos podrían disentir con la elección de los límites).
Valor de r
Fuerza de relación
-1,0 A -0,5 o 1,0 a 0,5
Fuerte
-0,5 A -0,3 o 0,3 a 0,5
Moderada
-0,3 A -0,1 o 0,1 a 0,3
Débil
-0,1 A 0,1
Ninguna o muy débil
La correlación es solamente apropiada para examinar la relación entre datos cuantificables
significativos (por ejemplo, la presión atmosférica o la temperatura) en vez de datos
categóricos, tales como el sexo, el color favorito, etc.
4.3 Medición de la fuerza de la correlación lineal con r
Debido a que las conclusiones basadas en exámenes visuales de diagramas de dispersión
son subjetivas en gran medida, necesitamos mediciones más objetivas. Usaremos el
coeficiente de correlación lineal r, que es un número que mide la fuerza de la asociación
lineal entre las dos variables.
El coeficiente de correlación lineal r mide la fuerza de la correlación lineal entre los valores
cuantitativos pareados x e y en una muestra. El coeficiente de correlación lineal r (-1 ≤ r <
0 para correlación negativa y 0 ≤ r ≤ 1 para correlación positiva), se calcula utilizando la
FUNDAMENTOS DE INVESTIGACION
Página 14
ESTADISTICA EN LA INVESTIGACION
fórmula A o la fórmula B, incluidas en el siguiente cuadro de elementos clave. El coeficiente
de correlación lineal se denomina en ocasiones coeficiente de correlación del momento del
producto Pearson en honor a Karl Pearson (1857-1936), quien lo desarrolló originalmente.
Debido a que el coeficiente de correlación lineal r se calcula usando datos muestrales, es
un estadístico muestral utilizado para medir la fuerza de la correlación lineal entre x e y. Si
tuviéramos todos los pares de valores x e y de toda una población, el resultado de la fórmula
A o la fórmula B sería un parámetro poblacional, representado por r (letra griega rho).
Formula A:
Formula B:
donde zx expresa la puntuación z para un valor muestral individual x y zy es la puntuación z
para el valor muestral correspondiente y.
4.4 El puntaje z o estandarizado
Los puntajes Z son transformaciones que se pueden hacer a los valores o puntuaciones de
una distribución normal, con el propósito de analizar su distancia respecto a la media,
expresándolas en unidades de desviación estándar. Un puntaje Z nos indica la dirección y
grado en que un valor individual obtenido se aleja de la media, en una escala de unidades
de desviación estándar.
Por ejemplo, si la edad promedio del grupo de estudiantes de psicología es de 23 años y la
desviación estándar es igual a 4, un estudiante de 27 años se ubicaría 1 desviación
estándar (Z=1) respecto al promedio.
FUNDAMENTOS DE INVESTIGACION
Página 15
ESTADISTICA EN LA INVESTIGACION
La fórmula para transformar un valor de una distribución normal en una unidad de
desviación estándar es:
Donde X es la puntuación o valor a transformar, µ es la media de la distribución original, y
σ la desviación estándar de la misma distribución. El resultado Z es la puntuación
transformada a unidades de desviación estándar.
¿Cuándo es útil calcular el puntaje Z?
Es útil cuando comparo dos variables medidas en escalas diferentes (por ejemplo, peso y
estatura) o cuando el puntaje original no se entiende con claridad en su forma bruta.
4.5 Cálculo del coeficiente de correlación lineal r
Usando la formula A:
Con base en la fórmula A, el valor de r se calcula de la manera mostrada a continuación.
Aquí, la variable x se usa para los valores del consumo de chocolate, y la variable y se usa
para los valores de los premios Nobel. Debido a que hay cinco pares de datos, n = 5. Los
valores requeridos restantes se calculan en la tabla 1.
TABLA 1
Si se utiliza la fórmula A con los datos pareados de la tabla 1, r se calcula de la siguiente
manera:
FUNDAMENTOS DE INVESTIGACION
Página 16
ESTADISTICA EN LA INVESTIGACION
Usando la formula B:
Usamos la fórmula B para encontrar el valor del coeficiente de correlación lineal r para los
cinco pares de datos de chocolate/Nobel listados en la tabla 2.
TABLA 2
Si los cálculos manuales son absolutamente necesarios, la fórmula A es mucho más fácil
que la fórmula B, pero la fórmula B tiene la ventaja de hacer que sea más fácil entender
cómo funciona r. (Consulte la justificación para r que se analizará más adelante en esta
sección). Como en el ejemplo 2, la variable x se usa para los valores del chocolate, y la
variable y se utiliza para los valores del Nobel. En la fórmula B, cada valor muestral se
reemplaza por su puntuación z correspondiente. Por ejemplo, al usar números no
redondeados, los valores del chocolate tienen una media de = 4.8 y una desviación
estándar de SX = 0.836660, así que el primer valor del chocolate 5 se convierte en una
puntuación z de 0.239046 como se muestra aquí
La tabla 3 lista las puntuaciones z para todos los valores del chocolate (vea la tercera
columna) y las puntuaciones z para todos los valores del Nobel (vea la cuarta columna). La
última columna de la tabla 3 lista los productos ZX ∙ ZY.
FUNDAMENTOS DE INVESTIGACION
Página 17
ESTADISTICA EN LA INVESTIGACION
TABLA 3
Si se usa ∑ (Zx. Zy) = 3.179746 de la tabla 3, el valor de r se calcula usando la fórmula B,
como se muestra a continuación.
4.6 Significación del coeficiente de correlación
Una vez calculado el valor del coeficiente de correlación interesa determinar si tal valor
obtenido muestra que las variables X e Y están relacionadas en realidad o tan solo
presentan dicha relación como consecuencia del azar. En otras palabras, nos preguntamos
por la significación de dicho coeficiente de correlación.
Un coeficiente de correlación se dice que es significativo si se puede afirmar, con una cierta
probabilidad, que es diferente de cero. Más estrictamente, en términos estadísticos,
preguntarse por la significación de un cierto coeficiente de correlación no es otra cosa que
preguntarse por la probabilidad de que tal coeficiente proceda de una población cuyo valor
sea de cero. A este respecto, como siempre, tendremos dos hipótesis posibles:
FUNDAMENTOS DE INVESTIGACION
Página 18
ESTADISTICA EN LA INVESTIGACION
Desde el supuesto de la Hipótesis nula se demuestra que la distribución muestral de
correlaciones procedentes de una población caracterizada por una correlación igual a cero
(ρ = 0) sigue una ley de Student con N-2 grados de libertad, de media el valor poblacional
y desviación tipo:
En consecuencia, dado un cierto coeficiente de correlación rxy obtenido en una determinada
muestra se trata de comprobar si dicho coeficiente es posible que se encuentre dentro de
la distribución muestral especificada por la Hipótesis nula. A efectos prácticos, se calcula el
número de desviaciones tipo que se encuentra el coeficiente obtenido del centro de la
distribución, según la formula conocida:
y se compara el valor obtenido con el existente en las tablas para un cierto nivel de
significación α y N-2 grados de libertad -t (α, N-2) - que como se sabe, marca el límite (baja
probabilidad de ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente
rxy a la distribución muestra de correlaciones procedentes de una población con ρ =0. De
esta forma si:
Ejemplo: Tengamos las siguientes puntuaciones en las variables X (inteligencia) e Y
(rendimiento académico):
FUNDAMENTOS DE INVESTIGACION
Página 19
ESTADISTICA EN LA INVESTIGACION
Buscamos en la tabla de t de Student para α = .0 05 y 10-2 = 8 grados de libertad, tal como
se observa a continuación donde se muestra un fragmento de dicha tabla:
El valor marcado con una elipse:
Comparamos el valor t obtenido con el de las tablas:
FUNDAMENTOS DE INVESTIGACION
Página 20
ESTADISTICA EN LA INVESTIGACION
Rechazamos la Hipótesis nula con un riesgo (máximo) de equivocarnos de 0.05. La
correlación obtenida no procede de una población caracterizada por una correlación de
cero. Concluimos, pues, que ambas variables están relacionadas.
4.7 Interpretación del coeficiente de correlación.
Como se ha indicado el coeficiente de correlación de Pearson es un índice cuyos valores
absolutos oscilan entre 0 y 1. Cuanto más cerca de 1 mayor ser la correlación, y menor
cuanto más cerca de cero. ¿Pero cómo interpretar un coeficiente determinado? ¿Qué
significa un coeficiente de 0.6? ¿Es alto o bajo? No puede darse una respuesta precisa.
Depende en gran parte de la naturaleza de la investigación. Por ejemplo, una correlación
de 0.6 sería baja si se trata de la fiabilidad de un cierto test, pero, sin embargo, sería alta si
estamos hablando de su validez.
No obstante, intentaremos abordar el tema desde dos perspectivas distintas. Por un lado,
ya ha sido tratado desde la perspectiva de la significación estadística mencionada en el
apartado anterior. Desde este enfoque una correlación es efectiva si puede afirmarse que
es distinta de cero. Pero ha de decirse que una correlación significativa no necesariamente
ha de ser una correlación fuerte; simplemente es una correlación diferente de cero. O en
otros términos, es una correlación que es poco probable que proceda de una población
cuya correlación es cero. Tan solo se está diciendo que se ha obtenido "algo" y que ese
"algo" es (probablemente) más que "nada". La significación de rxy depende en gran medida
del tamaño de la muestra una correlación de 0.01 puede ser significativa en una muestra
suficientemente grande y otra de 0.9 no serlo en una muestra pequeña.
Aquí se cumple la ley de los grandes números; tendencias débiles son muy improbables,
desde la Hipótesis nula, en grandes masas de datos, mientras que tendencias fuertes
pueden ser relativamente probables en un tamaño pequeño de muestra.
Más interés tiene la interpretación del coeficiente de correlación en términos de proporción
de variabilidad compartida o explicada, donde se ofrece una idea más cabal de la magnitud
de la relación. Nos referimos al coeficiente de determinación. Dicho coeficiente se define
como el cuadrado del coeficiente de correlación; esto es, dada dos variables X e Y, hace
referencia a r2xy, y se entiende como una proporción de variabilidades (lo demostraremos
más adelante). Por ejemplo, si la correlación entre inteligencia y rendimiento académico es
de 0.8, significa que 0.82= 0.64 es la proporción de varianza compartida entre ambas
variables. Puede interpretarse como que un 64% del rendimiento académico es debido a la
inteligencia -variabilidad explicada-, o bien, y esto es más exacto si hemos de ser estrictos,
que inteligencia y rendimiento académico comparten un 64% de elementos, o lo que es lo
mismo, tanto la inteligencia como el rendimiento ponen en juego un 64% de habilidades
comunes.
FUNDAMENTOS DE INVESTIGACION
Página 21
ESTADISTICA EN LA INVESTIGACION
En estas circunstancias, si tomamos como variable dependiente o a explicar el rendimiento
académico y elegimos la inteligencia como variable predictora o explicativa, tendremos que
tal variable da cuenta de un 64% de la variabilidad en rendimiento. Queda, por ello, 10.64=0.36, un 36% del rendimiento que queda sin explicar. A este valor (0.36) se le
denomina coeficiente de no determinación o coeficiente de alienación, y se define como 1r2xy. Un término más adecuado y que proporciona mayor compresión es el de proporción de
variabilidad no explicada. Si incrementásemos el número variables explicativas con otras
variables como la motivación o la personalidad probablemente logremos aumentar la
proporción de variabilidad explicada en rendimiento, obteniendo, si es eso lo que nos
interesa, un mayor control en la variable a predecir. De esto nos ocuparemos cuando
tratemos la correlación múltiple.
El planteamiento de la correlación en términos de proporción variabilidad es, en nuestra
opinión, la forma más comprensiva de afrontar la correlación lineal. Si acordamos que la
variable dependiente Y corresponde a un cierto aspecto de la conducta que deseamos
conocer, y definimos su variabilidad total, se trata de encontrar un conjunto de variables X1,
X2, ... Xk que absorban de Y un gran porcentaje de su variabilidad.
De esta forma, interviniendo sobre el conjunto de variables independientes podremos dar
cuenta de lo que sucede en Y, y modificarlo, si fuera el caso.
4.8 Errores comunes relacionados con la correlación
A continuación, se describen tres de los errores más comunes que se producen en la
interpretación de resultados que involucran correlación:
1. Suponer que la correlación implica causalidad. Un ejemplo clásico incluye datos
pareados que consisten en la población de cigüeñas en Copenhague y el número de
nacimientos humanos. Durante varios años, los datos sugirieron una correlación lineal.
Boletín: Las cigüeñas en realidad no causan nacimientos y los nacimientos no causan
cigüeñas. Ambas variables se vieron afectadas por otra variable que acechaba en el fondo.
(Una variable interventora es aquella que afecta las variables que se estudian pero que no
se incluye en el estudio). Aquí, una población humana en aumento resultó en más
nacimientos y una mayor construcción de techos de paja atrajo a las cigüeñas.
2. Usar datos basados en promedios. Los promedios suprimen la variación individual y
pueden inflar el coeficiente de correlación. Un estudio produjo un coeficiente de correlación
lineal de 0.4 para datos pareados que relacionan ingresos y educación entre individuos,
pero el coeficiente de correlación lineal se convirtió en 0.7 cuando se usaron promedios
regionales.
3. Ignorar la posibilidad de una relación no lineal. Si no existe una correlación lineal, puede
haber alguna otra correlación que no sea lineal.
FUNDAMENTOS DE INVESTIGACION
Página 22
ESTADISTICA EN LA INVESTIGACION
5. MEDIDAS DE DISPERSION
Las medidas de tendencia central no son suficientes para describir un conjunto de valores
de alguna variable estadística. Los promedios determinan el centro, pero nada indican
acerca de cómo están situados los datos respecto al centro.
En primer lugar, se necesita una medida del grado de dispersión o variabilidad con
respecto al centro con la finalidad de ampliar la descripción de los datos o de comparar
dos o más series de datos.
En segundo lugar, se necesita una medida del grado de asimetría o deformación en ambos
lados del centro de una serie de datos, con el fin de describir la forma de la distribución de
los datos. Esta medida se denomina índice de asimetría.
En tercer lugar, se necesita una medida que nos permita comparar el apuntamiento o
curtosis de distribuciones simétricas con respecto a la distribución simétrica normal. Esta
medida se denomina índice de apuntamiento o curtosis.
Las medidas de dispersión o variabilidad son números que miden el grado de separación
de los datos con respecto a un valor central, que generalmente es la media aritmética.
Las principales medidas de dispersión son:
1)
2)
3)
4)
El rango,
El rango intercuartil,
La varianza y desviación estándar, y
El coeficiente de variación.
5.1 El Rango
El rango de variación o recorrido, R, de una serie de datos, es la diferencia entre sus
valores máximo y mínimo. Esto es,
siendo
el valor máximo y
el valor mínimo.
El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,
ya que depende únicamente de los dos valores extremos. Su valor puede cambiar
grandemente si se añade o elimina un sólo dato. Por tanto, su uso es muy limitado.
Por ejemplo, dadas las dos series de datos
a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9
FUNDAMENTOS DE INVESTIGACION
Página 23
ESTADISTICA EN LA INVESTIGACION
Ambas series tienen la misma media, 5, y el mismo rango, 8 , pero las dos series no tienen
la misma dispersión, ya que la segunda tiene mayor variabilidad. El empleo del rango como
medida de comparación de variación puede estar justificado cuando se precise
rápidamente de una medida de dispersión y no haya tiempo de calcular algunas de las
otras.
5.2 Rango intercuartil y rango semiintercuartil
El rango intercuartil. RI, es la diferencia entre sus cuartiles tercero y primero. Esto es,
El rango intercuartil es una medida que excluye el 25 % más alto y el 25 % más bajo, dando
un rango dentro del cual se encuentra el 50% central de los datos.
Si el rango intercuartil es muy pequeño entonces describe alta uniformidad o pequeña
variabilidad de los valores centrales
Por ejemplo, si en una distribución de frecuencias de 100 ingresos quincenales se
encuentran los cuartiles Q, = 62$, y Q3 = 70$, entonces, el rango intercuartil es
RI = Q3 -Q1= $70 - 62$ = 8. Esto, indica que el 50% de los ingresos: quincenales de los
100 empleados varía dentro del valor $8.
El rango intercuartil se aplica a variables medidas en escala por lo menos ordinal.
El rango semiintercuartil, RSI, es igual al rango intercuartil dividido por 2.
El rango semiintercuartil se puede asociar con la mediana y se puede expresar en función
de ella. Si una distribución es normal los cuartiles Q1 y Q3 son equidistantes de la mediana.
Se deduce entonces, que el rango intercuartil y la mediana ± RSI, son la misma distancia.
Además, como exactamente el 50% de los datos se encuentran en el rango intercuartil,
entonces, el intervalo: mediana ± RSI contiene también exactamente el 50% de los datos.
Si la distribución es asimétrica, el intervalo: mediana ± R Sí contendría aproximadamente
el 50% de los datos.
Por ejemplo, si en la distribución de los 100 ingresos quincenales donde Q1 = 62$ , y Q3=
70$, el rango semiintercuartil es $4.Si la mediana fuera igual a $66,entonces,
aproximadamente el 50% de los datos se hallan comprendidos en el intervalo $66±4.
NOTA. Si la distribución es muy asimétrica, el rango intercuartil (o el semiintercuartil) es
preferible a la desviación estándar como medida de la dispersión.
FUNDAMENTOS DE INVESTIGACION
Página 24
ESTADISTICA EN LA INVESTIGACION
5.3 VARIANZA Y DESVIACIÓN ESTÁNDAR
A pesar de que el rango y el rango intercuartil son medidas de la variación, no contemplan
cómo se distribuyen o se agrupan los valores que están entre los extremos. La varianza y
la desviación estándar son dos medidas de la variación muy utilizadas para tomar en cuenta
cómo se distribuyen los datos. Estos estadísticos miden la dispersión “promedio” alrededor
de la media, es decir, qué tanto varían los valores más grandes que están por encima de
ella y cómo se distribuyen los valores menores que están por debajo de ella.
Una medida simple de la variación alrededor de la media consideraría la diferencia entre
cada uno de los valores y la media, y luego las sumaría. Sin embargo, si usted hiciera eso,
podría descubrir que la media es el punto de equilibrio de un conjunto de datos y que tales
diferencias sumarían cero en todo conjunto de datos. Una medida de la variación que sería
distinta de un conjunto de datos a otro consistiría en elevar al cuadrado la diferencia entre
cada uno de los valores y la media, y después sumarlas. En estadística, esta cantidad se
denomina suma de cuadrados (o SS). Esta suma luego se divide entre el número de valores
menos 1 (para datos de la muestra), con el fin de obtener una varianza de la muestra (S2).
La raíz cuadrada de la varianza de la muestra es la desviación estándar de la muestra (S).
Puesto que la suma de cuadrados es una suma de diferencias elevadas al cuadrado que,
por las reglas aritméticas siempre será no negativa, ni la varianza ni la desviación estándar
podrán ser negativas.
En casi todos los conjuntos de datos, la varianza y la desviación estándar tendrán un valor
positivo, aunque si no existe variación en todo el conjunto de datos y todos los valores de
la muestra son los mismos, ambos estadísticos serán igual a cero.
En una muestra que contiene n valores, X1, X2, X3, . . ., Xn, la varianza de la muestra
(representada por el símbolo S2) es :
FUNDAMENTOS DE INVESTIGACION
Página 25
ESTADISTICA EN LA INVESTIGACION
5.3.1 VARIANZA PARA UNA MUESTRA
La varianza para una muestra es la suma de las diferencias con respecto a la media
elevada al cuadrado y dividida por el tamaño de la muestra menos uno.
(a)
5.3.2 DESVIACIÓN ESTÁNDAR DE LA MUESTRA
La desviación estándar de una muestra es la raíz cuadrada de la suma de los cuadrados
de las diferencias con respecto a la media dividida por el tamaño de la muestra menos uno.
(b)
Si el denominador fuese n en vez de n – 1, calcularía el promedio de las diferencias con
respecto a la media elevadas al cuadrado. Sin embargo, se utiliza n – 1 porque ciertas
propiedades matemáticas convenientes del estadístico S2 lo hacen apropiado para la
inferencia estadística. Conforme aumenta el tamaño de la muestra, se hace cada vez más
pequeña la diferencia entre dividir por n o por n – 1.
Es más probable que utilicemos la desviación estándar de la muestra como medida de la
variación.
A diferencia de la varianza de la muestra, que es una cantidad elevada al cuadrado, la
desviación estándar siempre es un número con las mismas unidades que los datos de
muestra originales. La desviación estándar le ayuda a conocer de qué manera se agrupan
o distribuyen un conjunto de datos con respecto a su media. En casi todos los conjuntos de
datos, la mayoría de los valores observados quedan dentro de un intervalo de más menos
una desviación estándar por encima y por debajo de la media. Por esa razón, conocer la
FUNDAMENTOS DE INVESTIGACION
Página 26
ESTADISTICA EN LA INVESTIGACION
media y la desviación estándar ayuda a definir por lo menos dónde se agrupa la mayoría
de los valores de los datos.
Para calcular a mano la varianza S2 y la desviación estándar S de una muestra:
Paso 1: Calculemos la diferencia entre cada uno de los valores y la media.
Paso 2: Elevemos al cuadrado cada una de esas diferencias.
Paso 3: Sumemos las diferencias elevadas al cuadrado.
Paso 4: Dividamos el total entre n – 1, para obtener la varianza de la muestra.
Paso 5: Extraigamos la raíz cuadrada de la varianza de la muestra, para obtener la
desviación estándar de la muestra.
La tabla 4 muestra los cuatro primeros pasos para calcular la varianza de los datos
referentes al tiempo necesario para arreglarse, con una media ( ) = 39.6. En la segunda
columna se muestra el paso 1. En la tercera columna se muestra el paso 2.
En la parte inferior se muestra la suma de las diferencias elevadas al cuadrado (paso 3).
Luego, este total se divide entre 10 – 1 = 9, para calcular la varianza (paso 4).
TABLA 4
FUNDAMENTOS DE INVESTIGACION
Página 27
ESTADISTICA EN LA INVESTIGACION
También es posible calcular la varianza si se sustituyen los valores de los términos en la
ecuación (a):
Puesto que la varianza está en unidades cuadradas (en minutos cuadrados en este caso),
para calcular la desviación estándar se calcula la raíz cuadrada de la varianza. Al utilizar
la ecuación (b), la desviación estándar S de la muestra es:
Esto indica que los tiempos necesarios para arreglarse en esta muestra se agrupan dentro
de los 6.77 minutos que circundan a la media de 39.6 minutos (es decir, se agrupan entre
− 1S = 32.83 y + 1S = 46.37). De hecho, 7 de los 10 quedan dentro de este intervalo.
Al utilizar la segunda columna de la tabla 4, también es posible calcular que la suma de las
diferencias entre cada uno de los valores y la media es cero. Para todo conjunto de datos,
esta suma siempre será igual a cero:
Esta propiedad es una de las razones por las que la media se utiliza como la medida más
común de tendencia central.
A continuación, se resumen las características del rango, del rango intercuartil, de la
varianza y de la desviación estándar.
• Cuanto más esparcidos o dispersos están los datos, son mayores el rango, el rango
intercuartil, la varianza y la desviación estándar.
• Cuanto más concentrados u homogéneos son los datos, son menores el rango, el rango
intercuartil, la varianza y la desviación estándar.
• Si todos los valores son los mismos (de tal manera que no hay variación de los datos), el
rango, el rango intercuartil, la varianza y la desviación estándar son iguales a cero.
• Ninguna de las medidas de la variación (rango, rango intercuartil, desviación estándar y
varianza) puede ser negativa.
FUNDAMENTOS DE INVESTIGACION
Página 28
ESTADISTICA EN LA INVESTIGACION
5.4 COEFICIENTE DE VARIACIÓN
A diferencia de las medidas de la variación antes expuestas, el coeficiente de variación es
una medida relativa de la variación que siempre se expresa como porcentaje, más que en
términos de las unidades de los datos en particular. El coeficiente de variación, que se
denota mediante el símbolo CV, mide de dispersión de los datos con respecto a la media.
Coeficiente de variación
El coeficiente de variación es igual a la desviación estándar dividida por la media,
multiplicada por 100%.
Para la muestra de los 10 tiempos para arreglarse, como = 39.6 y S = 6.77, el coeficiente
de variación es:
Para estos datos, la desviación estándar es el 17.1% del tamaño de la media. El coeficiente
de variación es muy útil al comparar dos o más conjuntos de datos medidos con unidades
distintas, como ilustra el próximo ejemplo.
5.4.1 Comparación de dos coeficientes de variación cuando dos variables
tienen distintas unidades de medida
El gerente de operaciones de un servicio de entrega de paquetería está pensando si es
conveniente adquirir una nueva flota de camiones. Al guardar los paquetes en los camiones
para su entrega, se deben tomar en cuenta dos características principales: el peso (en
libras) y el volumen (en pies cúbicos) de cada artículo.
El gerente de operaciones toma una muestra de 200 paquetes, y encuentra que la media
del peso es 26.0 libras, con una desviación estándar de 3.9 libras, mientras que la media
en volumen es de 8.8 pies cúbicos, con una desviación estándar de 2.2 pies cúbicos.
¿Cómo puede el gerente de operaciones comparar la variación de peso y volumen?
FUNDAMENTOS DE INVESTIGACION
Página 29
ESTADISTICA EN LA INVESTIGACION
Solución
Como las unidades difieren para el peso y volumen, el gerente de operaciones debe
comparar la variabilidad relativa en ambos tipos de medidas.
Para el peso, el coeficiente de variación es
FUNDAMENTOS DE INVESTIGACION
Página 30
ESTADISTICA EN LA INVESTIGACION
CONCLUSIONES

Los conceptos antes mencionados han sido analizados e investigados de tal manera
de hacer más fácil su comprensión y entendimientos ya que la estadística es la
ciencia que trata de entender, organizar y tomar decisiones que estén de acuerdo
con los análisis efectuados.

La estadística juega un papel muy importante en nuestras vidas, ya que actualmente
ésta se ha convertido en un método muy efectivo para describir con mucha precisión
los valores de datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, además, sirve como herramienta para relacionar y analizar dichos datos.

El trabajo del experto estadístico ha evolucionado mucho, ya no consiste sólo en
reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa
información, ahora tiene un papel mucho más importante del que tenía en años
pasados.

Es de vital importancia para nuestra vida profesional venidera, que manejemos
estos conceptos con facilidad, así mismo el que los usemos de la manera apropiada,
siempre en pro de buscar soluciones a los problemas que se nos puedan presentar.
FUNDAMENTOS DE INVESTIGACION
Página 31
ESTADISTICA EN LA INVESTIGACION
BIBLIOGRAFIA

LEVINE, DAVID M., KREHBIEL, TIMOTHY C. YMARK L. BERENSON, Estadística
para administración. Cuarta edición. PEARSON EDUCACIÓN, México, 2006

MARIO F. TRIOLA. Estadística. Decimosegunda edición. Pearson Educación de
México, S.A. de C.V., 2018

ZAMORA C. MANUEL. Estadística: Descriptiva e inferencial, aplicaciones.
Quinta edición. Editorial Moshera S.R.L, Perú, 2005.

https://www.visionlearning.com/es/library/Proceso-de-la
Ciencia/49/Estad%C3%ADsticas-en-la-Investigacion-Cient%C3%ADfica/155
FUNDAMENTOS DE INVESTIGACION
Página 32
Descargar