Estadística

Anuncio
Estadística
Saltar a navegación, búsqueda
Para análisis, datos y gráficas sobre Wikipedia, véase Wikipedia:Estadísticas.
La estadística es una ciencia con base matemática referente a la recolección, análisis e
interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo
aleatorio.
Distribución normal.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma
de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos elementos:


La estadística descriptiva, que se dedica a los métodos de recolección,
descripción, visualización y resumen de datos originados a partir de los
fenómenos en estudio. Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la
desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide
poblacional, clústers, etc.
La estadística inferencial, que se dedica a la generación de los modelos,
inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en
cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los
datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias
pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis),
estimaciones de características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o modelamiento de
relaciones entre variables (análisis de regresión). Otras técnicas de
modelamiento incluyen anova, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay
también una disciplina llamada estadística matemática, la cual se refiere a las bases
teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de
aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas
económicas, estadísticas criminales, etc.
ORDENANDO LA INFORMACION
D i s t ri bu c i ón d e
f r e cue nci a s
La distribución de frecuencias o tabla de frecuencias es
una
ordenación
en
forma
de
tabla
de
los
datos
estadísticos,
asignando a cada dato su frecuencia correspondiente .
Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece
un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número
total de datos, que se representa p or N.
Para
indicar
resumidamente
estas
sumas
se
utiliza
griega Σ (sigma mayúscula) que se lee suma o sumatoria.
la
letra
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y s e representa por ni.
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La
frecuencia acumulada
absolutas
de
todos
los
es
valores
la
suma de
inferiores
o
las frecuencias
iguales
al
valor
considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la
frecuencia acumulada de un determinado valor y el número total
de datos. Se puede expresar en tantos por ciento.
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las
siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31,
31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 2 9, 29.
En
la
primera
columna
de
la
tabla
colocamos
la
variable
ordenada de menor a mayor, en la segunda hacemos el recuento y
en la tercera anotamos la frecuencia absoluta.
xi
Recuento
fi
Fi
ni
Ni
27
I
1
1
0.032
0.032
28
II
2
3
0.065
0.097
29
6
9
0.194
0.290
30
7
16
0.226
0.0516
31
8
24
0.258
0.774
32
III
3
27
0.097
0.871
33
III
3
30
0.097
0.968
34
I
1
31
0.032
1
31
1
Este tipo de tablas de frecuencias se utiliza con variables
discretas.
D i s tr i b uci ó n d e f r e cue nci a s a g rup a d a s
La distribución de frecuencias agrupadas o tabla con datos
agrupados se emplea si las variables toman un número grande de
valores o la variable es continua .
Se agrupan los valores en intervalos que tengan la misma
amplitud
denominados
clases.
A
cada
clase
se
le
asigna
su
frecuencia correspondiente .
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase
y el límite superior de la clase .
Amplitud de la clase
La
amplitud
de
la
clase
es
la
diferencia
entre
el
límite
superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es
el valor que representa a todo el intervalo para el cálculo de
algunos parámetros.
Co ns t r ucci ó n d e una t a b l a d e da t o s a g r u p a d o s
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7,
34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35,
28, 38, 41, 48, 15, 32, 13.
1º Se localizan los valores menor y mayor de la distribución.
En este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que
la
diferencia
y
que
sea
divisible
por
el
número
de
intervalos
queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número has ta 50 :
5 = 10 intervalos.
Se
forman
los
intervalos
teniendo
presente
que
el
límite
inferior de una clase pertenece al intervalo, pero el límite superior
no pertenece intervalo, se cuenta en el siguiente intervalo.
ci
fi
Fi
ni
Ni
[0, 5)
2.5
1
1
0.025
0.025
[5, 10)
7.5
1
2
0.025
0.050
[10, 15)
12.5
3
5
0.075
0.125
[15, 20)
17.5
3
8
0.075
0.200
[20, 25)
22.5
3
11
0.075
0.2775
[25, 30)
27.5
6
17
0.150
0.425
[30, 35)
32.5
7
24
0.175
0.600
[35, 40)
37.5
10
34
0.250
0.850
[40, 45)
42.5
4
38
0.100
0.950
[45, 50)
47.5
2
40
0.050
1
40
1
DEFINICIÓN
Las tablas de frecuencias sirven para ordenar y organizar los datos
estadísticos. Con ellas, una masa amorfa de datos pasa a ser una
colección ordenada y perfectamente inteligible.
- FRECUENCIAS (ABSOLUTAS)
Con los datos se construye la tabla de frecuencias:


En la primera columna, la variable xi, con todos sus posibles
valores. Si la variable es continua tomaremos como xi, la marca
de clase, es decir, el punto medio de cada intervalo.
En la segunda columna, la correspondiente frecuencia, fi:
número de veces que aparece cada valor.
EJEMPLO 1: Variable discreta: Calificaciones en matemáticas de 40
alumnos de una clase.
EJEMPLO 3: Variable discreta tratada como continua:
Al hacer balance en una oficina bancaria se tienen anotadas las 145
cuentas corrientes correspondientes a los diferentes clientes con que
cuenta. Para facilitar su estudio se agrupan según un intervalo de
valores. A cada intervalo se le llama CLASE. El valor de cada cuenta
está en Euros. Construye, paso a paso, la siguiente tabla de
frecuencias :
FRECUENCIAS RELATIVAS
Cuando se desea comparar varias distribuciones similares con distinto
número de elementos, se debe recurrir a las frecuencias relativas.
Estas vienen dadas en : "tanto por uno" (fr) o en "tantos por ciento"
(%).
Si N es el número de individuos:

fr =

% = 100.fr =
Ejemplo: Vamos a completar un poco más la Tabla de
Frecuencias. Extrayendo de cada Clase o Modalidad el valor
medio (marca de clase), podemos prescindir de la columna de
Clases para todo lo que sigue.
Construye, paso a paso, la siguiente tabla de frecuencias:
FRECUENCIAS ACUMULADAS
En una distribución de frecuencias, se llama frecuencia acumulada, Fi,
correspondiente al valor i-ésimo, xi, a la suma de la frecuencia de ese
valor con todas las anteriores: Fi = f1 + f2 + .... + fi.
Análogamente se puede definir frecuencia relativa acumulada o
porcentaje acumulado.
Ejemplo:
Observa la siguiente escena, si tomamos la variable estadística número 1
tenemos la tabla de frecuencia de una variable discreta, las notas de una
prueba de matemáticas de 40 alumnos. Si tomamos la variable 2 se trata
de la tabla de frecuencias (no completa) de una variable continua, las
alturas de un grupo de 33 alumnos.
Actividades:
1.- Traslada la tabla de frecuencias del caso discreto a tu cuaderno,
observando como han sido calculadas cada una de las frecuencias.
2.- Comprueba que la suma de todas las frecuencias absolutas es
igual al número de alumnos y que la suma de todas las frecuencias
relativas es igual a 1.
3.- Pasa a la variable continua utilizando el pulsador, y traslada a tu
cuaderno la tabla de frecuencias incompleta. Calcula las marcas de
clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta
acumulada y frecuencia relativa acumulada y completa la tabla.
TABLAS CON DATOS AGRUPADOS
Cuando en una distribución estadística el número de valores que toma
la variable es muy grande, conviene elaborar una tabla de frecuencias
agrupándolos en intervalos.
Para ello:




Se localizan los valores extremos, a y b, y se halla su diferencia,
r = b-a
Se decide el número de intervalos que se quiere formar, teniendo
en cuenta la cantidad de datos que se poseen. El número de
intervalos no debe ser inferior a 6 ni superior a 15.
Se toma un intervalo, r', de longitud algo mayor que el recorrido
r y que sea múltiplo del número de intervalos, con objeto de que
estos tengan una longitud entera.
Se forman los intervalos de modo que el extremo inferior del
primero sea algo menor que a y el extremo superior del último
sea algo superior a b. Es deseable que los extremos de los
intervalos no coincidan con ninguno de los datos. Para ello,
puede convenir que dichos extremos tengan valores no enteros.
Cuando se elabora una tabla con datos agrupados, se pierde algo de
información (pues en ella se ignora cada valor concreto, que se
difumina dentro de un intervalo). A cambio, se gana en claridad y
eficacia.
TABLA DE FRECUENCIAS COMPLETA
Ejercicio: Completa la siguientes tabla con todo lo
aprendido (Frec. absoluta, Frec. relativa, Frec. relativa
en %, y todas las acumuladas)
e
Diagrama de tallo y hojas
Un diagrama donde cada valor de
datos es dividido en una "hoja"
(normalmente el último dígito) y
un "tallo" (los otros dígitos). Por
ejemplo "32" sería dividido en "3"
(tallo) y "2" (hoja).
Los valores del "tallo" se escriben
hacia abajo y los valores "hoja"
van a la derecha (o izquierda) del
los valores tallo.
El "tallo" es usado para agrupar
los puntajes y cada "hoja" indica
los puntajes individuales dentro
de cada grupo.
EL DIAGRAMA DE TALLO Y HOJA
Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se
divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios
las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada
observación a lo largo del eje horizontal.
Ejemplo
La siguiente distribución de frecuencia muestra el número de anuncios comerciales
pagados por los 45 miembros de Greater Buffalo Automobile Dealer´s Association en
1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y 99 anuncios (pero
menos de 100). Sin embargo, ¿El numero de comerciantes pagados en esta clase se
agrupan en alrededor de 90, están dispersos a lo largo de toda clase, o se acumulan
alrededor de 99? No podemos saberlo.
90 a 100
7
100 a 110
6
110 a 120
9
120
8
a 130
130 a 140
7
140 a 150
3
150 a 160
3
sumatoria de la frecuencia=
45
Una técnica que se usa para presentar información cuantitativa en forma condensada es
el diagrama de tallo y hoja. En el ejemplo anterior no se da la identidad de los valores
de la clase de 90 a 100. Para ilustrar la construcción de un diagrama de tallo y hojas
usando el número de comerciales comprados, supongamos que las 7 observaciones en la
clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o dígitos
principales, en este caso el 9. Las hojas son los dígitos secundarios. EL tallo se coloca a
la izquierda de una línea vertical y los valores de las hojas a la derecha.
Los valores de las clases de 90 a 100, aparecerían como sigue:
9|6434567
Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo
renglón del diagrama de tallo y hojas aparecería como sigue:
9|3445667
Con el diagrama de tallo y hojas podemos observar rápidamente que hubo 2
comerciantes que compraron 94 comerciales y que el número de anuncios comprados
fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una distribución de
frecuencia, pero con más información, esto es, valores de datos en lugar de marcas.
La realización de los estudios clínico-epidemiológicos implica
finalmente emitir unos resultados cuantificables de dicho estudio o
experimento. La claridad de dicha presentación es de vital
importancia para la comprensión de los resultados y la interpretación
de los mismos. A la hora de representar los resultados de un análisis
estadístico de un modo adecuado, son varias las publicaciones que
podemos consultar1. Aunque se aconseja que la presentación de
datos numéricos se haga habitualmente por medio de tablas, en
ocasiones un diagrama o un gráfico pueden ayudarnos a representar
de un modo más eficiente nuestros datos.
En este artículo se abordará la representación gráfica de los
resultados de un estudio, constatando su utilidad en el proceso de
análisis estadístico y la presentación de datos. Se describirán los
distintos tipos de gráficos que podemos utilizar y su correspondencia
con las distintas etapas del proceso de análisis.
Análisis descriptivo.
Cuando se dispone de datos de una población, y antes de abordar
análisis estadísticos más complejos, un primer paso consiste en
presentar esa información de forma que ésta se pueda visualizar de
una manera más sistemática y resumida. Los datos que nos interesan
dependen, en cada caso, del tipo de variables que estemos
manejando2.
Para variables categóricas3, como el sexo, estadio TNM, profesión,
etc., se quiere conocer la frecuencia y el porcentaje del total de casos
que "caen" en cada categoría. Una forma muy sencilla de representar
gráficamente estos resultados es mediante diagramas de barras o
diagramas de sectores. En los gráficos de sectores, también
conocidos como diagramas de "tartas", se divide un círculo en tantas
porciones como clases tenga la variable, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta
o relativa. Un ejemplo se muestra en la Figura 1. Como se puede
observar, la información que se debe mostrar en cada sector hace
referencia al número de casos dentro de cada categoría y al
porcentaje del total que estos representan. Si el número de
categorías es excesivamente grande, la imagen proporcionada por el
gráfico de sectores no es lo suficientemente clara y por lo tanto la
situación ideal es cuando hay alrededor de tres categorías. En este
caso se pueden apreciar con claridad dichos subgrupos.
Los diagramas de barras son similares a los gráficos de sectores.
Se representan tantas barras como categorías tiene la variable, de
modo que la altura de cada una de ellas sea proporcional a la
frecuencia o porcentaje de casos en cada clase (Figura 2). Estos
mismos gráficos pueden utilizarse también para describir variables
numéricas discretas que toman pocos valores (número de hijos,
número de recidivas, etc.).
Para variables numéricas continuas, tales como la edad, la
tensión arterial o el índice de masa corporal, el tipo de gráfico más
utilizado es el histograma. Para construir un gráfico de este tipo, se
divide el rango de valores de la variable en intervalos de igual
amplitud, representando sobre cada intervalo un rectángulo que tiene
a este segmento como base. El criterio para calcular la altura de cada
rectángulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de los datos en cada intervalo y el
área de los rectángulos. Como ejemplo, la Tabla I muestra la
distribución de frecuencias de la edad de 100 pacientes, comprendida
entre los 18 y 42 años. Si se divide este rango en intervalos de dos
años, el primer tramo está comprendido entre los 18 y 19 años, entre
los que se encuentra el 4/100=4% del total. Por lo tanto, la primera
barra tendrá altura proporcional a 4. Procediendo así sucesivamente,
se construye el histograma que se muestra en la Figura 3. Uniendo
los puntos medios del extremo superior de las barras del histograma,
se obtiene una imagen que se llama polígono de frecuencias. Dicha
figura pretende mostrar, de la forma más simple, en qué rangos se
encuentra la mayor parte de los datos. Un ejemplo, utilizando los
datos anteriores, se presenta en la Figura 4.
Otro modo habitual, y muy útil, de resumir una variable de tipo
numérico es utilizando el concepto de percentiles, mediante
diagramas de cajas4,5. La Figura 5 muestra un gráfico de cajas
correspondiente a los datos de la Tabla I. La caja central indica el
rango en el que se concentra el 50% central de los datos. Sus
extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La
línea central en la caja es la mediana. De este modo, si la variable es
simétrica, dicha línea se encontrará en el centro de la caja. Los
extremos de los "bigotes" que salen de la caja son los valores que
delimitan el 95% central de los datos, aunque en ocasiones coinciden
con los valores extremos de la distribución. Se suelen también
representar aquellas observaciones que caen fuera de este rango
(outliers o valores extremos). Esto resulta especialmente útil para
comprobar, gráficamente, posibles errores en nuestros datos. En
general, los diagramas de cajas resultan más apropiados para
representar variables que presenten una gran desviación de la
distribución normal. Como se verá más adelante, resultan además
de gran ayuda cuando se dispone de datos en distintos grupos de
sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele
ser necesario, para posteriores análisis, comprobar la normalidad de
alguna de las variables numéricas de las que se dispone. Un
diagrama de cajas o un histograma son gráficos sencillos que
permiten comprobar, de un modo puramente visual, la simetría y el
"apuntamiento" de la distribución de una variable y, por lo tanto,
valorar su desviación de la normalidad. Existen otros métodos
gráficos específicos para este propósito, como son los gráficos P-P o
Q-Q. En los primeros, se confrontan las proporciones acumuladas de
una variable con las de una distribución normal. Si la variable
seleccionada coincide con la distribución de prueba, los puntos se
concentran en torno a una línea recta. Los gráficos Q-Q se obtienen
de modo análogo, esta vez representando los cuantiles de
distribución de la variable respecto a los cuantiles de la distribución
normal. En la Figura 6 se muestra el gráfico P-P correspondientes a
los datos de la Tabla I que sugiere, al igual que el correspondiente
histograma y el diagrama de cajas, que la distribución de la variable
se aleja de la normalidad.
Comparación de dos o más grupos.
Cuando se quieren comparar las observaciones tomadas en dos o
más grupos de individuos una vez más el método estadístico a
utilizar, así como los gráficos apropiados para visualizar esa relación,
dependen del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir
empleando gráficos de barras o de sectores. Podemos querer
determinar, por ejemplo, si en una muestra dada, la frecuencia de
sujetos que padecen una enfermedad coronaria es más frecuente en
aquellos que tienen algún familiar con antecedentes cardiacos. A
partir de dicha muestra podemos representar, como se hace en la
Figura 7, dos grupos de barras: uno para los sujetos con
antecedentes cardiacos familiares y otro para los que no tienen este
tipo de antecedentes. En cada grupo, se dibujan dos barras
representando el porcentaje de pacientes que tienen o no alguna
enfermedad coronaria. No se debe olvidar que cuando los tamaños de
las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas, ya que en otro caso el gráfico podría resultar
engañoso.
Por otro lado, la comparación de variables continuas en dos o
más grupos se realiza habitualmente en términos de su valor medio,
por medio del test t de Student, análisis de la varianza o métodos no
paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico
utilizado. En este caso resulta muy útil un diagrama de barras de
error, como en la Figura 8. En él se compara el índice de masa
corporal en una muestra de hombres y mujeres. Para cada grupo, se
representa su valor medio, junto con su 95% intervalo de confianza.
Conviene recordar que el hecho de que dichos intervalos no se
solapen, no implica necesariamente que la diferencia entre ambos
grupos pueda ser estadísticamente significativa, pero sí nos puede
servir para valorar la magnitud de la misma. Así mismo, para
visualizar este tipo de asociaciones, pueden utilizarse dos diagramas
de cajas, uno para cada grupo. Estos diagramas son especialmente
útiles aquí: no sólo permiten ver si existe o no diferencia entre los
grupos, sino que además nos permiten comprobar la normalidad y la
variabilidad de cada una de las distribuciones. No olvidemos que las
hipótesis de normalidad y homocedasticidad son condiciones
necesarias para aplicar algunos de los procedimientos de análisis
paramétricos.
Por último, señalar que también en esta situación pueden utilizarse
los ya conocidos gráficos de barras, representando aquí como altura
de cada barra el valor medio de la variable de interés. Los gráficos
de líneas pueden resultar también especialmente interesantes, sobre
todo cuando interesa estudiar tendencias a lo largo del tiempo
(Figura 9). No son más que una serie de puntos conectados entre sí
mediante rectas, donde cada punto puede representar distintas cosas
según lo que nos interese en cada momento (el valor medio de una
variable, porcentaje de casos en una categoría, el valor máximo en
cada grupo, etc).
Relación entre dos variables numéricas.
Cuando lo que interesa es estudiar la relación entre dos variables
continuas, el método de análisis adecuado es el estudio de la
correlación. Los coeficientes de correlación (Pearson, Spearman, etc.)
valoran hasta qué punto el valor de una de las variables aumenta o
disminuye cuando crece el valor de la otra. Cuando se dispone de
todos los datos, un modo sencillo de comprobar, gráficamente, si
existe una correlación alta, es mediante diagramas de dispersión,
donde se confronta, en el eje horizontal, el valor de una variable y en
el eje vertical el valor de la otra. Un ejemplo sencillo de variables
altamente correlacionados es la relación entre el peso y la talla de un
sujeto. Partiendo de una muestra arbitraria, podemos construir el
diagrama de dispersión de la Figura 10. En él puede observarse
claramente como existe una relación directa entre ambas variables, y
valorar hasta qué punto dicha relación puede modelizarse por la
ecuación de una recta. Este tipo de gráficos son, por lo tanto,
especialmente útiles en la etapa de selección de variables cuando se
ajusta un modelo de regresión lineal.
Otros gráficos.
Los tipos de gráficos mostrados hasta aquí son los más sencillos que
podemos manejar, pero ofrecen grandes posibilidades para la
representación de datos y pueden ser utilizados en múltiples
situaciones, incluso para representar los resultados obtenidos por
métodos de análisis más complicados. Podemos utilizar, por ejemplo,
dos diagramas de líneas superpuestos para visualizar los resultados
de un análisis de la varianza con dos factores (Figura 11). Un
diagrama de dispersión es el método adecuado para valorar el
resultado de un modelo de regresión logística (Figura 12). Existen
incluso algunos análisis concretos que están basados completamente
en la representación gráfica. En particular, la elaboración de curvas
ROC (Figura 13) y el cálculo del área bajo la curva constituyen el
método más apropiado para valorar la exactitud de una prueba
diagnóstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las
representaciones gráficas pueden alcanzar en el proceso de análisis
de datos. La mayoría de los textos estadísticos y epidemiológicos4
hacen hincapié en los distintos tipos de gráficos que se pueden crear,
como una herramienta imprescindible en la presentación de
resultados y el proceso de análisis estadístico. No obstante, es difícil
precisar cuándo es más apropiado utilizar un gráfico que una tabla.
Más bien podremos considerarlos dos modos distintos pero
complementarios de visualizar los mismos datos. La creciente
utilización de distintos programas informáticos hace especialmente
sencillo la obtención de las mismas. La mayoría de los paquetes
estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen
grandes posibilidades en este sentido. Además de los gráficos vistos,
es posible elaborar otros gráficos, incluso tridimensionales,
permitiendo grandes cambios en su apariencia y facilidad de
exportación a otros programas para presentar finalmente los
resultados del estudio.
Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes
según el hábito de fumar.
Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico.
Tabla I. Distribución de frecuencias
de la edad en 100 pacientes.
Edad
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
41
42
Nº de pacientes
1
3
4
7
5
8
10
8
9
6
6
4
3
4
5
3
2
3
1
2
3
1
1
1
Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I.
Figura 4. Polígono de frecuencias para los datos de la Tabla I.
Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.
Figura 6. Gráfico P-P de normalidad para los datos de la Tabla I.
Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna
enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.
Figura 8. Barras de error. Variación en el índice de masa corporal según el sexo.
Figura 9. Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo
Hospitalario "Juan Canalejo" durante el periodo 1981-1997.
Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una
muestra de recién nacidos según el control ginecológico del embarazo y el hábito de
fumar de la madre.
Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis
hepática, según un modelo de regresión logística ajustando por el % de protrombina y el
presentar o no hepatomegalia.
Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis.
IMPACTO DE LA COMPUTADORA EN LA ENSEÑANZA DE LA
ESTADÍSTICA
Esta sección presenta la evolución del uso de la computadora, algunas de sus
aplicaciones típicas y los riesgos que ello implica.
Los primeros usos del software estadístico en la enseñanza de la estadística han
sido la presentación de "output" impresos a los alumnos para interpretar
resultados. La masividad en la Universidad y el costo de las computadoras, hacían
imposible otra forma de presentar dicho software.
Esta forma de presentación no hacía más que sustituir la antigua formulación del
problema por la que proporciona el output. El alumno adquiría destreza de donde
buscar los resultados que le interesan en ese universo de indicadores que figuran
en la salida.
En su momento, los profesores que aplicaban esta técnica creían que estaban
innovando en la forma de enseñar estadística. Y sí lo estaban haciendo porque
evitaban cálculos engorrosos (por ejemplo cuando se planteaba una regresión
múltiple o técnicas de clustering, entre otros). Pero fue un primer paso en un largo
camino. Ahora se está en condiciones de desarrollar un análisis en clase
conjuntamente con los alumnos, discutiendo los pasos a seguir, sin plantear uno
solo como el único o dar un conjunto de datos para que ellos desarrollen sus
propios trabajos.
La simulación es un ejemplo de cómo utilizar el computador en la estadística
aplicada. Existen software que simulan sistemas físicos, sociales o empresariales.
Uno de las más sencillos y conocidos trata de simular la toma de decisiones en
diversos escenarios y analizar sus resultados en un entorno competitivo. El alumno
debe manejar varias variables en procura de maximizar las ganancias de su
empresa.
Modelizar por computadora se critica porque se basa en "la fuerza bruta". Por
ejemplo, en el desarrollo de un estudio de la demanda de un producto, se puede
generar una gran cantidad de modelos ( utilizando todas las variables disponibles
en una tabla de datos ) para luego elegir el "mejor". Esto puede llevar a generar
modelos erróneos conceptualmente. Por esto mismo, los autores opinamos que no
es posible separar la estadística (y sus aplicaciones computacionales) del
conocimiento de la disciplina a la que se está aplicando. Las computadoras ayudan
a enriquecer el conocimiento de la disciplina, y no a llegar a "cosas sin
explicación" o evidentemente equivocadas.
Las áreas de análisis multivariado fueron las más beneficiadas por el uso de la
computadora. Las técnicas a utilizar no se ven limitadas a pesar de que el número
de variables sea considerable, ya que los problemas de cálculo se minimizan.
Tampoco los gráficos resultan un escollo. Algunos profesores, en ausencia de
impedimentos de cálculos, le piden al alumno que aplique tales o cuales métodos,
incentivando de esta forma la destreza en el uso del software (y el conocimiento de
muchas de sus variantes). Sin embargo, no hay una enseñanza orientada a la
resolución de problemas (porque no se ha planteado un problema) sino a la
aplicación de técnicas estadística sin un claro objetivo.
Paradójicamente, el uso de la computadora ha generado nuevos problemas. Uno de
ellos es que se corre el riesgo de desarrollar análisis que constituyen sólo un ejercicio
de uso de software, sin dedicar el suficiente tiempo a analizar la coherencia y lógica
detrás de los mismos.
Algunos ejemplos son:



Determinar medias y desviaciones estándar de variables con escala nominal,
debido a que en la tabla de datos figuran códigos numéricos de las distintas
categorías.
Calcular la media y el desvío estándar de los números que identifican cada
formulario.
Asignar un número a cada individuo según el orden que ocupa, y concluir que
su distribución es simétrica.
Cuando los cálculos llevaban mucho tiempo, se debía pensar si era necesario realizar
tal operación. Ahora que los cálculos no son obstáculo, muchas veces no se piensa
qué es lo que se está haciendo. El momento de reflexión se realiza después de la etapa
de cálculo y no antes. Ahora se dedica tiempo y esfuerzo en descartar análisis e
indicadores sin sentido.
Los Software estadísticos que facilitan una variedad de técnicas estadísticas
descriptiva e inferencial, poco a poco, están cambiando la enseñanza de esta
disciplina. Ya no es necesario concentrarse mucho en el manejo de fórmulas
engorrosas. Esto puede conducir, a pretender el mismo objetivo que antes pero
demorando menos o a usar la computadora para potenciar las posibilidades de la
enseñanza de estadística. Nuestra opinión es que si bien las opciones anteriores no
son excluyentes, se debe insistir más en el sentido de las técnicas, en su aplicación
apropiada y en la buena interpretación de los resultados.
3. CAMBIOS SUGERIDOS AL INCORPORAR LA COMPUTADORA
En esta sección sugerimos cambios que consideramos imprescindibles para una
buena incorporación de la computadora en la enseñanza de la estadística. Ellos se
refieren a la formación de los profesores, distribución de los tiempos, el uso de
paquetes estadísticos versus planillas electrónicas y estudios de casos.
La incorporación de computadoras a la enseñanza de la estadística implica que los
profesores tienen que saber como manejar dicha tecnología. Además, si el uso de la
tecnología involucra la posibilidad de cambios curriculares implica mucho más
que los simples conocimientos sobre como activar máquinas y usar software.
Significa cambios en las actitudes, creencias y modos de actuar del profesor. Si
creemos que debemos "enseñar como nos enseñaron nuestros profesores" es difícil
imaginar que un profesor, que nunca ha aprendido estadística usando
computadoras, va a poder enseñar o guiar el aprendizaje de sus alumnos, usando
las mismas.
Tampoco hay que caer en el otro extremo, cualquier curso que utiliza
computadoras no tiene porqué ser mejor que otro curso que no la utiliza. El rigor
analítico no puede perderse porque se superen las dificultades de cálculo, de lo
contrario caemos en usar una herramienta sin saber sus cómo y porqué.
El efecto de la computadora sobre la enseñanza de la estadística es metodológico y
de contenido. En cuanto a contenido se necesitarán más tópicos de metodología de
la investigación estadística y análisis exploratorio de datos para apoyar el área de
la computación. Del punto de vista metodológico hay que tomar en cuenta
paquetes interactivos y gráficos que permiten cambiar el enfoque didáctico y poner
menos énfasis en manipulaciones mecánicas, y más en el desarrollo de conceptos
que permiten descubrir y explorar con la ayuda de computadoras.
Podemos pensar que un curso de Estadística se divide en tres partes: teórico,
resolución de ejercicios-práctico- y aplicación de la computadora. Muchas veces las
dos primeras áreas se interrelacionan pero el uso de la computadora no se inserta
adecuadamente. La enseñanza del software se considera un fin en sí mismo. La
relación de tiempos es aproximadamente: 5 de teórico - práctico y 1 de
computación. Nuestra propuesta en el uso de la computadora en la enseñanza de la
estadística es modificar esta relación para aproximarla a una distribución que
responda más adecuadamente al saber hacer (teórico-práctico 3 y computación 3).
Queremos dejar muy claro que en ningún momento se pretende adiestrar en el uso
de un software estadístico. Menos aún, en cuestiones informáticas. Queremos
enfatizar siempre que la computadora es un mero instrumento, comparable a una
calculadora..
Existe mucho software estadístico que sirve como apoyo del profesor para mostrar
en forma precisa y rápida las gráficas e indicadores estadísticos. Con estos
software los profesores pueden trabajar bien las gráficas y los indicadores, y
mostrar rápidamente lo que pasa al cambiar los datos. Generalmente resulta una
confusión si el profesor dispone de nada más que pizarrón y transparencias. Si la
computadora está presentando las gráficas, el profesor y los alumnos pueden
fijarse en el comportamiento de los mismos, en vez de calcular y graficar.
Se ha planteado en varias ocasiones la siguiente controversia: utilizar software
estadístico o planilla electrónica. Nuestra experiencia nos ha mostrado que ambos
son necesarios, dado que enfatizan diferentes aspectos.
Las planillas electrónicas ( en sus utilización más sencilla ) han sido caracterizadas
como una combinación de un papel cuadriculado con una calculadora. Ellas nos
permiten enseñar los procedimientos de cálculo en forma rápida, pero destacando
una forma procedural ( vamos indicando el procedimiento de cómo hacerlo ). Por
ejemplo, ordenar los datos, ubicar el punto medio, determinar la mediana y copiar
un resultado en otra celda, entre otros. En cambio los paquetes estadísticos actúan
en forma no procedural, ( indicamos sólo lo qué queremos ).
Un uso de la planilla electrónica que recomendamos especialmente es su aplicación
para comprender la relación entre el coeficiente de correlación lineal de Pearson y
el diagrama de dispersión. La planilla electrónica permite observar en forma
simultánea los efectos que provoca la modificación de algún dato en el diagrama de
dispersión y en el coeficiente de correlación.
La enseñanza de la práctica de la estadística debería basarse en la resolución de
estudios de casos. El software adecuado podría apoyar cursos basados en el estudio
de casos, para presentar problemas prácticos que requieren:
1.
2.
3.
4.
La formulación de hipótesis
La recolección de datos
La comprobación de hipótesis
La comunicación de resultados e ideas
Además, ayudan a cambiar el énfasis de los tradicionales "problemas de planteo"
a "estudios de casos".
En el desarrollo de "estudios de casos", el uso de la computadora implica dar
mayor importancia a temas que antes no se priorizaban. Cuando se fomenta a los
alumnos que desarrollen una investigación donde deban recolectar datos, se
plantea el problema de cómo organizar luego la tabla de datos. Proponemos incluir
en los cursos un capitulo dedicado a la creación de estas tablas.
4. CONCLUSIONES
Presentamos en esta sección las conclusiones que se derivan de nuestro estudio, en
relación a los contenidos teóricos de los cursos, la actividad del profesor y su
relación con el alumno, y su efecto sobre los contenidos de las asignaturas.
Una consecuencia inmediata de la incorporación de la computadora en los cursos
de estadística es, en contra de lo que podría pensarse, el incremento que se produce
en los contenidos teóricos. Eso tiene especial importancia dentro de lo que es la
formación de estadística, ya que, para muchas carreras, la estadística será usada
como una herramienta más de las que se cuenta en una oficina.
Ya se ha mencionado que la computadora puede conducirnos a cambiar nuestro
punto de vista acerca de la estadística y la actividad del profesor. El aspecto
experimental en estadística es más prominente y los alumnos deben desarrollar
habilidades como observar, explorar, formar nociones e intuiciones (generar
hipótesis), predecir, probar hipótesis, conducir estas pruebas, controlar variables,
simular, etc. Pero no hay que descuidar actividades estadísticas tradicionales,
como cálculo de probabilidades, teoría del muestreo, etc.
Las computadoras pueden cambiar la relación entre estudiantes y profesores, ya
que éstas permiten al estudiante ser cognitivamente activo en estadística. La
computadora puede ser un auxiliar didáctico del profesor como pizarrón
electrónico, dentro del esquema tradicional cátedra-ejemplos-tarea-examen. o bien
el alumno interactúa con la computadora y se llega a una estructura proyectointeracción entre alumno, máquina y profesor. Esto producirá una "revolución"
en muchos salones de clase, ya que tendría que cambiar la metodología y las metas
de la enseñanza y la evaluación del aprendizaje.
Es importante notar que el uso razonable de computadoras requiere software con
un buen estándar educativo, cuya integración al curriculum debe coordinarse con
programas de actualización de los profesores para lo cual se necesitan recursos
financieros. Peligros de un uso indiscriminado de computadoras requieren más
investigación ya que puede causar una uniformización del pensamiento estadístico
de los alumnos y la falta de diálogo entre alumno y profesor.
No queremos dejar de mencionar que sobre el uso de la computadora en la
enseñanza de la estadística está en juego, evidentemente, una cuestión de filosofía
¿Qué estadística tiene que saber un economista, un ingeniero, un sociólogo, un
médico, etc.?
En realidad parece claro que ese futuro economista, ingeniero, sociólogo, médico
debe conocer conceptos estadísticos, precisamente aquellos que le posibiliten
abordar problemas de su trabajo. Es mucho más discutible que tenga que saber las
destrezas de cálculo asociadas a esos conceptos. Entre otras cosas, porque esas
destrezas ponen al descubierto su misma limitación.
Independientemente de la cuestión de los programas de las asignaturas no se puede
ya objetar que quizá no siempre se tenga a mano una computadora. Programas
como una planilla electrónica que funciona en cualquier ordenador personal cuyo
costo es comparable al de una calculadora, cuyo manejo se aprende casi
intuitivamente, ponen más al descubierto que el problema no es fundamentalmente
de medios.
Si las Universidades van a invertir dinero en hardware o software, es necesario
intentar tener el mejor uso posible de dichos recursos. Algunas áreas de la
estadística parecen ofrecer más posibilidades de un buen uso de las computadoras:
1. El estudiante debería adquirir la capacidad de juzgar si es razonable un
resultado dado por una computadora.
2. La computadora podría ser útil para detectar errores de los alumnos y
motivarlos para intensificar su actividad en estadística
3. El estudio de casos podría recibir más atención si una máquina está
realizando cálculos engorrosos. También existen programas que permiten
al alumno fijarse en estrategias específicas para el estudio de casos.
4. La representación gráfica se facilita con software que elabora gráficas
rápidas y precisas, y permite el cambio de parámetros con facilidad.
5. Alumnos con dificultades para el cálculo matemático podrían adquirir
destreza en la metodología de investigación estadística. En la metodología
tradicional estas dificultades de cálculos prácticamente incapacitan al
alumno, sin permitirle llevar a la etapa de interpretación de resultados y
ubicación dentro de un contexto más amplio.
Debemos ser conscientes, que podemos crear la figura del estudiante dependiente
de la computadora en la aplicación de métodos estadísticos. ¿Qué sucede cuando
un estudiante no tiene a mano la computadora para resolver problemas de otras
asignaturas que utilicen cuestiones estadísticas?. La respuesta que dan los
estudiantes es: "Que esas otras asignaturas cambien". Del mismo modo en que se
ha suscitado este problema, es posible que haya otros aspectos negativos
insospechados.
Estamos recién empezando a sentir el impacto de la computadora sobre la
enseñanza y el aprendizaje de la estadística. Muchas aplicaciones de la
computadora en la educación aprovechan el aspecto dinámico del despliegue en la
pantalla. La contribución de la computadora es la de una ayuda para el cálculo,
para graficar y para desarrollar ideas, poniendo énfasis en metodología de la
investigación estadística y el estudio del análisis exploratorio. La computadora por
sí solo no mejora la enseñanza, tenemos que aprender a aprovecharla al máximo.
1.
Indica
que
variables
son
cualitativas
y
cuales
cuantitativas:
1 Comida Favorita.
2 Profesión que te gusta.
3 Número de goles marcados por tu equipo favorito en la
última temporada.
4 Número de alumnos de tu Instituto.
5 El color de los ojos de tus compañeros de clase.
6 Coeficiente intelectual de tus compañeros de clase.
2. De las siguientes variables indica cuáles son discretas y
cuales continuas.
1 Número de acciones vendidas cada día en la Bolsa.
2Temperaturas registradas cada hora en un observatorio.
3 Período de duración de un automóvil.
4 El diámetro de las ruedas de varios coches.
5 Número de hijos de 50 familias.
6 Censo anual de los españoles.
3.
Clasificar
las
siguientes
variables
en
cualitativas
y
cuantitativas discretas o continuas.
1 La nacionalidad de una persona.
2 Número de litros de agua contenidos en un depósito.
3 Número de libros en un estante de librería.
4 Suma de puntos tenidos en el lanzamiento de un par de
dados.
5 La profesión de una persona.
6 El área de las distintas baldosas de un edificio.
4. Las puntuaciones obtenidas por un grupo en una prueba han
sido:
15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15,
18, 16, 14, 13.
Construir la tabla de distribución de frecuencias y dibuja el
polígono de frecuencias.
5. El número de estrellas de los hoteles de una ciudad viene
dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3,
3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4 , 1.
Construir la tabla de distribución de frecuencias y dibuja el
diagrama de barras.
6. Las calificaciones de 50 alumnos en Matemáticas han sido
las siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4,
0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5,
6, 7.
Construir la tabla de distribución de frecuencias y dibuja el
diagrama de barras.
7. Los pesos de los 65 empleados de una fábrica vienen dados
por la siguiente tabla:
[50,
[60,
[70,
Peso
fi
[90,
[100,
[110,
100)
110)
120)
10
5
2
[80,90)
60)
70)
80)
8
10
16
14
1 Construir la tabla de frecuencias.
2 Representar el histograma y el polígono de frecuencias .
8. Los 40 alumnos de una clase han obtenido las siguientes
puntuaciones, sobre 50, en un examen de Física.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7,
34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35,
28, 38, 41, 48, 15, 32, 13.
1 Construir la tabla de frecuencias.
2 Dibujar el histograma y el polígono de frecuencias.
9. Sea una distribución estadística que viene dada por la
siguiente tabla:
xi
61
64
67
70
73
fi
5
18
42
27
8
Calcular:
1 La moda, mediana y media.
2
El
rango,
desviación
media,
varianza
y
desviación
típica.
10.Calcular la media, la mediana y la moda de la siguiente
serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2,
5, 4.
11 Hallar la varianza y la desviación típica de la siguiente
serie de datos:
12, 6, 7, 3, 15, 10, 18, 5.
12 Hallar la media, mediana y moda de la siguiente serie de
números:
3, 5, 2, 6, 5, 9, 5, 2, 8, 6.
13. Hallar la desviación media, la varianza y la desviación
típica de la series de números siguientes:
2, 3, 6, 8, 11.
12, 6, 7, 3, 15, 10, 18, 5.
14 Se ha aplicado un test a los empleados de una fábrica,
obteniéndose la siguiente tabla:
fi
[38, 44)
7
[44, 50)
8
[50, 56)
15
[56, 62)
25
[62, 68)
18
[68, 74)
9
[74, 80)
6
Dibujar
acumuladas.
el
histograma
y
el
polígono
de
frecuencias
15. Dadas las series estadísticas:
3, 5, 2, 7, 6, 4, 9.
3, 5, 2, 7, 6, 4, 9, 1.
Calcular:
La moda, la mediana y la media.
La desviación media, la varianza y la desviación típica.
Los cuartiles 1º y 3º.
Los deciles 2º y 7º.
Los percentiles 32 y 85.
16. Una distribución estadística viene dada por la siguiente
tabla:
fi
[10,
[15,
[20,
[25,
[30,
15)
20)
25)
30)
35)
3
5
7
4
2
Hallar:
La moda, mediana y media.
El rango, desviación media y varianza.
Los cuartiles 1º y 3º.
Los deciles 3º y 6º.
Los percentiles 30 y 70.
17. Dada la distribución estadística:
fi
[0,
[5,
[10,
[15,
[20,
[25,
5)
10)
15)
20)
25)
∞)
3
5
7
8
2
6
Calcular:
La mediana y moda.
Cuartil 2º y 3º.
Media.
Documentos relacionados
Descargar