Licenciatura en CC. Ambientales. Matemáticas I. Tema n 1

Anuncio
Licenciatura en CC. Ambientales.
Matemáticas I.
Tema no 1
Resultados teóricos
-Tengo entendido que usted cree posible predecir el futuro.
De pronto S. se sintió cansado. Parecı́a que esta malinterpretación de su teorı́a
era inevitable. Tal vez no deberı́a haber presentado su tesis.
-No exactamente, en realidad. Lo que he hecho es mucho mas limitado que
eso... Lo que he hecho... es demostrar que ... es posible elegir un punto de
partida y formular hipótesis adecuadas que supriman el caos. Esto permitirı́a
predecir el futuro no con pelos y señales, por supuesto, sino a grandes trazos;
no con certeza...- dijo.
El Emperador, que habı́a escuchado atentamente, dijo:
- Pero ¿ no significa ésto que usted ha demostrado cómo predecir el futuro?
Asimov: ”Prelude to Foundation”
Estadı́stica descriptiva
La Estadı́stica es la ciencia que trata sobre la obtención de información a partir de datos
numéricos. Al igual que las palabras, los datos no se interpretan a sı́ mismos, sino
que deben ser interpretados.
La estadı́stica aplicada se divide en tres campos de estudio:
• El análisis de datos se ocupa de los métodos y las ideas necesarios para organizar y describir datos utilizando gráficos, resúmenes numéricos y descripciones
matemáticas más elaboradas.
• La obtención de datos proporciona métodos para obtener los datos que permiten dar respuestas claras a preguntas concretas.
• La inferencia estadı́stica va más allá de los datos disponibles para obtener
conclusiones sobre un universo más amplio. La inferencia estadı́stica no sólo
obtiene conclusiones, sino que acompaña estas conclusiones con una afirmación
sobre su fiabilidad.
1. Tipos de variables estadı́sticas
Una variable estadı́stica es cualitativa cuando sólo puede clasificarse en categorı́as no
numéricas (por ejemplo, el color de los ojos).
Una variable estadı́stica es cuantitativa cuando toma valores numéricos (por ejemplo, la
edad de las personas). Habitualmente se distinguen dos tipos de variables cuantitativas: discretas y continuas. Se dice discreta si ésta toma sólo un conjunto finito
o numerable de valores. Se dice continua si puede tomar cualquier valor en un
intervalo (finito o infinito).
Utilizaremos la siguiente notación:
1
• n: número de elementos observados.
x1 , . . . , xn : los n valores de la variable estadı́stica obtenidos en la muestra
(puede haber repeticiones).
• A veces, al estudiar variables continuas, no disponemos de los datos originales,
sino que nos dan los datos agrupados en una serie de clases A1 , . . . , Ak . En
este caso la notación serı́a:
n: número de elementos observados.
x1 , . . . , xk : representantes de las clases A1 , . . . , Ak (generalmente los puntos
medios de los intervalos).
n1 , . . . , nk : número de observaciones dentro de cada clase (frecuencias absolutas).
f1 , . . . , fk : frecuencias relativas dentro de cada clase (fi = ni /n).
Observa que n = n1 + · · · + xk .
2
2. Estadı́stica descriptiva de una variable
1. Medidas de centralización. Su misión es dar una idea del valor central
alrededor del cual se reparten los valores de la muestra obtenida.
• La media muestral.
– ... de una variable discreta: Viene dada por la fórmula:
x=
1
(x1 + · · · + xn ) .
n
– ... de una variable continua con los datos agrupados: Viene dada por
la fórmula:
x=
1
(n1 x1 + · · · + nk xn ) = (f1 x1 + · · · + fk xk ) .
n
• La mediana muestral de una variable discreta. Es el valor de la muestra
que deja a la izquierda y derecha el mismo número de observaciones una
vez ordenadas. Luego, si el número de observaciones es impar, la mediana
es el valor central; si es par, la mediana es el punto medio de los dos valores
centrales. Para hallar la mediana de una distribución hay que seguir los
siguientes pasos:
– Ordena todas las observaciones de la mı́nima a la máxima
– Si el número de observaciones n es impar, la mediana M es la observación central de la lista ordenada 1 . Si el número de observaciones
n es par, entonces la mediana M es la media de las dos observaciones
centrales de la lista ordenada.
2. Medidas de dispersión. Son medidas que nos dan idea de la dispersión de
los datos con respecto a los valores centrales.
• La varianza muestral.
– ... de una variable discreta: Viene dada por la fórmula:
vx =
1
(x1 − x)2 + · · · + (xn − x)2 .
n
– ... de una variable continua con los datos agrupados: Viene dada por
la fórmula:
vx =
1
n1 (x1 − x)2 + · · · + nk (xk − x)2 = (f1 (x1 −x)2 +· · ·+fk (xk −x)2 ) .
n
• La desviación
q P tı́pica. Es la raı́z cuadrada positiva de la varianza, es decir
σ = n1 (xi − x)2 .
Tiene las siguientes propiedades importantes:
1
La posición de la mediana se halla en este caso contando (n + 1)/2 observaciones desde el
comienzo de la lista.
3
– Mide la dispersión respecto de la media. Debe emplearse sólo cuando
se escoge la media como medida de centralización.
– Se tiene que σ = 0 sólo cuando no hay dispersión. De lo contrario
σ > 0.
– Está fuertemente influenciada por las observaciones atı́picas 2 .
• Los cuartiles.Los cuartiles determinan entre qué valores se encuentra la
mitad central de las observaciones 3 Para calcular los cuartiles:
– Ordena las observaciones en orden creciente y localiza la mediana M
en la lista ordenada de observaciones.
– El primer cuartil Q1 es la mediana de las observaciones situadas a la
izquierda de la mediana de la totalidad.
– El tercer cuartil Q3 es la mediana de las observaciones situadas a la
derecha de la mediana de la totalidad.
– El segundo cuartil Q2 es la mediana M .
3. Representación grafica de los datos
Los datos se pueden representar como
• Diagrama de barras: compara de forma rápida el tamaño de los tipos de datos.
• Diagrama de sectores: muestra la importancia relativa de cada categorı́a respecto del total.
• Gráficos temporales. Un gráfico temporal de una variable representa cada
observación en el momento en que se midió. Se recomienda situar siempre la
escala temporal en el eje de abcisas y la variable que nos interesa en el eje de
las ordenadas. Si no hay demasiados puntos, la unión de los puntos contı́guos
mediante segmentos facilita la visualización de la evolución de la variable a lo
largo del tiempo. Una variación ”conjunta” es una tendencia; se trata de una
variación, a largo plazo, por ejemplo creciente, decrecien, etc...
• Diagramas de tallos y hojas
4
Para hacer un diagrama de tallos y hojas:
– Separa cada observación en un tallo que contenga todos los dı́gitos menos
el del final (es decir, el situado más a la derecha) y en una hoja, el dı́gito
del final.
– Sitúa los tallos de forma vertical en orden creciente de arriba abajo. Traza
una lı́nea vertical a la derecha de los tallos.
– Repasa todos los datos y sitúa cada hoja a la derecha de su tallo.
2
Se dice de una observación que es atı́pica cuando dista más de tres veces la desviación tı́pica
de la media.
3
El primer cuartil se sitúa en el primer 25% de las observaciones. El tercer cuartil se sitúa en
el 75% de las observaciones. El segundo cuartil es la mediana.
4
Para conjuntos pequeños de datos, un diagrama de tallos y hojas es más rápido de hacer que
un histograma y presenta una información más detallada.
4
– Sitúa otra vez las hojas colocándolas esta vex en orden creciente desde
cada tallo.
Modificaciones en los diagramas de tallos y hojas. Hay dos modificaciones en
los diagramas de tallos que nos dan más flexibilidad a la hora de representar
las distribuciones. La primera consiste en redondear los datos de manera que
el dı́gito final, después del redondeo, sea adecuado como hoja; haz esto cuando
los datos tengan demasiados dı́gitos. También puedes dividir los tallos para
doblar su número cuando todas las hojas se sitúan en unos pocos tallos.
• Diagramas de cajas y bigotes (”box-plot”). Para hacer un diagrama de caja y
bigotes de una variable discreta:
– Halla el mı́nimo valos de la tabla de datos, M in, el máximo valor, M ax,
la mediana M y los cuartiles Q1 y Q3 .
– Elige un punto a en el eje de abcisas y traza el rectángulo cuyos vértices
tienen las coordenadas: (a, Q3 ), (a + 1, Q3 ), (a + 1, Q1 ), (a, Q1 ).
– Dibuja los segmentos horizontales:
(a, M )(a + 1, M ), (a, M ax)(a + 1, M ax) , (a, M in)(a + 1, M in).
– Dibuja los segmentos verticales
(a + 0.5, M ax)(a + 0.5, Q3 ), (a + 0.5, Q1 )(a + 0.5, M in).
• El histograma: es un gráfico de la distribución de una variable cuantitativa.
Para hacer un histograma:
1. Divide el recorrido de los datos en clases. Asegúrate de especificar las
clases con precisión de manera que cada observación se sitúe exactamente
en una clase.
2. Haz un recuento del número de observaciones de cada clase.
3. Dibuja el histograma:
– Primero marca la escala de valores de la variable cuya distribución
se muestra en el eje de abcisas (eje OX).
– Seguidamente marca la escala de recuentos en el eje de ordenadas (eje
OY ). Cada rectángulo representa una clase. Más concretamente, el
área de cada rectángulo representa la frecuencia de cada clase. Si fi
es la frecuencia relativa y ai es la anchura de la clase, la altura del
rectángulo serı́a:
fi
hi =
.
ai
Esta alturas se pueden cambiar proporcionalmente sin ningún problema.
Distribuciones normales El aspecto general de una distribución de datos puede proporcionar una idea de su centro y su dispersión. También si la distribución tiene
una forma simple; por ejemplo si es simétrica, asimétrica hacia la derecha, hacia la
izquierda, etc.. En particular hay un tipo de distribuciónes de datos que se llaman
normales que, entre otras, tienen las caracterı́sticas siguientes:
5
(1) Un porcentaje del 68 por ciento de los datos está a distancia maxima de la media de
una desviación tı́pica.
(2) Un porcentaje del 95 por ciento dista menos del doble de la desviación tı́pica de la
media
(3) Es simétrica respecto de la media.
Para las distribuciones normales, el porcentaje de los datos situado a distancia de la media
entre proporciones de la desviación tı́pica, se puede ver en la tabla de la distribución
Normal tipificada.
6
4. Estadı́stica descriptiva de dos variables
Supongamos que queremos estudiar dos caracterı́sticas cuantitativasdadas por dos variables
estadı́sticas discretas, X e Y , de una población.
1.
• La covarianza muestral, covx,y , se define como:
covx,y =
1
(x1 y1 + · · · + xn yn ) − x · y .
n
Observa que covx,y = covy,x .
• El coeficiente de correlación. Se define como:
covx,y
r=√
vx vy
.
2. Modelo de regresión lineal. La información contenida en la nube de puntos
de la forma (xi , yi ) se intenta resumir mediante una recta especial de R2 ,
llamada la recta de regresión de Y sobre X. Su fórmula es :
y−y =
covx,y
(x − x) .
vx
Si consideramos la función de dos variables reales (a, b) = n1 ((y1 − a − bx1 )2 +
· · · + (yn − a − bxn )2 ) y calculamos el mı́nimo de esta función, obtenemos que
se alcanza en
covxy
covxy
.
x , b=
a=y−
vx
vx
La función (a, b) se llama el error cuadrático medio, y, por tanto, diremos
que la recta de regresión es aquella que minimiza el error cuadrático medio.
Se llama Varianza residual al error cuadrático medio cuando se consideren los
datos dados por la recta de regresión respecto a los datos reales. Su valor viene
dado por la expresión
ECM = vy (1 − r2 )
donde r es el coeficiente de correlación. Esto indica que los errores son menores
cuanto mas próximo sea r a 1.
3. Aplicaciones del modelo de regresión lineal. En muchas situaciones,
intentar resumir una nube de puntos que no están ”más o menos” alineados
mediante una recta, puede no tener mucho sentido. En general disponemos de
unas observaciones (x1 , y1 ), . . . , (xn , yn ) de dos caracterı́sticas, X e Y , de una
población, y tratamos de ajustar un modelo de la forma y = a + bg(x) a estos
datos, como aproximación a una modelización simple.
• ... si la nube de puntos es de tipo logarı́tmico, parece bastante aconsejable
ajustar un modelo de la forma y = a + b ln(x).
En este caso, definimos T = ln X, hallamos la recta de regresión de Y
sobre T , pongamos t = a + bx. Luego el ajuste logarı́mico se da para
y = a + b ln x.
7
• ... si la nube de puntos es de tipo exponencial, parece bastante aconsejable
ajustar un modelo de la forma y = aebx .
Si T = ln Y , y hallamos la recta de regresión de T sobre X, pongamos
t = A + Bx; entonces y = et = eA eBx . Luego el ajuste exponencial se da
para a = eA , b = B.
8
Descargar