Ejercicios de análisis de datos.

Anuncio
Introducción a lenguajes avanzados de computación: MATLAB en la docencia en Química
Análisis de datos
Beatriz Pateiro López
1 Estructuras de datos con MATLAB
1. Crea en MATLAB:
a)
un vector
x1
con 100 componentes iguales a 5.
b)
un vector
x2
con 20 componentes equiespaciadas entre 2 y 8. (función
c)
un vector
x3
con los números pares entre 4 y 60.
d)
un vector
y
linspace)
con los 3 vectores anteriores.
2. Crea la siguiente matriz en MATLAB y calcula su traspuesta

1 2 3

A=
 4 2 1 
2 3 0

Calcula la suma de los elementos de la matriz por las y por columnas utilizando la función
sum.
3. Introduce en MATLAB las siguientes 5 variables correspondientes a datos de iris (Fisher's iris data)
Longitud sépalo
Anchura sépalo
Longitud pétalo
Anchura pétalo
(LS)
(AS)
(LP)
(AP)
Especie
5.1
3.5
1.4
0.2
setosa
4.9
3.0
1.4
0.3
setosa
4.7
3.2
1.3
0.1
versicolor
4.6
3.1
1.5
0.2
versicolor
5.0
3.6
1.4
0.2
virginica
4. Con los datos del ejercicio anterior, calcula la longitud media de sépalo y la longitud media de pétalo.
5. Utilizando los vectores creados en el ejercicio 3 crea una matriz
sepalmat
con las medidas correspondi-
entes al sépalo (longitud y anchura).
6. Crea un objeto de la clase que consideres adecuada en MATLAB que contenga todos los datos de la tabla
de iris.
7. Carga los datos sheriris mediante la sentencia de MATLAB
directorio de objetos se han creado dos nuevos elementos
meas
load fisheriris. Fíjate que en el
species. ¾Qué clase de objetos son?
y
¾Qué información contienen? Combina los datos en un dataset de forma que se obtenga un objeto con
contenido similar al de la tabla del ejercicio 3.
1
2 Manejando subconjuntos de datos: indexado
1. A partir del vector
LS
(longitud de sépalo) creado en el ejercicio 3 de la sección anterior, construye un
nuevo vector con las longitudes de sépalo que son mayores que 4.8
2. Puedes acceder a los datos completos de iris (Fisher's iris data) a través de
load fisheriris. Calcula
la longitud media de pétalo de las observaciones correspondientes a la especie setosa.
3. Crea una matriz que contenga todos los datos de la especie versicolor.
4. Crea una matriz que contenga todos los datos de aquellas observaciones de la especie setosa en las que
la longitud de sépalo está en el intervalo [5,6]
3 Importando datos
1. El archivo Loblolly.txt contiene datos de altura y edad de pinos Loblolly. Importa los datos del chero
Loblolly.txt y guárdalos en un objeto llamado
pinos.
Calcula la altura media de los pinos de la muestra.
2. El archivo orange.txt contiene datos de edad y circunferencia de naranjos. Importa los datos y guarda las
10 primeras observaciones en una matriz.
4 Estadística descriptiva con MATLAB
1. Realiza un análisis descriptivo completo de los datos de la variable Sexo
2. Realiza un análisis descriptivo completo de los datos de la variable Peso
3. El chero BirdFluCases.txt recoge para 15 países los casos de gripe aviar en los 6 años comprendidos entre
2003 y 2008. Utiliza la función
pie para realizar un gráco de tarta que ilustre el número de casos de gripe
por países. Intenta que se muestren como etiquetas de cada porción el nombre del país correspondiente
4. A partir de los datos de iris, realiza un boxplot en el que se representen las 3 cajas correspondientes a las
longitudes de pétalo de las 3 especies del conjunto de datos
5 Distribuciones de probabilidad
1. Genera 500 valores de una distribución Normal con media 5 y desviación típica 0.8. Representa el histograma de los datos generados.
2. Utiliza la función
3. Sea
X
norminv
para calcular los cuantiles 0.05 y 0.95 de una distribución normal estándar.
una variable normal de media 10 y varianza 4. Calcula
P (8
X
11)
utilizando la función
normcdf.
4. Los datos del chero IC.txt corresponden a las alturas de 100 personas. Calcula las medidas resumen de
los datos y realiza un histograma. Asumiendo que los datos son normales, calcula el intervalo de conanza
para la media a un nivel de conanza del 95 % y del 90 %:
p
2 = 100 (IC = x z=2 = n).
a)
suponiendo que la varianza es conocida
b)
suponiendo que la varianza es desconocida (
p
IC = x t=2 Sc = n).
2
5. Intenta reproducir una gráca como la que se muestra a continuación en la que aparecen representadas las
funciones de densidad de distribuciones Chi-cuadrado con diferentes grados de libertad. Utiliza la función
chi2pdf.
n=2 g.l.
0.0
0.1
0.2
0.3
0.4
0.0 0.5 1.0 1.5 2.0 2.5
0.5
n=1 g.l.
0
5
10
15
20
0
5
15
20
15
20
n=5 g.l.
0.00
0.00
0.05
0.10
0.10
0.20
0.15
n=3 g.l.
10
0
5
10
15
20
0
5
10
6 Modelos de regresión
1. Usa los datos del iris y representa en el plano las longitudes y anchuras de pétalo de las observaciones
correspondientes a la especie versicolor. Ajusta un modelo de regresión que te parezca adecuado a los
datos.
2. Con frecuencia se obtienen datos bivariados cuando se usan dos técnicas distintas para medir la misma
cantidad. Por ejemplo, la concentración de hidrógeno determinada con un método de cromatografía de
gases (
X
Y
X ), y la concentración determinada con un nuevo método de sensor (Y ):
47
38
62
62
65
53
70
67
70
84
78
79
95
93
100 114 118 124 127 140 140 140 150 152 164 198 221
106 117 116 127 114 134 139 142 170 149 154 200 215
Realiza un gráco de dispersión de las variables
XeY
y ajusta un modelo de regresión lineal simple a los
datos. Realiza el gráco de residuos.
3. Importa los datos del chero lip.txt y ajusta un modelo de regresión que consideres adecuado
3
Descargar