Materiales complementarios

Anuncio
MATEMÁTICAS
Unidad 6. Estadística.
MATERIALES COMPLEMENTARIOS
VARIABLES BIDIMENSIONALES. REGRESIÓN Y CORRELACIÓN
Las variables bidimensionales son aquellas en que se recogen dos variables unidimensionales
simultáneamente de cada individuo para analizar si existe una relación entre ellos. Por ejemplo:
peso y altura, horas de estudio y calificación, etc. De cada individuo se toman los datos de las dos
variables para cada uno se tendrá un par de números (xi,yi).
Representación de variables bidimensionales
Si hay pocos individuos en la muestra la presentación de los datos se hace en forma de una tabla
como la siguiente:
Variable X
x1
x2
…
xn
Variable Y
y1
y2
…
yn
Por ejemplo si se ha preguntado a 6 personas el número de días a la semana que comen verdura
y el número que comen fruta la tabla podría ser:
Días que se come verdura X
3
7
4
6
1
2
Días que se come fruta
2
7
7
7
4
4
Y
De esta tabla se deduce que el primer entrevistado come 3 días verdura a la semana y 2 días
fruta, el segundo 7 días verdura y 7 días fruta y así sucesivamente.
La representación gráfica se hace a través de la denominada “nube de puntos”. Es una gráfica en
la que se representan los valores de la variable X en el eje horizontal y los valores de Y en el eje
vertical. Para cada individuo se representa el punto dado por las coordenadas (x i,yi).
De la tabla anterior la gráfica sería:
En el eje horizontal se ha representado el número de días que se come verdura (variable X) y en
el eje vertical el número de días que se come fruta (variable Y). Cada punto representa los datos
obtenidos de cada individuo de la muestra.
Curso de Acceso a Ciclos Formativos de Grado Superior
Página 1 de 5
MATEMÁTICAS
Unidad 6. Estadística.
Tablas de doble entrada
Si hay muchos datos y se repiten mucho los mismos pares de valores se utilizan tablas de doble
entrada. En este tipo de tablas se colocan en la primera fila los valores que toma la variable X y en
la primera columna los valores que toma Y, en el resto de posiciones se coloca el número de
veces que se repite la pareja de puntos (xi,yi).
Las tablas son de la forma:
…
Y/X
x1
x2
y1
n11
n21
nk1
y2
n12
n22
nk1
n1k
n2k
nkk
xk
…
yk
Por ejemplo si se ha preguntado a 40 personas el el número de días a la semana que comen
verdura (variable X) y el número que comen fruta (variable Y) la tabla podría ser:
Y/X
1
3
4
5
6
Total
2
1
2
0
0
0
3
4
0
2
3
0
0
5
5
1
4
5
1
3
14
6
0
1
3
5
4
13
7
0
0
0
3
2
5
Total
2
9
11
9
9
40
De esta tabla se deduce que hay un individuo que come 1 día verdura a la semana y 2 días fruta,
que hay 2 individuos que comen 3 días verdura y 2 días fruta, que hay 2 individuos que comen 3
días verdura y 4 días fruta, que hay 3 individuos que comen 4 días verdura y 4 días fruta, y así
sucesivamente.
La representación gráfica se puede hacer con una representación tridimensional, con tres ejes. En
los ejes horizontales se representan los valores de las variables X e Y y en el eje vertical se
representa la frecuencia absoluta de cada par de números (x i,yi)
Medidas marginales
Una variable bidimensional está compuesta por dos variables unidimensionales, en cada individuo
se recogen los datos de dos variables. Por ejemplo si deseamos estudiar si hay relación entre el
peso y la altura en una población las dos variables unidimensionales serían peso y altura. Las
medidas marginales son aquellas que se derivan de estudiar una variable sin tener en cuenta a la
otra. Es decir son las medidas obtenidas de realizar el estudio unidimensional de cada variable. Se
tendrán medidas marginales de la variable X y de la variable Y.
Curso de Acceso a Ciclos Formativos de Grado Superior
Página 2 de 5
MATEMÁTICAS
Unidad 6. Estadística.
Las medidas marginales que se van a necesitar ya se han estudiado en los contenidos
interactivos, son la media, la varianza y la desviación típica.
En cada variable bidimensional se tienen las medidas marginales siguientes:
De la variable X:
Media: x
De la variable Y:
Media: y
Varianza: Sx2
Varianza: Sy2
Desviación típica: Sx
Desviación típica: Sy
Por ejemplo se calculan las medidas marginales de la tabla:
Días que se come verdura X
3
7
4
6
1
2
Días que se come fruta
2
7
7
7
4
4
De la variable X serán: x 
Y
3  7  4  6  1 2
 3´83
6
Sx2 
3 2  7 2  4 2  6 2  12  2 2
 3´83 2  4´47
6
S x  4´47  2´115
De la variable Y serán: y 
277744
 5,167
6
Sy2 
22  72  72  72  42  4 2
 5,167 2  3´8
6
S y  3´8  1´95
Covarianza
Al estudiar las variables bidimensionales además de los parámetros marginales se define un
nuevo parámetro, la covarianza, Sxy. Se define con la fórmula:
fij  ( x i  x )  ( y i  y )
S xy   
6
i j
Esta fórmula es similar a la de la varianza. A efectos prácticos de cálculo de la covarianza se va a
utilizar la siguiente fórmula que es equivalente a la anterior:
n
fij·x i  y j
i, j 1
N
S xy  
xy
El valor fij es la frecuencia absoluta de los diferentes pares de puntos.
Curso de Acceso a Ciclos Formativos de Grado Superior
Página 3 de 5
MATEMÁTICAS
Unidad 6. Estadística.
Como ejemplo se va a calcular la covarianza de los datos de la tabla:
Días que se come verdura X
3
7
4
6
1
2
Días que se come fruta
2
7
7
7
4
4
Y
Los valores de la medias ya se habían calculado: x  3´83 ; y  5,167
S xy 
3  2  7  7  4  7  6  7  1 4  2  4
 3´83  5´167  3,044
6
Correlación
La correlación estudia la relación entre las dos variables de una distribución bidimensional, es
decir, si dependen en gran o en pequeña medida una de otra.
En la representación en nube de puntos ya se puede determinar si existe correlación. Si la nube
de puntos está agrupada existe correlación y si está dispersa la correlación disminuye. También se
puede saber si la correlación es positiva o negativa.
 Correlación positiva o directa: cuando al aumentar el valor de una variable
aumenta también la otra.
 Correlación negativa o inversa: cuando al disminuir el valor de una variable
aumenta el valor de la otra.
Si la nube de puntos se agrupa en torno a una recta se dice que la correlación es lineal y existe un
parámetro para medir el grado, es el coeficiente de correlación lineal.
Coeficiente de correlación lineal:
Se denota como r y se define como la división entre la covarianza y el producto de las
desviaciontes típicas marginales.
r
S xy
SxSy
En el ejemplo anterior:
r
3´044
 0´74
2´115  1´95
Interpretación del coeficiente de correlación.
El coeficiente de correlación nos proporciona información de la relación existente entre las dos
variables X e Y.
En primer término el signo nos determina si la correlación es directa o inversa.
-
Si el coeficiente de correlación es positivo es directa.
-
Si el coeficiente de correlación es negativo es inversa.
Curso de Acceso a Ciclos Formativos de Grado Superior
Página 4 de 5
MATEMÁTICAS
Unidad 6. Estadística.
En segundo término nos señala, según el valor del coeficiente, si la correlación es más o menos
fuerte. El coeficiente de correlación siempre tiene que ser un número entre -1 y 1
-1 < r < 1
Si el valor de r = -1 o r = 1 la correlación es perfecta. La nube de puntos forma una recta en la
gráfica. Cuanto más cerca esté el valor de r a 1 ó -1 más fuerte es la correlación lineal. Si el valor
del coeficiente se acerca a 0 la correlación es más débil.
En el ejemplo estudiado r = 0´74, por tanto la correlación es directa y fuerte.
Recta de regresión
Si el coeficiente de correlación está cercano a la unidad es interesante calcular la ecuación de la
recta que más se aproxima a todos los puntos de la variable. La recta de regresión es la que mejor
se ajusta a la nube de puntos. Permite deducir el valor teórico de una variable a partir de la otra.
La recta de regresión de Y sobre X permite deducir los valores de Y a partir de los de X.
yy 
La ecuación es:
S xy
Sx2
x.  x 
En el ejemplo de los días que se consume verdura y fruta la ecuación de la recta de regresión
será:
y  5´167 
3´044
x.  3´83
4´47
Por ejemplo si una persona come 3 días verdura la previsión teórica de días que comerá fruta se
calculará sustituyendo en la ecuación anterior el valor de x por .
y  5´167 
3´044
3.  3´83
4´47
y = 4´6 días
Curso de Acceso a Ciclos Formativos de Grado Superior
Página 5 de 5
Descargar