Universidad de Salamanca - Escuela de Educación y Turismo ! " # $ % ' * + & ( ( +( , $ ) ' - . ' ' / . % % . ! $ ' . " # $ % & & $ % # # $ ( • # . 0 # ( / $ . • # % 0 # 1 % ( # 0 # 0 1 # 0 , . ( ( ! " # # # . $ ( $ ' 0 $ $ % % # % ' ( & " ( "( + ' ) * , -. & & & ( 2 ( ) / ' 3 0 4 . " ' 1 ' 23 , *- *- *) *4 ** *5 *- -* *. -) 5 4 ! # % ' $ # 5 % 5 / $ . ( $ ( 2 $ -( ( / $ $ -( ( ) ! # " ( ) 1 ' 6 $ 0 $ $. 5 & ( % $ $ ( . $ # / 6 . $ / ( ) % 5 " ! % 7 4.8'.9 44 5 7 '.82.9 '4 *. *5 7 2.85.9 24 *' :) 7 5.8,.9 54 *) )5 7 ,.8*..9 ,4 *. 45 7 *..8**.9 **. 4 ': 7 **.8*-.9 **4 '4 '4 5 ( ) ( 1 0 6 ) ; ( ) ' $ # $ . % ( # # .4 % < 7 8 ) Media aritmética La media es el valor promedio de la distribución. Mediana La mediana es la puntación de la escala que separa la mitad superior de la distribución y la inferior, es decir divide la serie de datos en dos partes iguales. # # . $ ( # ) " "= #> " ? # ? ? # 0 ? % $ 1 ) ( # ) " " 5 . 4 ; # # # 6 $ *+ ; -0 $$$$ !$ ! $ !$ "$ "# @4 :0 9$ :$ ;$2 $ $ # @,A 4 ( ) $ # 5 ! B* B* # (& . % . ( ) #+ " # . 0 0 ; # & 1 ) $$$$$$ !$ !# @) 0 ( & 1 $ $ $ $$$$$ ! $ !$ !$ 9 $ :$ ;$ ;$ ;# @*848, ( $ & $$$$ "$ " $ ;$ ; 0 ; 2$$$$ !$ ! $ 9$ :# @) $0 $ ( ) $ ! B* BB* BC* 3 4 . 0 4 ) ( ) * # / % - % 6 . ; # ) # # / # ( % < % 4 ( ) D"= ! # % E*8E- ;E: . % % -4F8 4.F; 24F E$ *+ -< ; ( . 1 $ !$$ "$ 9$$ ; $ !$$$ "$ 9 $$ ; ( ) $ 5 ( $ ( ) ! # . # % < 2=$ 4 $ 5 ( $ 2= ;2= ( / = ) ! # ,, # % /4. % # . *.. =$ = ;;= ( ) # % # ) = 5 ; # ? < # # < ? < < ( ) =" &+ + = +== + * ( % = - A > *.?@ A @ ( ) " G # " # % ? @0B 0 # # ? ( ) 0 % ) ( $ 1 ( ) "=" H" # < #% < ? ( ) 6 $ .% < <% ( 1 . ( ) " # 5 # G I/ " < $ < % ( ) 6 % % ( ( 1 . .% ( ) + , = !" G % D 1 + "! 1 = !" G % % " I 1 1 "="(! ' ( " % " I ( "( # % + "! . % $ J K8L9 5 % $ 0 0 0 =(D + . % ( . # % . % + "! % 1 % 7 1$ 8 % % $ . - $ - $ ( ) + "=" H" # < % 4 % % # # 0 0 < 0; 0; < % . 0;M . 0;N # % < ( 5 % % % $ & & . % $ < % 1 1 3 4 ( ) +== !" # % 5 5 *3 # # G . . 1 % $ % . $ . % . & % ( ) -3 # % % # :3 # 5 & . % ( / % ( ) & 5 0 1 . & ) *A # -A # 4 ? 4 4 ( ) :A # 5 & . ( / % 5 < % 5 % 1 ( ) / *A5 5 % & $ 1 % -A5 ( . 0 % %$ 0 % ( %$ 0 % :A5 −* O $ % 1 / O* < − ( ) )A0 − % $ 4A0 1 − % ; $ 'A0 ? 2A0 ? % 1 % − $ & 2 $ 5 ( = ) " = &= G # . - - # = # ( C # % L B K C % % B % C = # # K C L B % 0 $ ?2$ ( C % B B $ ) B? % % C? ( ) Ejercicio resuelto nº1: Si en la E.U. de Turismo están matriculados 1.000 alumnos, en la de Economía 3.000 y en la de Ingeniería 6.000 y se quiere obtener una muestra estratificada de tamaño 100. Cuantos alumnos han de seleccionarse en cada una de las carreras anteriores, si aceptamos la proporcionalidad para realizar el muestreo: Solución: Si denominamos nT, nE y nI a los tamaños muestrales de Turismo, Economía e Ingeniería, se tiene que verificar que: nT+ nE + nI =100 y como hemos admitido proporcionalidad entonces: nE nI nT ------ = ------= -----1000 3000 6000 Resolviendo el sistema de ecuaciones llegamos a nT=10, nE =30 y nI =60 ( ) Ejercicio resuelto nº 2.- Si disponemos de los siguientes datos de una estadística de saldos de cuentas bancarias por ciudades, se necesita conocer, media, moda, varianza y desviación típica. Intervalos Número de ciudades Saldos en MM € De 20 a 39 MM € 5 29,5 De 40 a 54 MM € 7 47,0 De 55 a 89 MM € 17 72,0 De 90 a 179 MM € 20 134,5 De 180 a 359 MM € 4 269,5 De 361 a 600 MM € 2 480,5 Más de 600 MM € 1 1.800,0 Totales 56 2.833,0 ( ) Intervalos (L) Número de ciudades (f) Saldos en € MM (x) De 20 a 39 MM 5 29,5 De 40 a 54 MM 7 47,0 De 55 a 89 MM 17 72,0 De 90 a 179 MM 20 134,5 De 180 a 359 MM 4 269,5 De 361 a 600 MM 2 480,5 Más de 600 MM 1 1.800,0 Totales 56 x por f 147,5 329,0 1.224,0 2.690,0 1.078,0 961,0 1.800,0 2.833,0 F 5 12 29 49 53 55 56 8.229,5 Media 8.229,5/56 = Mediana Li-1 + (N/2-Fi-1)*ai/fi= donde: Li-1 = N/2= Fi-1= ai= fi= Moda Li-1 + [fi+1/(fi+1 + fi-1)]*ai= donde: Li-1 = fi+1= fi-1= ai= 147,0 87,0 55 28 12 34 17 107,0 90 4 17 89 ( ) Intervalos (L) Número de ciudades (f) Saldos en € MM (x) De 20 a 39 MM 5 29,5 De 40 a 54 MM 7 47,0 De 55 a 89 MM 17 72,0 De 90 a 179 MM 20 134,5 De 180 a 359 MM 4 269,5 De 361 a 600 MM 2 480,5 Más de 600 MM 1 1.800,0 Totales 56 2.833,0 x por f 147,5 329,0 1.224,0 2.690,0 1.078,0 961,0 1.800,0 2 F 5 12 29 49 53 55 56 8.229,5 4.462.028,8 Varianza [Sum (xi)2fi/N]-Media2 = donde Sum (xi) fi = N= Media2 = Desviación típica Raíz cuadrada de la varianza 2 Sum (xi) fi 4.351,3 15.463,0 88.128,0 361.805,0 290.521,0 461.760,5 3.240.000,0 58.083,2 4.462.028,8 56 21.595,9 241,0 Tarea.- ¿Porqué la desviación típica tiene un valor tan elevado en relación a la media aritmética? ( ) Ejercicio resuelto nº 3.- Calcule los cuartiles con los datos de la serie anterior. Intervalos (L) Número de ciudades (f) Saldos en € MM (x) De 20 a 39 MM € 5 29,5 De 40 a 54 MM € 7 47,0 De 55 a 89 MM € 17 72,0 De 90 a 179 MM € 20 134,5 De 180 a 359 MM € 4 269,5 De 361 a 600 MM € 2 480,5 Más de 600 MM € 1 1.800,0 Totales 56 Mediana Li-1 + (N/2-Fi-1)*ai/fi= donde: Li-1 = N/2= Fi-1= ai= fi= Primer cuartil Li-1 + (N/4-Fi-1)*ai/fi= donde: Li-1 = N/4= Fi-1= ai= fi= x por f 147,5 329,0 1.224,0 2.690,0 1.078,0 961,0 1.800,0 2.833,0 8.229,5 87,0 55 28 12 34 17 59,0 55 14 12 34 17 F 5 12 29 49 53 55 56 Sum (xi)2fi 4.351,3 15.463,0 88.128,0 361.805,0 290.521,0 461.760,5 3.240.000,0 4.462.028,8 Segundo cuartil Coincide con la Mediana = Tercer cuartil Li-1 + (3N/4-Fi-1)*ai/fi= donde: Li-1 = 3N/4= Fi-1= ai= fi= 87,0 147,9 90 42 29 89 20 Tarea.- Calcule Vd., 5 deciles y 5 percentiles con esta serie de datos. ( ) Ejercicio resuelto nº 4.- Disponemos de los datos de renta personal disponible de 50 personas y el saldo depositado en cuentas corrientes en entidades financieras (en miles de €). Se pide: a) Representar la nube de puntos b) Estimar una ecuación de regresión lineal simple de Y sobre X. c) Explicar económicamente los resultados obtenidos. Nota.- Este ejercicio debe desarrollarse en una hoja de cálculo. ( Datos: ) Personas Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Renta (X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 22 22 85 28 12 42 60 152 27 27 64 34 34 50 75 15 42 48 10 69 26 17 42 41 33 Saldos (Y) 11 7 26 6 6 4 23 82 15 8 13 6 5 11 22 3 22 10 3 39 4 6 7 9 12 Personas Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona Persona nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº nº Renta (X) 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 20 23 158 65 63 44 31 88 13 46 63 23 42 40 9 103 6 40 9 34 172 35 118 14 68 Saldos (Y) 10 6 17 18 10 16 18 16 1 9 22 4 5 8 4 10 2 14 4 6 46 4 48 0 32 ( ) a) Nube de puntos: Por la forma que toma esta nube de puntos intuimos que puede existir una correlación fuerte entre ambas variables. ( ) b) Estimar una ecuación de regresión lineal simple de Y sobre X. Para proceder a estimar la recta de regresión simple o ecuación que toma la forma: Y= a + b.X, donde los coeficientes a y b son: b= Covarianzaxy/Varianza x= donde la covarianza xy=SumX.Y/N – Ymd.Xmd y la varianza de x =SumX2/N- Xmd2 a=Ymd-b.Xmd, donde Ymd,Xmd, son las medias aritméticas de cada una de las variables X e Y. También debemos hallar el coeficiente de correlación (Pearson) para ver el grado de dependencia de las variables. ( Personas Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº ) Renta (X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 22 22 85 28 12 42 60 152 27 27 64 34 34 50 75 15 42 48 10 69 26 17 42 41 33 Saldos (Y) 11 7 26 6 6 4 23 82 15 8 13 6 5 11 22 3 22 10 3 39 4 6 7 9 12 SumX.Y 242 154 2.210 168 72 168 1.380 12.464 405 216 832 204 170 550 1.650 45 924 480 30 2.691 104 102 294 369 396 SumX2 484 484 7.225 784 144 1.764 3.600 23.104 729 729 4.096 1.156 1.156 2.500 5.625 225 1.764 2.304 100 4.761 676 289 1.764 1.681 1.089 SumY2 Y estimado 121 6,1 49 6,1 676 24,7 36 7,9 36 3,2 16 12,0 529 17,3 6.724 44,5 225 7,6 64 7,6 169 18,5 36 9,6 25 9,6 121 14,4 484 21,7 9 4,0 484 12,0 100 13,8 9 2,6 1.521 20,0 16 7,3 36 4,6 49 12,0 81 11,7 144 9,4 ( ) Personas Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Persona nº Totales Renta (X) 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 20 23 158 65 63 44 31 88 13 46 63 23 42 40 9 103 6 40 9 34 172 35 118 14 68 2.404 Saldos (Y) 10 6 17 18 10 16 18 16 1 9 22 4 5 8 4 10 2 14 4 6 46 4 48 0 32 690 SumX.Y 200 138 2.686 1.170 630 704 558 1.408 13 414 1.386 92 210 320 36 1.030 12 560 36 204 7.912 140 5.664 0 2.176 54.019 SumX2 400 529 24.964 4.225 3.969 1.936 961 7.744 169 2.116 3.969 529 1.764 1.600 81 10.609 36 1.600 81 1.156 29.584 1.225 13.924 196 4.624 186.224 SumY2 Y estimado 100 5,5 36 6,4 289 46,2 324 18,8 100 18,2 256 12,6 324 8,8 256 25,6 1 3,4 81 13,2 484 18,2 16 6,4 25 12,0 64 11,4 16 2,3 100 30,0 4 1,4 196 11,4 16 2,3 36 9,6 2.116 50,4 16 9,9 2.304 34,4 0 3,7 1.024 19,7 19.944 690,0 ( ) Coeficiente de correlación (Pearson) = 0,77 (Covarianza xy / Desviación típica x . Desviación típica y) N= 50 Medias aritméticas 0,30 Coeficiente b=Covarianzaxy/Varianza x= Variable X = Variable Y = 48,1 =Xmd Coeficiente a=Ymd-b.Xmd= 13,8 =Y md Ecuación de regresión lineal : Y=-0,39+0,30.X Varianzas, covarianzas y desviaciones típicas Varianza x=SumX2/N- Xmd2 = 1.412,8 Varianza y=SumY 2/N- Y md2 = 208,4 Covarianza xy=SumX.Y/N – Y md.Xmd = 416,9 Desviación típica x = 37,6 Desviación típica y = 14,4 -0,39 ( ) En rojo, podemos observar la ecuación de regresión que hemos estimado anteriormente. ( ) c) Explicar económicamente los resultados obtenidos. Hemos relacionado dos variables, considerándola la independiente la renta personal de las personas y como variable dependiente los saldos en cuenta. En los datos iniciales ya se puede intuir una fuerte correlación al estar la nube de puntos con una tendencia muy definida. Los resultados obtenidos mediante el coeficiente de correlación nos corroboran nuestra hipótesis inicial y proseguimos por tanto, para estimar una ecuación de regresión teórica que nos indique el ahorro de las familias. Esto nos lleva a aproximarnos a la propensión marginal del ahorro e indirectamente también a la propensión marginal al consumo de las familias. ( ) Ejercicio resuelto nº 5.- Partimos de una serie de datos anuales que contienen el incremento del PIB mundial y el incremento de número de turistas internacionales en España. Se pide: a) Calcular el grado de correlación con el coeficiente de Pearson. b) En base a los datos anteriores, proceder ( o no) a estimar una recta de regresión. c) Explicación económica en base a los resultados estadísticos encontrados. ( ) Datos de la serie: Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 % Incremento del PIB Mundial 1,92 0,82 2,81 4,4 3,54 3,17 3,44 4,57 3,92 0,03 1,4 1,93 1,51 3,22 2,92 % Incremento nº turistas 0,2 -0,6 1,8 8,9 4,3 3,2 8,9 7 6,5 7,2 0,7 8,4 3,3 4,9 4 Año 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 P2009 % Incremento del PIB Mundial 3,25 3,62 2,41 3,27 4,16 1,71 1,94 2,77 3,99 3,5 5,6 3,8 2 -2,9 % Incremento nº turistas 6,4 4,1 3 3,7 7,4 0 5 3,8 4,4 7,7 3,9 2,9 -1,1 -9,7 ( ) a) Calcular el grado de correlación con el coeficiente de Pearson. =0,676956125 (Correlación positiva) En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad ( ) El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables: Siendo: XY la covarianza de (X,Y) X y Y las desviaciones típicas de las distribuciones marginales. El valor del índice de correlación varía en el intervalo [-1, +1] ( ) * Si r = 0, no existe ninguna correlación. El índice indica, por tanto, una independencia total entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor que pueda tomar la otra. * Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en idéntica proporción. * Si 0 < r < 1, existe una correlación positiva. * Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en idéntica proporción. * Si -1 < r < 0, existe una correlación negativa. ( ) b) En base a los datos anteriores, proceder ( o no) a estimar una recta de regresión Hemos visto por tanto con el coeficiente de Pearson que existe una correlación positiva, por tanto podemos estimar una recta de regresión. La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma: ( ) * La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil. * El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa. * La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica. ( ) Relación entre el incremento del GDP y el incremento del número de turistas internacionales 10 5 0 -4 -2 0 2 4 -5 -10 -15 nº turistas Lineal (nº turistas) 6 8 c) Explicación económica: De acuerdo con la serie de datos que hemos analizado, observamos una relación directa entre el crecimiento (o decrecimiento) del PIB mundial y la llegada de turistas internacionales. Al estar el turismo vinculado a las actividades de ocio, resulta extraordinariamente sensible a las variaciones del PIB, o de otra manera, a las variaciones de renta de cada persona (este ejercicio se desarrolla en una hoja excel).