TEMA 0 ALGUNAS DEFINICIONES Población.- Es un conjunto de personas, objetos, ideas o acontecimientos que van a ser estudiados. Individuo.- También es denominado como unidad estadÃ−stica. Es cada uno de los elementos de la población que va a ser estudiada. Censo.- Es el estudio de todos los elementos de una población. A veces es imposible de realizar, bien sea porque se trate de una población de infinitos elementos, de que el método sea destructivo o cualquier otra razón. Muestra.- Es un subconjunto de la población. (Tendrán interés aquellas que representen fielmente a la población). Tamaño muestral.- Es el número de elementos de la muestra. Muestreo aleatorio simple.- Los elementos elegidos son equiprobables y la elección debe realizarse con independencia Variables (o atributos).- Son los caracteres que se pueden observar y estudiar en los individuos de la población. Esta caracterÃ−stica varÃ−a de un individuo a otro. El valor es impredecible antes del estudio (es imposible saber la altura de alguien antes de tenerlo enfrente, por ejemplo). Se clasifican en: Variables cualitativas.- No toman valores numéricos (Color del pelo, p. e.). A los posibles resultados se les denomina modalidades. Variables cuantitativas discretas.- Toman un número finito de valores dentro de un intervalo finito (Número de hijos de una familia, p.e.) Variables cuantitativas continuas.- Toman valores dentro de un intervalo. (p. e. Altura de los estudiantes) ETAPAS PARA LA DETERMINACIà N DE UN PROBLEMA Formulación del problema Diseño del experimento (Saber que muestreo se va a utilizar) Obtención de los datos Análisis estadÃ−stico de los datos. Formulación de la respuesta, que irá acompañada del método empleado. TEMA 1 DISTRIBUCIONES DE FRECUENCIAS Para el estudio de la distribución de frecuencias se define la variable estadÃ−stica X, de la cual se dispone de 1 una muestra de tamaño N. Sea entonces n el número de observaciones distintas que hay en la muestra. Frecuencia absoluta (ni).- Es el número de veces que una observación distinta (xi) se repite. Observamos que: Frecuencia absoluta acumulada (Ni) de un dato xi .- Número de veces que se repiten observaciones menores o iguales a xi. (frecuencia abs. acum. de xn) Frecuencia relativa.- Se define como el cociente entre el número de veces que se hace una observación y el número de observaciones totales: La suma de las frecuencias relativas es 1. Frecuencia relativa acumulada.- Se define como el cociente entre el número de veces que se hace una observación menor o igual a xi, y el número de observaciones totales: La suma de las frecuencias relativas acumuladas es 1. EJEMPLO: (Frecuencias) Entramos en una clase en la cual hay 120 alumnos. Les preguntamos a 11 por sus edades y nos responden 18, 19, 19, 22, 18, 17, 19, 20, 20, 19 y 20. Realizar la tabla de frecuencias correspondiente: La tabla serÃ−a esta: Edad Frecuencia abs. Frecuencia rel. Frec. abs. acum. Frec. rel. acum. xi ni fi Ni Fi 17 1 1/11 1 1/11 18 2 2/11 3 3/11 19 4 4/11 7 7/11 20 3 3/11 10 10/11 22 1 1/11 11 11/11 Totales: 11 1 11 1 Si en lugar de haber 120 alumnos sólo hubiera 11, y hubieran sido cogidos como muestra, ésta serÃ−a bastante mala, pues algo debe pasar para que estén tan sólo 11 personas y precisamente esas 11 personas. En el ejemplo anterior, la variable es cuantitativa discreta. Si la variable es contÃ−nua, o incluso si el número de datos es muy grande, suelen emplearse los intervalos de clase. La marca de clase es el punto medio del intervalo, y la vamos a tratar como si realmente agrupase a todos los valores del intervalo. Será llamada xi. EJEMPLO: (Intervalos de clase) Interesados en conocer las alturas del grupo anterior, nos dan los siguientes datos (en centÃ−metros): 170, 163, 174, 158, 179, 165, 161, 160, 158 y 162. Nuevamente construimos la tabla de frecuencias. Definiremos intervalos de diez en diez centÃ−metros de altura: 2 Intervalo (150, 160] (160, 170] (170, 180] xi 155 165 175 ni 3 6 2 fi 3/11 6/11 2/11 Ni 3 9 11 Fi 3/11 9/11 9/11 REGLAS PARA ELEGIR LOS INTERVALOS DE CLASE Como regla general, tomaremos como número de intervalos de clase el entero entre 5 y 20 más próximo a . • En general, se tomarán todos los intervalos de la misma longitud, salvo que haya razones que sugieran lo contrario, como el hecho de que existan unos pocos datos dispersos en toda la distribución, y muchos concentrados en un solo intervalo) • Cuando se sepa el número de intervalos, se seleccionarán de forma que cubran toda la observación, evitando en la medida de lo posible que haya datos en la frontera de los intervalos. Para esto se pueden dejar holguras antes del primer dato y después del último o aumentar en un decimal la precisión REPRESENTACIONES GRÔFICAS Diagrama de barras.- Sirve tanto para observaciones que provengan de variables cualitativas como para observaciones provenientes de variables discretas. En un sistema de coordenadas se sitúan los datos en el eje de abscisas, y sobre ellos se levantan barras indicando su frecuencia (fig 1.1). • PolÃ−gono de frecuencias acumuladas.- Se representan los puntos (xi, ni) ó bien (xi, Fi) y se unen mediante segmentos (fig 1.2) • Histograma.- En el eje de abscisas se representan los intervalos de clase, y sobre ellos se levantan rectángulos de un área proporcional a su frecuencia (fig 1.3). El histograma es muy sensible a decisiones que tomamos nosotros, y le afectan cosas como la elección de los intervalos de clase, la escala.... Fig 1.1.- Diagrama de barras Fig 1.2.- PólÃ−gono de frecuencias acumuladas Fig 1.3.- Histograma de frecuencias. TEMA 2 MEDIDAS DE POSICIà N Sea X una variable estadÃ−stica; entonces del conjunto {x1, x2, ... , xn} se pueden sacar las medidas de tendencia central, promedios ó medidas de posición. Medidas de posición central.- Son valores entorno a los cuales se agrupa la distribución, y por tanto, de alguna manera la representan. I.- Media aritmética.- Sea X una variable estadÃ−stica que toma los valores distintos x1, x2, ... , xn, con frecuencias absolutas n1, n2, ... , nn Propiedades de la media aritmética: , esto es tanto como decir que la media es el centro de gravedad de las observaciones. 3 es mÃ−nima cuando . y = a + b·x à . La media es un operador lineal. En general no se cumple que y = x2 à El principal inconveniente de la media aritmética es su falta de robustez, puesto que es una medida muy sensible a la presencia de datos atÃ−picos. II.- Media aritmética ponderada donde w es el peso de la medida tomada. Propiedades de la m. a. ponderada: wi ³ 0, para todo i. EJEMPLO (Media aritmética y M.a. ponderada): Una persona hace tres exámenes: el primero dura una hora y saca un 7, el segundo dura dos horas y saca un 6, y el tercero dura 30 minutos y saca un 4. Hállese la nota media. Si se utiliza la media aritmética simple, Si se utiliza la m. a. ponderada se tiene que III.- Media geométrica Es menos intuitiva que la media aritmética. Puede observarse en la expresión anterior que se anula si alguna observación es cero. Además también es posible observar la posibilidad de que no pueda ser calculada si hay valores negativas. La media geométrica suele utilizarse para el cálculo de promedios de porcentajes, razones, tasas y números Ã−ndices, entre otras aplicaciones. IV.- Media armónica.- Es la inversa de la media aritmética de las inversas de las inversas de las observaciones. No puede calcularse si alguna observación es cero, y suele emplearse para calcular medias de velocidades, tiempos, porcentajes... EJEMPLO (Media armónica): Un coche recorre un trayecto con una velocidad media de 60 km./h a la ida, y de 70 km./h a la vuelta. Se pide la velocidad media de todo el trayecto. Aplicando la FÃ−sica que sabemos tenemos que a partir de la fórmula de la velocidad media se deduce que: km./h ida y vuelta es 2·s Siempre se verifica que la media armónica es menor o igual a la media geométrica, que a su vez es menor o igual a la media aritmética. () 4 V.- Mediana.- Es el valor de la variable que deja a su izquierda el mismo número de valores que a su derecha si estos están ordenados de menor a mayor. Si hay un número impar de datos, la mediana es el valor central, y si hay un número par de datos la mediana es la media aritmética de los valores centrales. Si la variable está agrupada en clases, se calcula la clase mediana y dentro de ella la mediana por interpolación lineal. EJEMPLO (Mediana): x= -1, 0.5, 1, 4, 7 ® La mediana es 1 Si se repiten x= 1, 1, 2, 2, 3, 3, 3, 4, 4 ® La mediana es 3 Si hay un número par de observaciones: x=1, 1, 2, 2, 3, 3, 4, 4 ® La mediana es la media aritmética de los dos elementos centrales: 2.5 Se dice que la mediana es robusta ante valores extremos (se ve poco influenciada por valores extremos de la variable). Un ejemplo de esto es que para calcular el salario medio de un paÃ−s no se calcula la media aritmética de todos los salarios del paÃ−s, sino la mediana de todos ellos. Esto se hace para que unos cuantos grandes salarios no falseen la muestra elevando la media aritmética. Para hallar la mediana a partir de una tabla de frecuencias se harÃ−a lo siguiente: xi ni Ni 1 3 3 2 7 10 3 4 14 4 3 17 Primero se hallarÃ−a la columna Ni que es la columna de las frecuencias acumuladas (n1+ n2+...+nn ) y se calcula , y se coge el valor de la columna Ni inmediatamente superior a este resultado, en este caso 10. La mediana es el valor que está en esa fila pero en la columna xi. Este valor es 2. Si se diera el caso de que , entonces VI.- Moda.- Es el valor que más se repite dentro del conjunto de las observaciones: Si la variable es continua se habla de intervalo modal, que es el intervalo de clase de mayor altura al representar el histograma. Si los intervalos tienen distintas longitudes, el intervalo de mayor altura no tiene por que coincidir con el de mayor frecuencia. Dentro del intervalo modal se considera la marca de clase como representante. La moda puede calcularse siempre pero no tiene por que ser única. EJEMPLO (Moda): X= 1, 1, 2, 3, 3, 3, 4, 5 ® La moda es 3 Si hay dos valores que son moda, entonces será un conjunto bimodal, si hay tres, trimodal, etc. VII.- Cuantiles.- Los cuantiles son aquellos valores que dividen la distribución en intervalos, de forma que cada uno de ellos tenga la misma frecuencia. Un cuantil de orden p ( ) es un valor tal que el p% de las observaciones están a su derecha en el intervalo o en su misma posición. Se denotan por Qp. El cuantil de 5 orden 50 es la mediana. Para hallar un cuantil a partir de una tabla de frecuencias se procede igual que en el caso de la mediana, sólo que en vez de haremos para hallar el p%. Cuartiles.- Son los cuantiles Q25, Q50, Q75, y se denominan asÃ− porque dividen al conjunto de las observaciones en cuatro partes iguales. Quintiles.- Dividen la distribución en cinco partes iguales. Deciles.- La dividen en diez partes iguales. Percentiles.- La dividen en cien partes iguales. MOMENTOS Son medidas que caracterizan a una distribución. Como operadores son muy útiles, porque permiten el cálculo simplificado de las medidas. Para variables unidimensionales, el momento de orden r respecto a un valor c se calcularÃ−a de la siguiente manera: Para hallar el momento respecto del origen, se calcula el momento con c = 0. El momento respecto del origen con r = 1 es la media. Si , se denominan momentos centrales, cuya expresión es: En este caso, si r = 1, m1 = 0; si r = 2, m2 = s2; si r = 3, m3 = g1. Existe una relación entre momentos muy útil: donde M2 es la media del cuadrado. TEMA 3 MEDIDAS DE DISPERSIà N Y FORMA Las medidas de dispersión y forma se utilizan para medir la variabilidad, esparcimiento ó concentración de los valores muestrales en torno a un valor central, pudiéndose interpretar como medidas de la representatividad de dicho valor. En unos casos la media aritmética es más representativa que en otros. Cuanto mayor sea la dispersión de los datos menos representativa será la media aritmética. MEDIDAS DE DISPERSIà N Las medidas de dispersión cuantifican la representatividad de las medidas de posición. Se utilizan para medir la variabilidad o esparcimiento de los valores de la distribución en torno a un valor central. Se pueden clasificar en absolutas o relativas, según dependan o no de la dimensión de la variable. Las relativas tienen la importante ventaja de permitir comparaciones con otras variables. Recorrido o rango.- Es la diferencia entre los valores extremos (R= máx (x) - min. (x)) Recorrido intercuartÃ−lico.- Es la diferencia entre el tercer y el primer cuartil. Contiene el 50% de los valores centrales (RI = Q75 - Q25) 6 Desviación media ó Desviación respecto de la media.- Si la desviación media es grande, la representatividad de la muestra es pequeña, y viceversa. No se suele usar porque es muy poco tratable analÃ−ticamente. Desviación respecto de un parámetro p.p puede ser la mediana, la moda o cualquier valor que se nos ocurra, aunque generalmente se usa únicamente la desviación respecto de la media. Varianza.- Es la más importante de todas las medidas de variación, y habitualmente es denotada por s2, S2n ó Var[x].- Si tenemos datos alejados (entre sÃ− y con respecto a ), entonces la varianza será grande, y si tenemos datos cercanos (entre sÃ− y con respecto a ), entonces la varianza será pequeña. Propiedades de la varianza: Var( a + X ) = Var ( X ), para todo a â R, y para toda X variable estadÃ−stica. Var( b · X ) = b2·Var( X ), para todo b â R. De estas dos propiedades se deduce que Var (a + b·X) = b2·Var( X ). Para la media nos queda que E(a + b·X) = a + b·E( X ). El principal inconveniente de la varianza es que no se expresa en las unidades originales utilizadas, sino en éstas al cuadrado. Para resolver este problema, utilizamos su raÃ−z cuadrada. EJEMPLO (Varianza): Tenemos los conjuntos e . Hallar sus varianzas, sabiendo que en ambos casos la media aritmética es igual a 500. Para el conjunto X,, y para el conjunto Y, , de donde se extrae que sx=408'2 y sy= 1, resultando que el conjunto X es más disperso que el conjunto Y. Desviación tÃ−pica.- Se representa por s ó Sn. La información conjunta que proporcionan la media y la desviación tÃ−pica puede expresarse mediante la desigualdad de Tchebyshev, que dice que entre la media y k veces la desviación tÃ−pica se encuentra, como mÃ−nimo el de las observaciones. Cuasivarianza.- Un problema de la varianza es que no es insesgado, y es por eso que para substituirla se utiliza la cuasivarianza muestral, que se calcula a partir de la expresión Cuasidesviación tÃ−pica.- Por la misma razón que es necesaria la cuasivarianza es necesario calcular la cuasidesviación tÃ−pica. Propiedad de la Cuasivarianza y de la Cuasidesviación tÃ−pica: N·S2n = (N-1)·S2 Medidas de dispersión relativa.- La varianza ó la desviación respecto de la media son medidas de dispersión absolutas (usan las mismas unidades que la variable). Por el contrario las medidas de dispersión 7 relativa no tienen unidades y pueden ser comparadas con otras variables. La más conocida es el Coeficiente de Variación de Pearson: Cuanto mayor es el CV, mayor es la dispersión. MEDIDAS DE FORMA Las medidas de forma “miden” la forma de la distribución (nos hablan de la forma de su gráfica: aplastamiento, simetrÃ−as, etc.). SimetrÃ−a.- Una variable X es simétrica respecto de un valor p cuando los valores equidistantes de p tienen la misma frecuencia. Habitualmente se toma p=, aunque podrÃ−a tomarse respecto a la moda o a cualquier otro parámetro. AsimetrÃ−a.- Una distribución será asimétrica cuando no sea simétrica. Una distribución será asimétrica a la derecha (ó positiva) cuando la distribución es más larga a la derecha deque a su izquierda, y será asimétrica a la izquierda (ó negativa) cuando la distribución es más larga a la izquierda de que a su derecha. Coeficiente de asimetrÃ−a de Pearson.- Se calcula según la siguiente expresión: Un grave inconveniente es que sólo se puede calcular si la distribución posee una moda. Coeficiente de asimetrÃ−a de Fisher.donde m3 es el momento de orden 3. Si CAF < 0 la distribución es asimétrica a la izquierda, verificándose usualmente que Si CAF = 0 la distribución es simétrica, verificándose usualmente que Si CAF > 0 la distribución es asimétrica a la derecha, verificándose usualmente que Curtosis ó aplastamiento.- Mide el grado de apuntamiento de una distribución respecto de la distribución normal, que se toma como patrón y que tiene una CK = 0. Cuando el valor CK >0, la gráfica tiene una forma como esta: Si por el contrario, CK < 0, entonces la gráfica será: Ambas gráficas coincidirán únicamente en el caso de que CK = 0: Tipificación.- Dada una variable estadÃ−stica X se dice que está tipificada, estandarizada o reducida si su media es cero y su desviación tÃ−pica uno. Para tipificar una variable hay que restar a la variable original su media y dividirla entre su desviación tÃ−pica. Una variable tipificada se ajusta a una normal N(0, 1). Covarianza.- Si r = s = 1 La covarianza mide la relación lineal entre X e Y. Es siempre positiva y tanto mayor cuanto mayor sea la relación entre las variables. 8 Si la relación entre X e Y es inversa, entonces e tienen signos opuestos. En este caso, cuanto mayor sea la relación entre las variables tanto menor será la covarianza, que además será siempre negativa. Propiedad.- Se verifica que: Regresión.- TeorÃ−a que trata de expresar mediante una expresión matemática la relación que existe entre las variables. Dado un conjunto de puntos, el dibujo de su nube nos puede indicar si existe algún tipo de relación entre las variables. La idea de mejor recta, ó curva que mejor se ajusta es aquella curva más próxima a la nube de puntos, aquella que posee la menor distancia a los puntos de la nube. En las nubes de puntos a veces puede verse con mucha claridad el tipo de relación que se da entre las variables X e Y. Concretamente aquÃ− puede verse un ejemplo de Relación de tipo parabólica, otro de una Relación de tipo lineal, y por último una nube de puntos en la que no se aprecia relación alguna y en la cual los puntos parecen distribuidos al azar. Método de los mÃ−nimos cuadrados.- Se utiliza para minimizar las distancias: donde y Del método de los mÃ−nimos cuadrados se obtiene la recta de regresión de X sobre Y: También se hallará el coeficiente de correlación lineal: donde siempre se verificará que siempre. Si , existe correlación lineal positiva entre las variables tanto mayor cuanto más se aproxime r a 1, y tanto menor cuanto más se aproxime r a cero. Si , existirá una correlación lineal negativa entre las variables tanto mayor cuanto más se aproxime r a -1, y tanto menor cuanto más se aproxime r a 0. Si r = 0, se dice que existe una correlación nula ó incorrelación. Coeficiente de determinación.- Nombre que recibe r2. R2·100 nos da el porcentaje de correlación lineal existente entre las variables. TEMA 4 DISTRIBUCIONES BIDIMENSIONALES Para cada individuo de la población se analizarán dos caracterÃ−sticas de interés. Se tendrán n observaciones del tipo (xi, yi). TEMA 3 FUNDAMENTOS DE LA TEORà A DE LA PROBABILIDAD Un experimento se dice que es aleatorio si cumple las siguientes condiciones: Todos los posibles resultados se conocen con antelación Ante una realización concreta del experimento, es imposible predecir el resultado 9 Todas las realizaciones de un experimento se realizan bajo las mismas condiciones. El conjunto de posibles resultados de un experimento se denomina espacio muestral, y se denota con la letra Ω. Sucesos elementales.- Son los elementos de Ω. Sucesos.- Un suceso ocurre cuando se verifica uno de los sucesos de Ω. Suceso imposible.- Subconjunto de Ω que no contiene elementos. Se denota por â . Un suceso A está contenido en un suceso B cuando todo suceso elemental de A pertenece a B, o lo que es lo mismo, siempre que ocurre A ocurre B. El recÃ−proco no se verifica. Para algunas de las siguientes definiciones se utilizará el Ôlgebra de Boole y su notación. Unión de sucesos.- A1 + A2 + A3 + ... + Ai. Se verifica cuando ocurre alguno de los Ai. Intersección de sucesos.- A1·A2·A3·...·Ai. Se verifica cuando ocurren todos los Ai. Suceso complementario.- ocurre siempre que no ocurre A. Sucesos incompatibles.- Aquellos cuya intersección da como resultado â . Diferencia de sucesos.- Se verifica cuando ocurre A y no ocurre B. Se denota por A - B y también por . La unión y la intersección de sucesos cumplen las propiedades conmutativa, asociativa, distributiva, existencia de elemento neutro (â para la unión y Ω para la intersección), y también cumple las Leyes de Morgan. Dado un conjunto Ω, se define partes de Ω , P(Ω), al conjunto definido por todos los subconjuntos de Ω. Consideremos un experimento aleatorio, con Ω su espacio muestral asociado y A un suceso. RepÃ−tase el experimento n veces. Se define la frecuencia absoluta del suceso A como el número de veces que se repite A (na) en las n repeticiones: Se verifica: , Ω ocurre siempre. , no ocurre nunca. Si A y B son sucesos incompatibles, A â © B = , y f (A â ª B) = f (A) + f (B). PROBABILIDAD Consideremos un experimento aleatorio, y Ω su espacio muestral. Una probabilidad sobre Ω es una aplicación: P : P(Ω) R , verificando: A P(A) â R 10 PROPIEDADES: P(A) â ¥ 0, â “ A P(Ω) = 1 Si A, B â P(Ω) incompatibles, P(A â ª B) = P(A) + P(B). • Consecuencias de la definición: • P(â ) = 0 • a. Si A â B P(A) P(B) • b. Siempre se cumple que , â “ A • Regla de la adición P(A â ª B) = P(A) + P(B) - P(A â © B).- No tienen por que ser incompatibles Regla de la adición generalizada: P(A â ª B) = P(A) + P(B) - P(A â © B EstadÃ−stica 1º E.T.I.S. Facultade de Informática da Coruña Curso 1.997-1.998 11 11