UNIDAD 2 LOS DATOS SE PUEDEN ORDENAR MEDIANTE: Diagramas de tallo y hoja: (no se puede usar con cifras de un dígito) es una técnica estadística para representar un conjunto de datos. El o los dígitos principales forman el tallo (a la izquierda) y los dígitos secundarios las hojas (a la derecha). Una ventaja del diagrama sobre la distribución de frecuencias es q no perdemos la identidad de cada observación. Tabla de distribución de frecuencias: es un agrupamiento de datos en categorías mutuamente excluyentes dando el n° de observaciones de cada categoría. La ventaja principal es q obtenemos una imagen visual rápida de la forma de distribución sin tener q hacer más cálculos. Podemos ver donde se concentran los datos y también determinar si hay algún valor extremadamente grande o extremadamente pequeño. Tiene 2 desventajas: perdemos la identidad exacta de cada valor y, no estamos seguros de cómo están distribuídos los valores dentro de cada clase. 1) Xi: valores q toma la variable N = población n = muestra 2) Frecuencia absoluta (fi) n° de veces q se repite cada valor de la variable. La suma de las frecuencias absolutas es igual al total de las observaciones --------> Sumatoria fi = n 3) Frecuencia relativa (fr) --------> Sumatoria fr = 1 fr = fi / n 4) Frecuencia relativa porcentual ------> fr % = fr x 100 5) Frecuencia absoluta acumulada (Fi) = sumatoria de fi 6) Frecuencia relativa acumulada (Fr) = Fi / n 7) Frecuencia relativa porcentual acumulada (Fr %) - Cuando la variable es discreta para la distribución de frecuencias absolutas usamos el GRAFICO DE BASTONES. En el eje X va Xi, la frecuencia q quiero representar va en el eje Y - GRAFICO ESCALONADO: cuando la variable es discreta y la frecuencia absoluta acumulada. Distribución de frecuencia relativa: convierte la distribución en un porcentaje, para tener la fracción del n° total de observaciones en cada clase. Para convertir una distribución de frecuencia en una distribución de frecuencia relativa se divide cada una de las frecuencias de clase entre el total de las observaciones. Pasos para organizar los datos en una distribución de frecuencia: 1) Decida cuántas clases quiere: el propósito es usar suficientes clases de manera q revelen la forma de la distribución, se necesita algún criterio. 2) Determine el intervalo o la amplitud de la clase: generalmente el tamaño de la clase o del intervalo debe de ser el mismo para todas las clases. Las clases juntas deben abarcar por lo menos la distancia desde el menor valor en los datos en bruto hasta el valor mayor 3) Fije los límites de cada clase: determine límites de clase claros de manera q pueda colocar cada observación únicamente en una clase. 4) Ponga una marca por cada precio de venta de un vehículo, en la clase correspondiente. 5) Cuente el n° de objetos en cada clase: al n° de observaciones en cada clase se le llama la frecuencia de clase. Es útil expresar los datos en miles. Para determinar el intervalo de clase reste el límite inferior de la clase, del límite inferior de la clase siguiente. Presentación gráfica de una distribución de frecuencia: sirven 3 diagramas (histogramas, polígonos de frecuencia y los polígonos de frecuencia acumulada). Histograma: grafico de superficie o de área. Las clases se indican en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase se representan por la altura de las barras, y las barras se trazan adyacentes una a la otra. Cada frecuencia se representa con la superficie de un rectángulo, donde la base del rectángulo está dada por la amblitud del intervalo. Cuando tengo q construír un histograma donde todos los intervalos son de la misma amplitud, la altura del rectángulo va a ser igual a la frecuencia q estoy representando. SUP RECT. = b.a b=b=b...=1 Polígono de frecuencia: consiste en segmentos de linea q conectan los puntos formados por la intersección del punto medio de clase y la frecuencia de clase. Los puntos medios de clase se conectan mediante un segmento de línea. La sup es igual al n° de observaciones. Si represento fi el área total del histograma y polígono es igual a 1. Ambos nos permiten obtener una visión rápida de las principales características de los datos, el histograma tiene la ventaja de representar cada frecuencia como un rectángulo, en el q el área de la barra rectangular representa el n° de frecuencias de cada clase. El polígono de frecuencia, tiene una ventaja sobre el histograma, nos permite comparar directamente 2 o mas distribuciones de frecuencia. MEDIDAS DESCRIPTIVAS Los datos sobre variables cuantitativas se pueden resumir en 2 formas: medidas de tendencia central, medidas de dispersión y medidas de forma. - Las medidas de tendencia central (o ubicación) son valores alrededor de los q las observaciones tienden a agruparse, y permiten ubicar lo q en algún sentido pudiera llamarse el “centro” de un conjunto de datos. - Las medidas de dispersión (o variabilidad) son n° q indican la diseminación o dispersión de observaciones, muestran la magnitud en q los valores individuales de un conjunto de datos difieren de otros y , por ello, de su ubicación central. - Las medidas de forma son n° q indican el grado de asimetría o agudeza de una distribución de frecuencias. Se puede calcular cualquier medida de resumen tanto para una población como para una muestra. Cuando se basa en datos de problación, la medida de resumen se llama siempre parámetro, se conoce como estadístico si está calculado con datos muestrales. Además, los cálculos pueden provenir de conjunto de datos originales, no elaborados ni agrupados (fuentes primarias) o basarse, con alguna pérdida de presición, en información procesada previamente (fuentes secundarias), incluso pueden ser datos agrupados como los q se encuentran en una distribución de frecuencias. Medidas de tendencia central: la media aritmética (promedio). * Cálculo para datos no agrupados: la media aritmética se puede calcular con presición al sumar todos los valores observados y dividir el total entre el n° de observaciones. * Expresión simbólica: N ---> población, n ---> muestra. Los parámetros se simbolizan con letras griegas y los estadísticos por romanas. La media poblacional ---> u, la media muestral ----> X. Media aritmética para datos no agrupados: - para una población: u = sumatoria X / N - para una muestra: X = sumatoria X / n ; Donde sumatoriaX es la suma de todos los valores de la población o muestra observados, N es el n° de observaciones en la población y n es el de observaciones en la muestra. Media aritmética para datos agrupados: a veces no se dispone de datos sin elaborar y, la media ha calcularse partiendo de una distribución de frecuencias. Se puede lograr solo con suponer q las observaciones q caigan en una clase dada están igualmente espaciadas dentro de ella y se ubican, por lo tanto, en promedio, igual en el punto central del intervalo de clase. Cada punto medio se multiplica entonces por la frecuencia absoluta de clase. Para una población: u = sumatoria fX / N Para una muestra: X = sumatoria fX / n donde sumatoria fX es la suma del producto de toda frecuencia de clase (f) por el punto medio de clase (X). * Propiedades de la media aritmética: 1) Todo conjunto de datos, de intervalo o de razón tiene una media. (Los datos de intervalo y razón como edades, ingresos y peso, son datos en los q la distancia entre 2 n° es constante). 2) Para calcular la media se toman todos los valores. 3) Un conjunto de datos sólo tiene una media, la media es única. 4) La media es una medida útil para comparar 2 o más poblaciones. 5) La media aritmética es la única medida de posición en la q la suma de las desviaciones de los valores de la media será siempre 0. Sumatoria (X-X) = 0 6) Está muy influenciada por los valores extremos (demasiado grandes, o pequeños) 7) No se puede determinar la media de una distribución de frecuencia en la q hay clases abiertas. La mediana (Mna) Para datos que contienen 1 o 2 datos muy grandes o muy pequeños, la media aritmética puede no ser representativa. Por esto se ultiliza la mediana, es el valor de la variable q una vez ordenados los datos divide la distribución en 2 partes iguales, dejando el 50% de las observaciones menores o iguales q ella y el otro 50% mayores o iguales q ella. * Propiedades de la mediana: 1) La mediana es única. 2) A la mediana no le afectan valores extremadamente grandes ni extremadamente pequeños y por esto es una valiosa medida de tendencia central cuando se tienen estos valores. 3) Se puede calcular para distribuciones de frecuencia con una clase abierta, siempre q la mediana no se encuentre en la clase abierta. 4) Se puede calcular para datos de nivel ordinal, de intervalo y de razón (excepto del nominal). Cálculo de la mediana: (los datos deben estar ordenados) Mna ° (de orden) = (n+1) / 2 ------> lo que me da, es la observación donde se encuentra la mediana, busco la posición. Los cuartilos son las medidas de posición “no central” q se utilizan con mayor frecuencia y se emplean sobre todo para resumir o describir las propiedades de conjuntos grandes de datos numéricos. Son medidas descriptivas q partes los datos ordenados en 4 partes. Otros cuartilos q se utilizan a menudo son los deciles, q separan los datos ordenados en 10 partes y los percentiles, q los dividen en 100 partes. El primer cuartil Q1 es un valor tal q el 25% de las observaciones son menores y 75% son mayores. Q1 ° = (n+1) / 4 El tercer cuartil Q3 es un valor tal q el 75% de las observaciones son menores y el 25% son mayores. Q3 ° = 3(n+1) / 4 * Se utilizan 3 reglas para obtener los valores de los cuatriles: 1) Si la posición obtenida es un n° entero, se elige como cuartil la observación numérica específica de ese lugar. 2) Si la posición obtenida se encuentra en el justo medio de 2 n° enteros, se selecciona el promedio de sus valores correspondientes. 3) Si la posición obtenida no es un n° entero o el valor medio entre 2 n° enteros, una regla sencilla para aproximar el cuartil específico consiste en redondear hacia arriba o hacia abajo la posicion entera más cercana y elegir el valor numperico de esa observación. El modo (Mo) Es el valor q se presenta con mas frecuencia. Puede q 2 valores presenten un n° grande de veces, a la distribución se le llama bimodal. Si el conjunto de datos tiene más de 2 modos, se llama multimodal. Posiciones relativas de la media, la mediana y el modo. En una distribución simétrica, mediana, media y modo son iguales. Una distribución sesgada no es simétrica. En una distribución positivamente sesgada, la media aritmética es el mayor de los 3 promedios (porq la media es más influída q el modo o la mediana por valores extremadamente altos). La mediana suele ser el siguiente promedio y el modo es el menor de los 3 promedios. Inversamente, en una distribución negativamente sesgada, la media aritmética es el mejor de los 3 promedios. La mediana es mayor q la media aritmética, y el modo es el mayor de los 3 promedios. ¿Por qué se estudia la dispersión? Un promedio como la media o la mediana sólo localizan el centro de los datos. Un valor pequeño en una medida de dispersión indica q los datos están estrechamente agrupados alrededor de la media. Entonces la media se considera representativa de los datos; la media es un promedio confiable. Inversamente una medida de dispersión grande indica q la media no es confiable, no es representativa de los datos. Una segunda razón para estudiar la variación de un conjunto de datos es comprar la dispersión de 2 o más distribuciones. Una medida de dispersión se puede usar para evaluar la confiabilidad de 2 o más promedios. Medidas de dispersión El rango se basa en la localización del valor mayor y el valor menor de los datos. La desviación media, la variancia y la desviación estándar, se basan todas en desviaciones de la media. Rango: es la diferencia entre el valor mayor y el valor menor. Desviación media: mide la cantidad media en la q los valores de la población, o de la muestra, varían de la media. Tiene 2 ventajas: 1- en su cálculo se usan todos los valores. 2- es fácil de entender (es la cantidad promedio en q los valores se desvían de la media). Variancia: es la media aritmética de las desviaciones de la media elevadas al cuadrado. Como el rango y la desviación media, la variancia se puede usar para comparar la dispersión de 2 o más conjuntos de observaciones. Es difícil de interpretar debido a las unidades. VARIANCIA POBLACIONAL (para datos no agrupados, no tabulados en una distribución de frecuencia): G2 = sumatoria (X-u)2 / N Donde: G2 es la variancia poblacional, X es el valor de una observación de la población, u es la media aritmética de la población, N es el n° de observaciones de la población. VARIANCIA MUESTRAL: S2 = sumatoria (X-X)2 / n-1 Donde: X es el valor de cada una de las observaciones en la muestra, X es la media muestral, n es el n° de observaciones en la muestra. – Desviación estándar: mide en promedio cuanto se aleja cada observación de la media aritmética. Es la raíz cuadrada positiva de la variancia. Está en las mismas unidades q los datos. DESVIACION ESTANDAR POBLACIONAL: G = raíz de sumatoria (X-u)2 / N DESVIACION ESTANDAR PARA DATOS AGRUPADOS: Para una población: Para una muestra: Otra medida de variación es el Rango intercuartil: es la diferencia entre el 1er y 3er cuartil en un conjunto de datos. Mide la variación en 50% de las observaciones centrales. Los valores extremos no influyen en ella. RI = Q3 – Q1 - Desviación cuartil: mide cuanto se aleja Q3 y Q1 en promedio de la mediana. DC = (Q3 – Q1) / 2 TODAS LAS ANTERIORES SON VARIABLES DE DISPERCIÓN ABSOLUTA Usos frecuentes de la desviación estándar. Es útil para describir un conjunto de datos midiendo el grado de dispersión de las observaciones individuales alrededor de su media. Existen 2 aplicaciones adicionales para la desviación estándar: 1) Teorema de Chebyshev: establece q para todo conjunto de datos, por lo menos 1-1/K2 % de las observaciones están dentro de K desviaciones estándar de la media, en donde K es cualquier n° mayor q 1. 1 - ( 1 / K2) 2) La distribución normal y la regla empírica: una distribución normal es una distribución de datos continuos (no discretos) q produce una curva simétrica en forma de campana. Las observaciones en cada extremo ocurrirán relativamente de forma poco frecuente, pero las observaciones q estan mas cerca de la mitad ocurrirán con una frecuencia alta. En una distribución normal la media, la mediana y la moda son todas iguales. Si se describe una población específica, al menos en forma aprox, mediante la curva normal perfectamente simétrica en forma de campana, se puede usar la REGLA EMPIRICA para estimar los porcentajes de todos los valores de problación q se encuentran dentro de un n° especificados de desviaciones estándar de la media; alrededor del 68% de todos los valores están dentro de una desviación estándar de la media, casi un 95% están dentro de 2 desviaciones estándar y prácticamente todos los valores están dentro de 3 desviaciones estándar de la medial. Dispersión relativa: es una comparación de 2 o más medidas de dispersión. Coeficiente de variación (CV): es la relación entre la desviación estándar y la media, expresada como un por ciento. Me permite comparar conjuntos de datos, cuanto más chico es el coeficiente de variación mas homogéneos son los datos. Es una medida muy útil cuando: 1) Los datos están en unidades diferentes (por ej: dólares y dias de ausencia). 2) Los datos están en las mismas unidades, pero las medias son muy distintas (por ej: los ingresos de los ejecutivos de alto nivel y los ingresos de los empleados no calificados). CV = s / X . (100) Medidas de forma: Asimetría. La forma de una distribución de frecuencia se puede describir por: 1) su simetría o falta de ella (asimetría) y 2) su agudeza (curtosis). Asimetría: grado de distorsión de una distribución de frecuencia desde la simetría horizontal. Asimetría positiva así llamada porque la densidad de frecuencia disminuye en forma más lenta hacia la derecha de la moda q hacia la izquierda, y porque la cola derecha de la curva de frecuencia apunta en la dirección positiva a lo largo del eje horizontal. X > Mna > Mo Asimetría negativa asi llamada porque la densidad de frecuencia disminuye en forma más lenta hacia la izquierda de la moda que hacia la derecha, y porque la cola izquierda de la curva de frecuencia apunta en la dirección negativa a lo largo del eje horizontal. X < Mna < Mo Perfectamente simétrica: la media, la mediana y la moda coinciden. X = Mna = Mo Mientras estas medidas de tendencia central coinciden en el caso de simetría perfecta, la media es atraída hacia los valores extremos en el caso de asimetría positiva o negativa. Diagrama de caja: es una representación gráfica, basada en los cuartilos, q ayuda a describir un conjunto de datos. Para construirlo necesitamos únicamente 5 estadísticos: el valor mínimo (Xi), Q1 (el 1er cuartil), la mediana (Mna), Q3, y el valor máximo (Xn). Si estan igualmente distribuídos los datos entre Q1 y la Mna y entre la Mna y Q3, es llamada distribución perfectamente simétrica. (observo la caja). En los ejercicios de intervalos abiertos sólo puedo calcular modo, mediana, cuartilos y desviación cuartil. Pto medio del intervalo: Xi ' = ( Li + Ls ) / 2 UNIDAD 3 Probabilidad: es una función q me permite calcular la probabilidad de ocurrencia de 1 o más sucesos. Experimento aleatorio (e): es aquel q realizado en condiciones similares no se puede predecir un resultado en particular, pero sí puedo conocer todos los resultados posibles del experimento. Ej: lanzar un dado (6 resultados posibles), lanzar una moneda. 2 resultados posibles. El espacio muestral (s): es el conjunto de todos los resultados posibles de un experimento aleatorio. Ej: lanzar una moneda una vez implica un (s) de solo 2 resultados básicos, cara o cruz. Suceso aleatorio: es un subconjunto del espacio muestral. Hay 2 tipos: suceso simple: contiene 1 solo resultado posible. Si está constituído por la combinación de 2 o más de ellos suceso compuesto. Sucesos mutuamente excluyentes, disjuntos o incompatibles: son los sucesos aleatorios q no tienen resultados básicos en comun. No pueden suceder al mismo tiempo, la presencia de uno impide automáticamente la del otro. Ej: sacar un n° par, y sacar un n° impar al tirar un solo dado una vez. Si ocurre uno de estos sucesos compuestos no es posible q el otro ocurra. Métodos de probabilidad (definiciones) Definición clásica o a priori: se apoya por entero en el razonamiento abstracto, no efectúa experimentos reales porque la lógica se considera suficiente para dar todas las respuestas. Debo conocer todos los resultados y deben ser equiprobables (cada resultado posible del experimento debe tener la misma probabilidad de salir). La probabilidad del suceso A : P(a) = (n° de result. favorables a q ocurra el suceso A) / (n° total de result. posibles) = n ( parte q quiero obtener) / N (total de probabilidades). Definición frecuencial o a posteriori: sugieren q la probabilidad de un suceso se considere igual a la frecuencia relativa con la q se haya observado en el pasado, sobre el curso de un gran n° de exprimentos. lim (n--> oo) Fr -----> P(A) P(a) = (n° de veces q el suceso A ocurrió en el pasado durante un gran n° de experimentos) / (n° máximo de veces q el suceso A pudo haber ocurrido durante estos experimentos) = k / M 6) Definición subjetiva: en los 2 casos anteriores la probabilidad se calculó objetivamente. Cuando esto no es posible habrá q recurrir al criterio personal o experiencia de un individuo en participación, quien asignará el valor de la probabilidad. Se basa en la intuición de una persona. Ésta así calculada podrá ser bastante diferente a la asignada por otro individuo. Axiomas (necesitan demostrarse). la probabilidad de un suceso va a estar siempre entre 0 y 1. Nunca es negativa, ni nunca es mayor q 1. P(A) = 0 ----------> imposible q ocurra P(A) = 1----------> suceso cierto, ocurre si o si. 4) Dado un suceso A, el complemento de A (A rayita) se define como el suceso formado por todos los puntos muestrales q no estan en A (tmb llamado suceso contrario) P(A rayita) = 1 – P(A) Dos sucesos contrarios son siempre mutuamente excluyentes, dos sucesos mutuamente excluyentes no siempre son contrarios. Reglas de probabilidad regla aditiva – probabilidad total: se usa para determinar la probabilidad de una unión entre 2 sucesos. (dice esto ó esto) a) si A y B son sucesos mutuamente excluyentes ----> A n B = 0, vacio, no contiene ptos muestrales. P(A+B) = P (A U B) = P (A) + P(B) prob. Marginales. -probabilidades marginales: se denominan así por su ubicación en los márgenes de la tabla de probabilidad conjunta. Se determinan sumando las probabilidades conjuntas de un mismo renglón o columnas de esta tabla. La probab. Total cuando los sucesos son mutuamente excluyentes es igual a la suma de sus probab. Marginales. Ejemplo: 40 cartas, A: salga as, B: salga 4 ) son sucesos mutuamente excluyentes P(A+B) = P(A) + P(B) = 4/40 + 4/40 = 8/40 b) si A y B no son mutuamente excluyentes, existen ptos comunes entre el suceso A y B, (A n B): P(A+B) = P(A U B) = P(A) + P(B) – P (A n B) prob. Marginales prob. Conjunta La probab. Total cuando los sucesos no son mutuamente excluyentes es igual a la suma de sus probab. menos la probab. Conjunta. Ejemplo: 40 cartas, A: salga as, B: salga as ) no son sucesos mutuamente excluyentes P(A+B) = P(A) + P(B) – P (A n B) = 4/40 + 10/40 – 1/40 = 13/40 2) regla multiplicativa – probabilidad conjunta: se usar para determinar la probabilidad de una intersección entre 2 sucesos. a) P (A.B) = P (A n B) = P(A) . P(B); A y B son independientes(pueden ocurrir simultáneamente) La probab. Conjunta cuando los sucesos son independientes es igual al producto de sus probab. Marginales. b) P (A.B) = P(A) . P(B/A) = P(B) . P ( A/B); A y B son dependientes prob. Condicional (La ocurrencia de uno condiciona la ocurrencia del otro) La probab. Conjunta cuando los sucesos son dependientes es igual al producto de la probab. Marginal del suceso q está condicionando y la probab. Condicional. Probabilidad condicional (habiendo, dado, siendo) Con frecuencia, la prob. De un suceso se ve influida por la ocurrencia de otro suceso relacionado. En muchas situaciones la P(A) depende de q otro suceso relacionado con él ya haya sucedido. Ésto se denomima probabilidad condicional ----> se escribe P (A/B) : probabilidad del suceso A dada la condición de que el suceso B ya ha ocurrido. P(B/A) = ( P(A . B) ) / P(A) ----------> la probab. Condicional es igual al cociente entre la probab. Conjunta y la probab. Marginal del suceso q está condicionando. - Forma de averiguar los ptos muestras donde me interesa el órden: (elevado al n° de veces q realizo el experimento). (n° de result. Posibles de realizar 1 vez el experimento) UNIDAD CUATRO VARIABLE ALEATORIA Cualquier variable cuantitativa cuyo valor numérico sea determinado por un experimento aleatorio y por azar, se denomina variable aleatoria. El nombre de la variable (por ej. las caras de una moneda) se simbolizan con la X y cualquiera de sus valores posibles con la xi. Puede ser continua (la variable puede tomar valores sólo en puntos específicos. Ej: 1; 2; 3) y discreta (huecos inevitables entre las variables. Ej: 0.1; 3.60) Una variable es una función resultado numérico de un experimento aleatorio (def. carpeta). LA DISTRIBUCION DE PROBABILIDAD Una tabla, gráfica o fórmula que asocia cada valor posible (x) de una variable aleatoria (X), con una cierta probabilidad de ocurrencia ( P = (X = xi) ), es la distribución de probabilidad de la variable aleatoria. Si la variable es aleatoria discreta, la distribución recibe el nombre de distribución discreta de probabilidad. Distribuciones acumulativas de probabilidad: muestran que las probabilidades de una variable aleatoria son menores o iguales a cualquier valor posible dado ( P (X ≤ xi) ). Hay que sumar la probabilidad de cualquier valor posible dado de la variable aleatoria a las probabilidades relacionadas con todos los valores precedentes. CARPETA Función de probabilidad: probabilidad asociada a cada valor de la variable aleatoria. P (xi) = P (X = xi) Función de distribución: probabilidad acumulada hasta ese valor de la variable. F (x) = P (X ≤ xi) MEDIDAS DE RESUMEN PARA LAS DISTRIBUCIONES DE PROBABILIDAD: 5) VALORE ESPERADO (o media aritmética): es el valor que podemos esperar hallar en promedio, por numerosas repeticiones del experimento aleatorio que genera el valor real de la variable. valor de cada xi por su probabilidad de ocurrencia, y luego se suman sus productos. En la calculadora, limpio la memoria, cargo los datos, apreto Shift 2 y después 1. 6) VARIANCIA: mide el grado de dispersión (o variación) en una distribución. Una comparación en dos variancias permite comparar la variación en dos distribuciones que tengan la misma media, pero diferente dispersión. 2 2 P (xi) – [E (x)] 2 primera parte. Para la E (x) hago lo mismo que antes (Shift 2 y después 1) 7) DESVIO ESTANDAR: 2 P (xi) – [E (x)] 2 da la primera parte. Para la E (x) hago lo mismo que antes (Shift 2 y después 1) DISTRIBUCION DE PROBABILIDAD BINOMIAL Es una distribución discreta de probabilidad que tiene muchas aplicaciones. Me permite calcular ó conocer probabilidades exactas. Un experimento binomial tiene cuatro propiedades: el experimento consiste en una sucesión de “n” repeticiones idénticas. en cada repetición son posibles dos resultados: "éxito (P)" o "fracaso (Q = 1 – P )" la probabilidad de éxito (P), es constante de una repetición a otra. las repeticiones o intentos son independientes. Condición: x es una variable aleatoria discreta. VALOR ESPERADO E (x) = n . P VARIANCIA 2 (x) = n . P . Q DESVIO x x Q n-x FUNCION DE DISTRIBUCION xi x P (X ≤ Q n–x x=0 x F (X) probabilidad de x éxitos en n intentos. n = numero de intentos P = probabilidad de éxitos Q = probabilidad de fracaso P+Q=1 (n) = n! SOBRE ( x! (n – x)! ) x Distribución normal: También llamada función de densidad de probabilidad continua. Condición x: variable aleatoria continua. Está tabulada. Características/propiedades: a) tiene forma de campana b) es perfectamente simétrica: modo, media y mediana coinciden c) asintótica respecto al eje x d) - oo < x < +oo ---> tiene un intervalo infinito e) tiene 2 ptos de inflexión en U – G ; U + G f) función creciente de -oo a U y decreciente de U a +oo g) parámetros: U y G Cualquier variable aleatoria normal X se puede convertir en una variable aleatoria normal estándar Z mediante la fórmula de transformación: Z=X-U G X ~ N (U;G) Z ~ N (0;1) X tiene media U y desviación estándar G Z siempre tiene media U = 0 y desviac. estándar G = 1 Una distribución normal estándar es aquella cuya variable aleatoria Z siempre tiene una media U = 0 y una desviación estándar G = 1 La distribución normal es de importancia vital en la estadística por 3 razones principales: a) parece q muchos fenómenos continuos siguen esta distribución o pueden aproximarse por ella b) se puede usar para aproximar varias distribuciones de probabilidad discretas c) proporciona la base para la inferencia estadística clásica debido a su relación con el teoria del límite central. Cuando me aparece en un ejercicio un valor negativo q no está en la tabla, la probabilidad es 0. Si me aparece un valor positivo q no está en la tabla, la probabilidad es 1. Ej: f(-4) = 0 U + - 1G ----> 68% U + - 2G ----> 95% U + - 3G ----> 99.7% UNIDAD 5 Razones para trabajar con muestras: 7) 8) 9) 10) El costo de estudiar todos los elementos de la población con frecuencia es prohibitivo. Ponerse en contacto con toda la población supondría mucho tiempo. La imposibilidad fisica de verificar todos los elementos de la población. La naturaleza destructiva de ciertas pruebas. 1- Simple al azar 2- sistemático a) Probabilísticos 3- estratificado Métodos de 4- conglomerados muestreo 5- en cuotas b) No probabilísticos 6- a juicio 7- por conveniencia 8- por referencia a) Cada elemento de la población de la cual yo voy a seleccionar la muestra tiene una probabilidad conocida de ser seleccionado. b) En una muestra no probabilística los elementos o los individuos incluídos se eligen sin tomar en cuenta su probabilidad de ocurrencia, no conozco la probabilidad. La diferencia está en q con los resultados de una muestra probabilística puedo inferir el total de la población del cual fue seleccionada esa muestra. Mientras q con los resultados de una muestra no probabilística solamente podemos describir esa muestra. Es aquel en el q cada elemento de la población tiene la misma probabilidad de ser seleccionado. Previamente tengo q enumerar cada elemento de la población. En una muestra sistemática se dividen N elementos del marco de población en k grupos, dividiendo el tamaño de la población N entre el tamaño de la muestra deseado n. Es decir, salto k = N / n, donde k se redondea al entero más cercano. Para obtener una muestra sistemática, el primer elemento se selecciona al azar entre los k elementos del primer grupo del marco de población y, para el resto de la muestra, se elige un elemento cada k en la lista completa de la población. Es decir, debo enumerar o identificar la población, pero no todos los elementos tienen la misma probabilidad de ser seleccionado. Elijo un elemento cada k elementos. Primero se divide la población en estudio en estratos, de acuerdo a alguna característica común. Se realiza un muestreo aleatorio siemple en cada estrato y después se combinan los resultados de las muestras aleatorias separadas. Cada elemento dentro del estrato deben ser lo más homogéneos posibles y heterogéneos o distintos de estrato a estrato. Este método es más eficiente q los anteriores, y selecciona muestras a un costo más bajo. Existen 2 formas de seleccionar los elementos: - asignación proporcional: selecciono en la muestra la misma proporción q los elementos tienen en la población. - asignación óptima: tengo en cuenta la variancia. Voy a seleccionar menos elementos de aquellos estratos q tengan variancia (son similares los n°, hay poca variación entre ellos, por eso selecciono menos n°) más chica y más elementos de los estratos q tengan variancia más grande. Este método es el más barato, porque la muestra queda mas pequeña. Divide los elementos de la población en varios conglomerados, de manera q cada conglomerado sea representativo de la población completa. Luego se obtiene una muestra aleatoria de los conglomerados y se estudian todos los elementos dentro de cada conglomerado seleccionado. Cada conglomerado debe ser lo más heterogéneo posible dentro del conglomerado y homogéneos entre los conglomerados. Se usa mucho en la EPH. Le pido a 10 encuestadores q encuesten a 10 personas cada uno, con un criterio preestablecido (por ej: personas entre 20 y 40 años) el encuestador elije según su percepción, lo q le parece. Necesito la opinión de expertos en la materia q estoy investigando. Selecciono elementos q me brinden la mayor información sobre el tema. Se usa por cuestión de costos, selecciono elementos q tengo cerca. Se usa en las empresas de servicios; me permite llegar a poblaciones q de otra forma no hubiese llegado; también se llama bola de nieve; porque la muestra se va agrandando por referencias de otras personas. Determinación de n Pasos para seleccionar una muestra probabilística: Fijar el nivel de confianza con el q voy a hacer la estimación de resultados. Fijar el error de muestreo: es la diferencia entre el valor q se saca en la muestra (estimador) y el verdadero valor q estoy estimando en la población. Conocer o estimar el desvío estándar de la población (es difícil). UNIDAD SEIS Distribuciones muestrales: la distribución obtenida a partir de muestras de igual tamaño seleccionadas aleatoriamente de la población de todos los posibles valores de una estadistica muestral ( denomina distribucion muestral de esa estadistica. o ) se Distribucion muestral de la (igual cantidad de medias y muestras) es una variable aleatoria y como tal tiene: una distribucion de probabilidad, una media (E( 2 variancia ( ( )) y una ) ). 8) N( 9) E ( )= (x) ; 11) Variancia ( 10) Desvío ( )= (x) ) 2 ( )= )= 2 (x) n ) n La distribucion de es menos dispersa que la de la poblacion y eso se acentua a medida que el tamaño de la muestra aumenta, con lo cual la distribucion muestral estara mas concentrada alrededor de que la distribucion de probabilidad. Cuando el muestreo se hace sin reposición de una población finita, en algunos casos se debera aplicar al error estandar de la media un factor de correccion finito. Se aplicara cuando el tamaño de la muestra sea mayor que el 5% del tamaño de la población (n > 5% N) ) son iguales, las medias tmb. No aplico nada. ( )= (x) . (N-n) n (N-1) Cuando el tamaño de la muestra es < al 5% de la población, este factor se desprecia por resultar practicamente igual a 1. Teorema cental del límite: si yo no conozco como se distribuye la población o no es normal; aumentando el tamaño de la muestra (n → oo) por este teorema se que se va a seguir distribuyendo normal con n 8) Requisitos para aplicar el TCL: Si n >30; n.p>5 y n.q>5, por el TCL, Z= se distribuye normal. n Factor de correcion para poblaciones finitas: FCPF: N – n N-1 En la práctica, el factor de correccion solo se aplica si: n > 5% N. Poblacion infinita o finita con reposicion: N( (x) ; (x) ) n Poblacion infinita o finita sin reposicion: N( (x) ; (x) . n (N-n) ) (N-1) Para calcular el total de muestras, en el caso de poblaciones CON reposicion, hago N n. Y cuando son SIN reposicion, hago ( N ) n Distribucion muestral de la proporcion en la muestra: 9) La propocion en la poblacion (N) la denominamos: p = x / N 10) La proporcion en la muestra (n) la denominamos: selecciono) = x / n (hay tantos 11) Si el muestro es con reposicion de poblacion finita o infinita: 12) Si el muestro es sin reposicion de poblacion finita: E( 2 ( ) = (p.q) / n ( )= N (p ; N (p ; como muestras [(p.q) / n]) [(p.q) / n] . [(N-n) / (N-1)]) )=p ---> z = [(p.q) / n] - ----------> se le aplica el FC si corresponde. UNIDAD 7 puntual: es estimar el parámetro de la población q yo quiero estimar con un solo valor de la muestra llamado estimador. → →p intervalos de confianza: es encontrar 2 límites con un cierto nivel de confianza (1- α) y definimos el nivel de confianza como la probabilidad de q el verdadero valor del parámetro esté cubierto en el intervalo hallado. Un estimador es el proceso mediante el cual se obtiene una estimación y la estimación es el valor numérico del estimador. →p → Propiedades de los estimadores -No viciado o insesgado - Consistente parámetro. - Eficiente - Suficiente que aumento el tamaño de la muestra, su valor se acerca al valor del Un intervalo de confianza es encontrar un límite con un cierto nivel de confianza y definimos el nivel de confianza como la probabilidad de que el verdadero valor del parámetro este cubierto por el intervalo hallado LI= estimador – error de muestreo LS= estimador + error de muestreo E= es la diferencia que existe entre el estimador y el parámetro. E = ~ prob . desvío estandar del estimador -Grados de libertad: cant. de observaciones o variables libres para variar (n-1);(n-2);(n-k) Determinación de n para estimar μ E = z(1-∝ n n=((z.σ)/E)2 Determinación de n para estimar p n=z ̂2 p.q/E ̂2 Nivel de confianza: ∝= Nivel de significación o nivel de riesgo. Es la probabilidad de que yo me equivoque en la estimación. - Cuando aumento el nivel de confianza sin aumentar el tamaño de la muestra (sigue igual), el error de muestreo aumenta, el intervalo de confianza se expande y se pierde precisión en la estimación. - Cuando aumento el tamaño de la muestra (con el mismo error de muestreo) se aumenta el nivel de confianza, y aumenta el nivel de precisión de la estimación. En otras palabras; manteniendo el n y aumentando el nivel de confianza. Reducir la amplitud del intervalo = reducir el error de muestreo UNIDAD 7 puntual: es estimar el parámetro de la población q yo quiero estimar con un solo valor de la muestra llamado estimador. → →p intervalos de confianza: es encontrar 2 límites con un cierto nivel de confianza (1- α) y definimos el nivel de confianza como la probabilidad de q el verdadero valor del parámetro esté cubierto en el intervalo hallado. Un estimador es el proceso mediante el cual se obtiene una estimación y la estimación es el valor numérico del estimador. → →p Propiedades de los estimadores -No viciado o insesgado - Consistente parámetro. - Eficiente - Suficiente r del Un intervalo de confianza es encontrar un límite con un cierto nivel de confianza y definimos el nivel de confianza como la probabilidad de que el verdadero valor del parámetro este cubierto por el intervalo hallado LI= estimador – error de muestreo LS= estimador + error de muestreo E= es la diferencia que existe entre el estimador y el parámetro. E = ~ prob . desvío estandar del estimador -Grados de libertad: cant. de observaciones o variables libres para variar (n-1);(n-2);(n-k) Determinación de n para estimar μ E = z(1-∝ n n=((z.σ)/E)2 Determinación de n para estimar p n=z ̂2 p.q/E ̂2 Nivel de confianza: ∝= Nivel de significación o nivel de riesgo. Es la probabilidad de que yo me equivoque en la estimación. - Cuando aumento el nivel de confianza sin aumentar el tamaño de la muestra (sigue igual), el error de muestreo aumenta, el intervalo de confianza se expande y se pierde precisión en la estimación. - Cuando aumento el tamaño de la muestra (con el mismo error de muestreo) se aumenta el nivel de confianza, y aumenta el nivel de precisión de la estimación. En otras palabras; manteniendo el n y aumentando el nivel de confianza. Reducir la amplitud del intervalo = reducir el error de muestreo UNIDAD 8 Test de hipótesis se utilizan para probar el valor de un parámetro. Prueba de hipótesis se utiliza para la toma de decisiones. Pasos: - Determinar la hipótesis nula Ho) vamos a plantear lo q está sucediendo en el momento de la prueba o lo que tendría q suceder si todo funcionaría correctamente. Es una hipótesis tentativa de un parámetro poblacional. - Plantear la hipótesis alternativa H1) ponemos el contrario de lo q planteamos en la nula, la opuesta. Fijar el nivel de significación ( ) = probabilidad de rechazar una hipótesis nula cierta. Determinar el o los valores críticos (VC) es el q separa la zona de rechazo de la zona de aceptación. Seleccionar la muestra y calcular los estadísticos o estimadores. Calcular la estadística de prueba (EP) un estadístico cuyo valor se utiliza para determinar si se puede rechazar una hipótesis nula. estimador – el valor del parámetro bajo Ho) EP = Desvío estándar del estimador Comparar la EP con el VC. Rechazar o no rechazar la Ho) si me cae en zona de rechazo; rechazo; sino no. Tomar la decisión estadística de rechazar o no rechazar la ho) Expresar esta decisión estadística en términos del problema. Error tipo I: e I cuando rechazo una Ho) verdadera, cierta. P (e I) = siempre es chica, 1% 2% Error tipo II: e II no rechaza una Ho) falsa P (e II) = Ambos errores están relacionados, pero no en la misma proporción. Si uno aumenta, el otro disminuye. Decisión estadística Ho cierta Ho falsa Rechazar Ho eI 1- No rechazar Ho 1- (1 - ) P (e I) = e II P (e II) = mide la potencia del test. Prueba de hipótesis Estadística de prueba ~ probabilidad Para U G (x) = G n S (x) = S n EP = x – Uo G (x) ~ z N (0;1) G conocido G desconocido n > 30 EP = x – Uo S (x) ~ z N (0;1) N <= 30 EP = x – Uo S (x) ~ t n-1; EP = p^ - p◦ G (p^) ~ z N (0;1) Para p G (p^) = p◦q◦ n Estarán multiplicados por el factor de corrección cuando corresponda. El signo = solo lo admite la hipótesis nula. El signo de la hipótesis alternativa determina la dirección de la zona de rechazo. ( < zona de rechazo a la izquierda) Cuando rechazo la Ho acepto la hipótesis alternativa (se cumple) Cuando no rechazo la Ho decimos que no hay suficientes datos estadísticos para decir que eso no se está cumpliendo. El no rechazar, no quiere decir aceptarlo. P-valor: probabilidad extrema de rechazar una hipótesis nula. Es el nivel más bajo de significación (valor ) al cual se puede rechazar la hipótesis nula. P-valor < P-valor > rechazo Ho rechazo Ho P-valor = p ( z > = z calc.) x 2 es x2, porq es bilateral. Si aumento aumento la zona de rechazo, el nivel de significación. UNIDAD 9 Análisis de regresión bivariable: estudia la relación funcional entre 2 o más variables. X es a valores fijos: una variable cuyo valor se suponga conocido y q se utilice para explicar o predecir el valor de otra variable de interés se llama variable INDEPENDIENTE. Y variable aleatoria: una variable cuyo valor se suponga desconocido y q se explique o prediga con ayuda de otra se llama variable DEPENDIENTE. Mediante este análisis vemos cuanto varía en promedio la variable dependiente Y para distintas variaciones o valores de la variable independiente X. Una relación determinística entre 2 variables cualesquiera, X e Y, se caracteriza por el hecho de q el valor de Y está determinado de manera única siempre q el valor de X se especifique. Una relación estocástica entre 2 variables cualesquiera, X e Y, se imprecisa en el sentido de q muchos valores posibles de Y se pueden asociar con cualquier valor de X. Recta de regresión teórica (en la población) ---> Y y/x = α + βxi + ei ei: errores aleatorios (coloco todos las variables q no puedo medir o todas aquellas q no me interesan). Mide la dispersión de los valores observados, con respecto a la recta de regresión. ei tiene que cumplir algunos supuestos: ei ~ N (0; G^2) todos tienen igual variancia (homocedasticidad) el promedio de los errores da siempre 0. es la diferencia que hay entre los puntos y la recta estimada. α y β en la recta de regresión son coeficientes. Matemáticamente α es la ordenada al origen y β es la tangente trigonométrica del ángulo que forma el eje X con la recta. En el análisis de regresión α mide cuanto vale Y cuando X=0 y β mide las variaciones en Y cuando X aumenta en una unidad. Si los valores de la varible dependiente Y aumenta con valores más grandes de la variable independiente X, se dice que tienen una relación directa. (b es positiva). Si los valores de la variable dependiente Y disminuyen con valores más grandes de la variable dependiente X se tiene una relación inversa (b es negativo). Recta de regresión estimada ---> Ŷ = a + b.x α sombrero = a β sombrero = b Método de los mínimos cuadrados: me asegura que la suma de los cuadrados de los desvíos es un mínimo. Ho) β = 0 no hay relación lineal entre X e Y. H1) β /= hay relación. Análisis de regresión lineal: mide el grado de intensidad de la relación entre 2 o más variables. Este grado de intensidad se mide a través del coeficiente de correlación lineal. Para la población ---> ƪ (rho) Para la muestra ---> л Debemos hacer siempre el diagrama de dispersión, porque si la relación entre las variables no es lineal no se puede aplicar. Requisitos: 12) X e Y son variables aleatorias. 13) -1 <= л <= 1 Si л = -1 hay una relación lineal perfecta e inversa. Si л = 0 no hay correlación. Si л = 1 hay una relación perfecta y directa. Si л = -0.6 relación inversa pero no perfecta. Si л = 0.6 relación directa pero no perfecta. 14) A partir de 0.5 existe una relación intensa entre las variables. Supuestos para aplicar la regresión lineal: Para cada valor de X existe un grupo de valores Y, y estos valores Y se distribuyen en forma normal. Las medias de estas distribuciones normales de valores Y se encuentran todas en la linea de regresión. Las desviaciones estándares de dichas distribuciones normales son iguales G = G^2 Los valores Y son estadísticamente independientes. Esto significa q al seleccionar una muestra, los valores Y seleccionados para un valor X específico no dependen de los valores Y para cualquier otro valor X. Prueba de hipótesis: Ho) P = 0 no hay correlación entre X e Y. H1) P /= 0 hay correlación. Coeficiente de determinación: mide en que porcentaje las variaciones de Y están explicadas por las variaciones de X. 0 <= л^2 <= 1 ---> cuanto mas cerca está de 1 mejor me explica la variable Y a partir de X. Los valores bajos los dejo de lado. UNIDAD 10 Números índices Un nº índice es un cociente entre el valor de una variable en un período considerado y el valor de esa misma variable en otro período tomado como referencia, llamado período base. Mide cuanto cambia en el tiempo una o más variables Período base: debe ser un período normal, que no haya habido ninguna influencia natural (terremoto, inundación), económico (inflación, deflación) o político (golpes de estado). No debe estar desfasado en el tiempo con el período que estoy considerando (no más de 5 años) I0=100 It0= PtP0×100 Simple de precio It0 = QtQ0 ×100 Simple de cantidad Los números índices se clasifican -Según el tipo de variable que interviene: Precio (mide los cambios de los precios de un período a otro) Cantidad (cuanto cambia en el tiempo las cantidades) Valor (las variaciones en unidades monetarias de un bien) Precio X Cantidad -Según el nº de variables que intervienen en la construcción del índice: Ponderar: es darle una importancia relativa a cada uno de los ítems que intervienen en la construcción del índice. Ponderaciones: -Fijas: tomo para los distintos períodos que estoy considerando siempre la misma ponderación -Variables: cuando varían de período a período Laspeyres Lp=i=1n(Pit Qi)i=1nPio Qio ×100 Parsche PQ=i=1n(Qit x Pit)i=1nQ -Compara solo de a dos períodos Un índice de relativo es el promedio de cantidades o precios relativos I t0=i=1n(PitPi0)n ×100 I t0=i=1nPin ×100 Índice de productividad Productividad, es la eficiencia en la producción. Este índice mide cuantas horas hombres x unidad variaron para producir exactamente lo mismo que en el período base. Tiene como insumo una sola variable, que son las horas hombres por unidad de producción. Es un índice compuesto ponderado, se compara de a dos períodos. IP= i=1nrit Qio i=1nrio Qio ×100 rt: h/h/x u. en el período considerado ro: h/h/x u. en el período base Qo: cantidades producidas en el período base La inversa del índice me da el porcentaje de producción que aumentó x horas hombre 1rt Qoro Qo × 100 Variaciones porcentuales var %=ItI(t-1)×100-100 El índice de precios al consumidor Mide las variaciones en los precios de un conjunto de bienes y servicios llamados ‘canasta familiar’, esta se determina a través de una encuesta de gastos que se realiza cada 10 años y tiene una duración de 1 año, es muy costosa. Debe ser representativa de la población. La variaciones del índice miden la inflación. Tiene varias aplicaciones -Se puede calcular la tasa de inflación -Actualizar o indexar deudas, préstamos, alquileres -Calcular la desvalorización de la moneda -Pasar de precios corrientes a precios constantes Inflación -1) ×100-100 Devaluación monetaria 100-CD Actualizar una deuda monto × Ipc del mes anterior al originario de la deudaI pc del mes anterior al mes de cancelación Salario real a salario nominal salario real=salario nominal ×CD UNIDAD 11 V. cualitativas: se miden en modalidades, categorías. No tienen parámetros las que yo estudio (test no paramétricos). Los estudios se basan en la frecuencia con q se repite cada variable cualitativa. Distribución chi-cuadrado x2: está tabulada; es asimétrica, sesgada hacia la derecha; siempre positiva; tiene varias aplicaciones: a) test de bondad de ajuste: para Fe iguales o para Fe desiguales; b) test de normalidad (no lo damos); c) análisis de tablas de contingencias – test de independencias. Frecuencias observadas: Fo. Frecuencias esperadas (lo q espero q pase, o creo): Fe. El chi-cuadrado depende de los grados de libertad y el nivel de significación. X2 k-1;α k: son las distintas categorías o celdas q tiene la variable. 15) Para los test de bondad de ajuste: Ho) no hay diferencia entre Fo y Fe. H1) hay diferencias entre Fo y Fe. 16) Tablas de contingencias: -----> gl = (n° de filas – 1) x (n° de columnas -1) Ho) no hay relación entre las variables. H1) hay relación entre las variables. Fe = (total de fila) x (total de columna) gran total Chi-cuadrado crítico ----> busco en la tabla. Chi-cuadrado calculado ----> X2calc = sumatoria (Fo-Fe)^2 Fe Fe = sumatoria Fo ------> test de bondad de ajuste. R (categorías) sumatoria Fe = sumatoria Fo ---------> se cumple siempre. ̴ ͂ X2 gl;α