DISTRIBUCIONES DE PROBABILIDADES Y PRUEBAS ESTADÍSTICAS DE MEDICINA Definición de distribución de probabilidades Es una distribución discreta de probabilidades para cada valor de la variable aleatoria, conocida también con el nombre de Distribución de Bernoulli Es una lista de las probabilidades de todos los resultados posibles que pudiera resultar si el experimento se hace; es decir, es la suma de todas las funciones en las que interviene la variable aleatoria “x” bajo estudio. Definición de su función de distribución Dada una variable aleatoria todos son puntos X, su función de distribución, FX(x) Fx(𝓧) = P(X ≤ 𝓧) Propiedades: ● Es una función continua por la derecha. ● Es una función monótona no decreciente CLASIFICACIÓN DE LAS DISTRIBUCIONES DE PROBABILIDAD Se clasifican en DISCRETAS y CONTINUAS. Definición De Distribuciones Discretas Se presentan cuando nuestra variable de estudio es discreta; esto es, solo puede asumir valores enteros, sin decimales. Tipos De Distribuciones Discretas Algunas distribuciones más usuales son: 1. DISTRIBUCIÓN DE BERNOULLI 2. DISTRIBUCIÓN BINOMIAL 3. DISTRIBUCIÓN GEOMÉTRICA 4. DISTRIBUCIÓN DE POISSON Definición De Distribuciones Contínuas Se presentan cuando nuestra variable de estudio es continua; esto es, solo puede asumir valores dentro de un intervalo de valores. Tipos De Distribuciones Contínuas Algunas distribuciones más usuales son: 1. DISTRIBUCIÓN UNIFORME 2. DISTRIBUCIÓN NORMAL 3. DISTRIBUCIÓN EXPONENCIAL Distribución Binomial Una sucesión de n pruebas se dice que es de Bernoulli cuando los experimentos individuales verifican las siguientes condiciones: 1. Las n pruebas son independientes 2. Cada prueba es de Bernoulli 3. La probabilidad p de éxito es igual en todas las pruebas. La variable aleatoria definida como “número de éxitos en n pruebas” La variable puede puede tomar los valores ❴0,1,2,...,k,....n,❵ y su función de probabilidad es la siguiente: Donde: DISTRIBUCIÓN DE POISSON DEFINICIÓN: Es una distribución de probabilidad discreta que modeliza la frecuencia, durante un intervalo de tiempo fijado a partir de la frecuencia media de dichos eventos También se le conoce como una distribución binomial , siendo delimitado por un parámetro, el número esperado de eventos . FÓRMULA: LA FUNCIÓN DE LA DENSIDAD DE PROBABILIDAD DE POISSON SIENDO DEFINIDA EN VALORES ENTEROS DE X Debe cumplir 3 criterios DISTRIBUCIÓN GEOMÉTRICA DEFINICIÓN: Es un modelo adecuado donde se repiten pruebas hasta lograr obtener el éxito y llegar donde está el factor deseado. se le conoce como geometría pascal Es una teoría de probabilidad . y estadística formado por dos distribuciones de probabilidades discretas: si X es igual a 1,2,3--- el número necesario para obtener el éxito En una distribución geométrica: podemos moldear el número de veces que debemos lanzar al aire para que caiga la moneda y obtener el primer resultado de cara si X es igual a 0,2,3…… el número de fracasos antes del primer éxito En esta gráfica la DG: su probabilidad de evento es de 0.5 EJEMPLOS ENTRE LA DISTRIBUCIÓN DE POISSON Y LA GEOMÉTRICA EJEMPLO A: -La probabilidad de que haya un accidente en una compañía de manufactura es de 0.02 por cada día de trabajo. si se trabaja 300 días al año, ¿cuál es la probabilidad de tener 3 accidentes? - EJEMPLO B: Un estudio sobre el número de veces que un jugador necesita para poder efectuar la salida en el juego del parchís. Hay que recordar que , en este juego un jugador no comienza el mismo hasta obtener un 5 al lanzar el dado Estaríamos ante el caso de una distribución geométrica de parámetro 1/6. Distribución normal Definicion: Modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria a una situación ideal. La distribución normal es la base de otras distribuciones como la distribución t de Student, distribución ji-cuadrada, distribución F de Fisher y otras distribuciones. Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente a una distribución normal tal que: Donde los parámetros de la distribución son la media o valor central y la desviación típica: Fórmula de la distribución normal Representación Función de densidad de probabilidad de una variable aleatoria que sigue una distribución normal. Propiedades: Es una distribución simétrica. El valor de la media, la mediana y la moda coinciden. Matemáticamente, Media = Mediana = Moda - Distribución unimodal: Los valores que son más frecuentes o que tienen más probabilidad de aparecer están alrededor de la media. En otras palabras, cuando nos alejamos de la media, la probabilidad de aparición de los valores y su frecuencia descienden. ¿Qué necesitamos para representar una distribución normal? ➔ ➔ ➔ ➔ Una variable aleatoria. Calcular la media. Calcular la desviación típica. Decidir la función que queremos representar: función de densidad de probabilidad o función de distribución. Ejemplo: Suponemos que queremos saber si los resultados de un examen pueden aproximarse satisfactoriamente a una distribución normal. Sabemos que en este examen participan 476 estudiantes y que los resultados podrán oscilar entre 0 y 10. Calculamos la media y la desviación típica a partir de las observaciones (resultados del examen). Entonces, definimos la variable aleatoria X como los resultados del examen que depende de cada resultado individual. Matemáticamente: 1. El resultado de cada estudiante se anota en una tabla. De esta forma, obtendremos una visión global de los resultados y de su frecuencia. 2. Una vez hecha la tabla, representamos los resultados del examen y las frecuencias. Si el gráfico se parece a la imagen anterior y cumple con las propiedades, entonces, la variable resultados del examen puede aproximarse satisfactoriamente a una distribución normal de media 4,8 y desviación típica de 3,09. ¿Los resultados del examen pueden aproximarse a una distribución normal? Razones para considerar que la variable resultados del examen sigue una distribución normal: 1. Distribución simétrica. Es decir, existe el mismo número de observaciones tanto a la derecha como a la izquierda del valor central. También, que la media, la mediana y la moda tienen el mismo valor. Media = Mediana = Moda = 5 2. Las observaciones con más frecuencia o probabilidad están alrededor del valor central. En otras palabras, las observaciones con menos frecuencia o probabilidad se encuentran lejos del valor central. RESULTADOS: La distribución normal describe la variable aleatoria mediante una aproximación que produce errores estándar (las barras encima de cada columna). Estos errores son la diferencia entre las observaciones reales (resultados) y la función de densidad (distribución normal). Distribución T La distribución t de Student o distribución t es un modelo teórico utilizado para aproximar el momento de primer orden de una población normalmente distribuida cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica. Fórmula de la distribución t de Student Dada una variable aleatoria continua L, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente a una distribución t con g grados de libertad tal que: Representación de la distribución t de Student Función de densidad de una distribución t con 3 grados de libertad (df). Especialidad ¿Por qué es tan especial la distribución t? Aplicación de la t de Student Pues porque a diferencia de la distribución normal que depende de la media y la varianza, la distribución t sólo depende de los grados de libertad, del inglés, degrees of freedom (df). En otras palabras, controlando los grados de libertad, controlamos la distribución. Cuando: - Queremos estimar la media de una población normalmente distribuida a partir de una muestra pequeña. - Tamaño de la muestra es inferior a 30 elementos, es decir, n < 30. ★ A partir de 30 observaciones, la distribución t se parece mucho a la distribución normal y, por tanto, utilizaremos la distribución normal. - No se conoce la desviación típica o estándar de una población y tiene que ser estimada a partir de las observaciones de la muestra. Ejemplo Suponemos que tenemos 28 observaciones de una variable aleatoria G que sigue una distribución t de Student con 27 grados de libertad (df). Matemáticamente: Representamos la frecuencia de cada observación de la variable G mediante un histograma. Dado que estamos trabajando con datos reales, siempre habrá un error de aproximación entre los datos y la distribución. En otras palabras, la media, mediana y moda no siempre serán cero (0) o exactamente iguales. ¿La variable aleatoria G puede aproximarse a una distribución t? Razones para considerar que la variable G sigue una distribución t: La distribución es simétrica. Es decir, existe el mismo número de observaciones tanto a la derecha como a la izquierda del valor central. También, que la media y la mediana tienden a aproximarse al mismo valor. La media es aproximadamente cero, media = 0,016. Las observaciones con más frecuencia o probabilidad están alrededor del valor central. Las observaciones con menos frecuencia o probabilidad se encuentran lejos del valor central Distribución f La distribución F también se conoce como distribución de Fisher Snedecor en honor a los estadísticos Ronald Fisher y George Snedecor. Ambos trabajaron en el desarrollo del análisis de varianza a principios del siglo XX y así sentaron las bases de la estadística moderna. Características de la función f ● ● ● ● Las distribuciones F incluyen varios métodos estadísticos. La distribución F particular que se utiliza depende del número de grado de libertad que tiene la muestra. Esta característica de la distribución F también está presente en otras distribuciones, como la distribución T y la distribución chi-cuadrado. El valor de la distribución F es nulo, es decir, cero o positivo. No tiene valores negativos. La distribución F posee una leve inclinación hacia la derecha. Por lo tanto, se trata de una distribución de probabilidad que no es simétrica. Representación de la distribución f Manejo de la distribución F Al igual que otras distribuciones continuas de probabilidad que involucran funciones complicadas, el manejo de la distribución F se realiza mediante tablas o mediante software. Las tablas involucran los dos parámetros o grados de libertad de la distribución F, la columna indica el grado de libertad del numerador y la fila el grado de libertad del denominador. Distribución Ji-Cuadrado Tipos de prueba de ji cuadrado La distribución de chi-cuadrada es una distribución continua que se especifica por los grados de libertad y el parámetro de no centralidad. La distribución es positivamente asimétrica, pero la asimetría disminuye al aumentar los grados de libertad. Representación de la distribución ji -cuadrado Pruebas paramétricas ❖ ❖ ❖ ❖ ❖ ❖ ❖ Estimación de parámetros de una población en base a una muestra, conociendo su modelo de distribución. Mayor cantidad en muestra → más exacta será la estimación Menor cantidad en muestra → menos exacta será la estimación Mayor eficacia Mayor complicación al calcular Limitaciones para su uso Tipos: ➢ Prueba del valor Z de la distribución normal ➢ Prueba T de Student ➢ Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas Prueba del valor Z de la distribución normal Prueba T DE STUDENT Prueba T DE STUDENT - WELCH Pruebas NO paramétricas ❖ ❖ ❖ ❖ ❖ Permiten analizar datos en escala nominal u ordinal Se la puede utilizar estas pruebas aunque se desconozca los parámetros de la población en estudio. Utilizada para contrastar con la hipótesis Se utiliza en datos independientes Tipos: ➢ Prueba binomial ➢ Prueba de ji2 de Pearson ➢ Prueba de probabilidad exacta de Fischer y Yates ➢ Prueba de McNemar para muestras dependientes PRUEBA BINOMIAL PRUEBA DE JI2 DE PEARSON PRUEBA DE PROBABILIDAD EXACTA DE FISCHER Y YATES PRUEBA DE NcMEAR PARA MUESTRAS DEPENDIENTES ANÁLISIS DE VARIANZA ❏ ❏ ❏ ❏ ❏ Conocido como ANOVA (Analysis Of Variance) Es un conjunto de técnicas estadísticas que sirven para conocer el modo en el que el valor medio de una variable es afectado por diferentes tipos de clasificaciones de los datos. Es una técnica estadística utilizada para determinar si las diferencias que existen entre las medias de 2 o más grupos son estadísticamente significativas. Técnica para contrastar hipótesis. Gracias a este análisis se pueden ajustar por ejemplo las estimaciones del efecto de un tratamiento según otros factores como sexo, edad, gravedad, etc. ANÁLISIS DE regresión lineal ❏ ❏ ❏ ❏ ❏ Proceso estadístico que permite analizar la relación existente entre dos o más variables, siendo una de ellas dependiente a las demás variables. Ayuda a comprender cómo las variables independientes afectan directamente a otra variable que dependa de ellas. Utilidad: Facilita el cálculo de un valor futuro de una variable, existen múltiples aplicaciones posibles en el día a día. Es una herramienta muy práctica. Ejemplo: Para evaluar el riesgo de accidentes en una zona determinada de la carretera respecto a su geografía o comprobar la eficacia de un cambio realizado en un proyecto comercial o académico basándose en los resultados obtenidos tras introducir un cambio. Se emplean mayormente en el mundo corporativo, gracias a los resultados obtenidos, las empresas pueden comprender mejor cuáles son los elementos que tienen un mayor impacto. De esta manera, las empresas obtienen información que pueden aplicar rápidamente en sus organizaciones para mejorar su eficiencia. VARIABLES EN UN ANÁLISIS DE REGRESIÓN ● Variables dependientes: Buscamos estudiarlas para comprender cómo se adapta al modificar las variables independientes. ● Variables independientes: Son los factores que influyen y afectan directamente a las variables dependientes bajo estudio. TIPOS: Regresión lineal simple: - Estudia el efecto de una variable independiente sobre una única variable dependiente de la primera. Y= B0+B1X+ ε Valor de V.I V.D Residuo o error Regresión lineal Múltiple: - Modelo que cuenta con más de una variable independiente. Se aplica cuando hay más de un factor que afecta a la variable de estudio. Y = 0 + B1*X1 + B2*X2 + … + Bn*Xn + ε Donde: Y = Variable dependiente B1, B2, Bn= Todas las variables independientes ε = Residuo o error Regresión NO LINEAL: - Existen ocasiones en las que la relación que puede darse entre variables independientes y la variable dependiente no tenga un desarrollo lineal sino un crecimiento exponencial. - En este caso este modelo entra en juego y permite que obtengamos una aproximación de los valores de la variable dependiente en un entorno no lineal. Es un proceso más complejo, puede o no coincidir el número de parámetros con el de las variables independientes.