¿ Cómo describir e interpretar los resultados de un estudio de investigación quirúrgica ? Variables cuantitativas Sesión de Residentes 13 de febrero, 2012 ÍNDICE Diferencia entre población y muestra. Diferencia entre teoría de la probabilidad y estadística. Descripción de una variable cuantitativa. La tendencia actual en utilizar la mediana (índices basados en ordenaciones) sobre la típica media (índices basados en momentos). La gran utilidad del diagrama de cajas (boxplot) al describir la distribución de caracteres cuantitativos. POBLACIÓN Y MUESTRA CUESTIONARIO-AUTOEVALUACION Población diana es el subconjunto de la población que se encuentra disponible durante el estudio Población accesible son los diferentes índices estadísticos descriptivos de toda una población Muestra representativa es una fórmula en la que intervienen los valores observados en la muestra Parámetro es el gran conjunto de pacientes al que se generalizaran los resultados. Estadístico es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos POBLACIÓN Y MUESTRA Población, el conjunto completo de individuos a los cuales se les referirán las conclusiones del estudio. – Población diana, que es el gran conjunto de pacientes al que se generalizaran los resultados. – Población accesible, que es el subconjunto de la población diana que se encuentra disponible durante el estudio. POBLACIÓN Y MUESTRA Figura 1 Probabilidad y Estadística: Población y Muestras Muestra representativa, es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos POBLACION parámetro μ = 66,2 años Teoría de la PROBABILIDAD azar (predicción) MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia) x x POBLACIÓN Y MUESTRA Parámetro, son los diferentes índices estadísticos descriptivos de toda una población (μ = 66,2 años ). Valor único Estadístico, que es una fórmula en la que intervienen los valores observados en la muestra (x = 64,7 años). Valor por cada muestra Figura 1 Probabilidad y Estadística: Población y Muestras Accesible POBLACION parámetro μ = 66,2 años Teoría de la PROBABILIDAD azar (predicción) MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia) POBLACIÓN Y MUESTRA Figura 1 Probabilidad y Estadística: Población y Muestras estadística inferencial, se busca obtener conclusiones a partir de los datos observados en una muestra Las técnicas estadísticas se basan en el hecho de que esta variabilidad, propia del muestreo, sigue una leyes conocidas, por lo que puede ser cuantificada. POBLACION parámetro μ = 66,2 años Teoría de la PROBABILIDAD azar (predicción) MUESTRA estadístico x = 64,7 años ESTADISTICA (inferencia) POBLACIÓN Y MUESTRA CUESTIONARIO-AUTOEVALUACIÓN es el subconjunto de la población que se encuentra disponible durante el estudio Población diana Población accesible son los diferentes índices estadísticos descriptivos de toda una población Muestra representativa es una fórmula en la que intervienen los valores observados en la muestra Parámetro es el gran conjunto de pacientes al que se generalizaran los resultados. Estadístico es un reducido grupo de individuos de la población seleccionados aleatoriamente. Integrados por individuos o sujetos PUNTUACIÓN: /5 ¿Cómo describiremos una variable cuantitativa? A partir de momentos A partir de ordenaciones VARIABLE CUANTITATIVA BASADA EN MOMENTOS CUESTIONARIO-AUTOEVALUACIÓN Medidas basadas momentos Medidas basadas en ordenaciones Concepto de Media Concepto de Varianza Concepto de Desviación estándar Variancia Varianza Correcto Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma Incorrecto La mediana, la moda, La amplitud intercuartil, la desviación cuartil, rango Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado media, la variancia, la desviación estándar, el coeficiente asimetría Es la raíz cuadrada positiva de la variancia DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS Tendencia central (posición): media Su dispersión (variabilidad): la variancia o la desviación estándar Su asimetría (forma) : el coeficiente asimetría DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS LA MEDIA Figura 2 Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma. Sus unidades de medida son las misma que las de la variable que se describe Parámetro: μ Estadístico: x Tendencia central μ= ∑x N Dispersión: DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS VARIANCIA Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado Figura 2 Tendencia central Parámetro: σ2 Estadístico: s2 Ejemplo: 95,1 años2 No utilizar “Varianza” μ= ∑x N Dispersión: DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS DESVIACION ESTÁNDAR Es la raíz cuadrada positiva de la variancia. Figura 2 Tiene las misma unidades que la variable que describe. Tendencia central Se simboliza por σ DE o por SD (“Standard Deviation” en inglés) Estadístico: s. En nuestro ejemplo s = 9,75 años (raíz cuadrada de 95,1 años2) μ= ∑x N Dispersión: DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS DESCRIPCIÓN DE UNA DISTRIBUCIÓN SIMÉTRICA: Media y D.E. para caracterizar una distribución simétrica, se da la desviación estándar junto a la media ⎯x = 64,7 años (DE = 9,8 años) ⎯x = 64,7 ± 9,8 años ← incorrecto (Esta presentación es confusa y debe ser evitada porque no aclara si lo que hay detrás del signo ± es la desviación estándar, el error estándar o si se trata de un intervalo ) DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS ASIMETRIA Cuando los valores se concentran en posiciones inferiores o superiores al promedio de la distribución, se indica la presencia de asimetría Figura 3 Esta es negativa (Γ < 0) cuando existen valores anormalmente bajos respecto a la media Asimetria: Γ 1= ⎛ x − μ⎞ ∑ ⎜⎝ i σ ⎟⎠ N 3 DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN MOMENTOS La media, la variancia y la asimetría se denominan medidas basadas en momentos porque su cálculo se obtiene a partir de la diferencia de cada valor de la distribución respecto a la media de la misma: – La media es el momento de orden 1 – La variancia el momento de orden 2 – La asimetría el momento de orden 3 Son medidas muy utilizadas para describir distribuciones cuantitativas simétricas. Cuando se presenta una marcada asimetría, la media y la desviación estándar no son apropiados porque se ven afectados por los valores anormalmente alejados VARIABLE CUANTITATIVA BASADA EN MOMENTOS CUESTIONARIO-AUTOEVALUACIÓN Medidas basadas momentos Medidas basadas en ordenaciones Concepto de Media Su valor se obtiene tras la suma de todos los datos de la distribución dividida por el número de casos de la misma Incorrecto Concepto de Varianza La mediana, la moda, La amplitud intercuartil, la desviación cuartil, rango Concepto de Desviación estándar Variancia Varianza PUNTUACIÓN: Correcto Es la medida de dispersión que se define como la media de la suma de la diferencia entre cada valor de la variable y la media, elevado al cuadrado media, la variancia, la desviación estándar, el coeficiente asimetría /7 Es la raíz cuadrada positiva de la variancia VARIABLE CUANTITATIVA BASADA EN ORDENACIONES CUESTIONARIO-AUTOEVALUACIÓN Percentiles Indica el valor central del conjunto ordenado de observaciones Cuartiles Se define como la mitad de la amplitud cuartil La mediana Es el valor de la variable más frecuente en la distribución La moda Son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. La amplitud intercuartil Son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño La desviación cuartil Es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN ORDENACIONES Consiste en derivar índices a partir de la ordenación de los datos (Con este procedimiento los valores más extremos pierden peso y no afectan el valor del índice descriptivo) Cuentan con una excelente representación gráfica: el diagrama de caja (boxplot) El índice de posición genérico se llama cuantil DESCRIPCIÓN DE DATOS CUANTITATIVOS BASADOS EN ORDENACIONES: Cuantiles Son medidas de posición que se obtienen dividiendo el conjunto ordenado de datos a describir en q partes iguales. A partir de ellos se definen: – Percentiles (Px): son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. El percentil (de orden) k corresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la población – Cuartiles (Qx): son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño. Sus valores corresponden a los percentiles: Q1 = P25 ; Q2 = P50 ; Q3 = P75 Índices de ordenación que miden la tendencia central: la mediana y la moda La mediana (Md), indica el valor central del conjunto ordenado de observaciones. En el caso de nuestro ejemplo de la figura, es de 25 col/ml y se corresponde con el valor del percentil 50 (P50), segundo cuartil (Q2) 250 48 200 150 46 45 100 50 0 La moda, se representa por Mo, es el valor de la variable más frecuente en la distribución. Nuestro ejemplo corresponde a 59 años (en 5 ocasiones repetida) -50 N= 19 colonias aisladas / Índices de ordenación que miden la dispersión: la amplitud intercuartil, la desviación cuartil y la amplitud o rango La amplitud intercuartil (IQR) es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución. – Se puede calcular a partir de los percentiles o cuartiles: IQR=P75-P25 = Q3 - Q1 – En nuestro estudio es de 60 col/ml, lo que indica que en el 50 % central de los pacientes, el nº col/ml varía entre unos a otros como máximo en 60 col/ml Índices de ordenación que miden la dispersión: la amplitud intercuartil, la desviación cuartil y la amplitud o rango La desviación cuartil (QD), se define como la mitad de la amplitud cuartil La amplitud o rango, se representa por A y es la medida de dispersión que corresponde a la diferencia entre el valor máximo (225 col/ml) y mínimo (14 col/ml) de la distribución (rango: 211 col/ml) La moda y la amplitud, aunque son medidas poco fiables porque en su cálculo intervienen solo unos pocos valores de la distribución VARIABLE CUANTITATIVA BASADA EN ORDENACIONES CUESTIONARIO-AUTOEVALUACIÓN Percentiles Indica el valor central del conjunto ordenado de observaciones Cuartiles Se define como la mitad de la amplitud cuartil La mediana Es el valor de la variable más frecuente en la distribución La moda Son cada uno de los 99 valores de la variable que particionan los datos ordenados en 100 grupos de igual tamaño. La amplitud intercuartil Son cada uno de los 3 valores de la variable que particionan la muestra ordenada en 4 grupos de igual tamaño La desviación cuartil PUNTUACIÓN: /6 Es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de los individuos de la distribución Diagrama de caja (“boxplot”) CUESTIONARIO-AUTOEVALUACIÓN Figura 4 Marca la posición de la mediana 250 48 200 150 46 45 100 Q3 50 Mediana Q1 0 -50 N= Amplitud intercuartil 19 colonias aisladas / Qué representan las dos bases Qué representa el trazo grueso horizontal Nombre de los dos trazos horizontales Todo valor que se aleja más de 3 veces la amplitud intercuartil Valores fuera de las patillas Representan los cuartiles primero y tercero (Q1 y Q3). Todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil Valor anómalo Patillas Valor alejado Valor extremo PUNTUACIÓN: /6 Diagrama de caja (“boxplot”) Las dos bases representan los cuartiles primero y tercero (Q1 y Q3), que señalan el 50 % central de la distribución Un trazo grueso horizontal, en el interior del rectángulo, marca la posición de la mediana Dos nuevos trazos horizontales, llamados patillas Figura 4 250 48 200 150 46 45 100 Q3 50 Mediana Q1 0 -50 N= 19 colonias aisladas / Valores fuera de las patillas: valores anómalos Amplitud intercuartil Diagrama de caja (“boxplot”) Valor alejado todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil Figura 4 250 48 200 150 46 45 100 Valor extremo todo valor que se aleja más de 3 veces la amplitud intercuartil. El sistema SPSS lo representa con un asterisco Q3 50 Mediana Q1 0 -50 N= 19 colonias aisladas / Amplitud intercuartil Información del Diagrama de caja (“boxplot”) Localizar la tendencia central de la distribución (mediana). Figura 4 250 Comprobar la dispersión del 50 % central de la distribución (longitud de caja, amplitud intercualtil). 48 200 150 46 45 100 Q3 50 Observar la posible asimetría en el centro de la distribución (posición de la mediana dentro de la caja). Mediana Q1 0 -50 N= 19 colonias aisladas / Amplitud intercuartil Información del Diagrama de caja (“boxplot”) Observar la posible asimetría de las colas de la distribución (patillas de diferente longitud). Detectar los valores anómalos de la distribución (valores alejados y extremos) Figura 4 250 48 200 150 46 45 100 Q3 50 Mediana Q1 0 -50 N= 19 colonias aisladas / Describir la evolución de una variable a lo largo del tiempo Amplitud intercuartil Información del Diagrama de caja (“boxplot”) Muestran el incremento de los valores del CEA (antígeno carcino-embrionario) a través del tiempo, de un grupo de pacientes intervenidos de cáncer colorrectal que han recidivado en los primeros 18 meses postoperatorios. 50 C E 40 A 30 20 10 0 3 6 9 Seguimiento cáncer de colon 12 15 18 ¿ Índices basados en momentos u en ordenaciones ? Figura 4 250 48 200 150 Los datos que utilizamos acostumbran a seguir una distribución asimétrica La mediana refleja una forma más fidedigna que la media 46 45 100 Q3 50 Mediana Amplitud intercuartil Q1 0 -50 N= 19 colonias aisladas / Indices basados en momentos La amplitud intercuartil (50% de los datos, se encuentra 60 col/ml (Q1= 18 y Q3 = 78) Por lo que el valor medio de las muestras obtenidas oscila más alrededor del valor de la mediana = 25 col/ml, que la media (50 col/ml) Otro ejemplo claro: ESTANCIA HOSPITALARIA Media 50,7895 col/ml Variancia 2 2 3137,509 col /ml Desv. estand 56,0135 col/ml Asimetria 3 3 2,1180 col /ml Indices basados en ordenaciones Mediana 25 col/ml P5 14 col/ml Amplitud Intercuartil 60 col/ml P10 15 col/ml Amplitud o rango 211 col/ml Máximo Mínimo 225 col/ml 14 col/ml Percentiles P25 (Q1) P50 (Q2) 18 col/ml 25 col/ml P75 (Q3) 78 col/ml P90 136 col/ml Diagrama de caja (“boxplot”) CUESTIONARIO-AUTOEVALUACIÓN Figura 4 Marca la posición de la mediana 250 48 200 150 46 45 100 Q3 50 Mediana Q1 0 -50 N= Amplitud intercuartil 19 colonias aisladas / Qué representan las dos bases Qué representa el trazo grueso horizontal Nombre de los dos trazos horizontales Todo valor que se aleja más de 3 veces la amplitud intercuartil Valores fuera de las patillas Representan los cuartiles primero y tercero (Q1 y Q3). Todo valor de la distribución que se aleja del cuartil primero (Q1) o del cuartil tercero (Q3), una distancia superior a 1,5 veces la amplitud intercuartil Valor anómalo Patillas Valor alejado Valor extremo PUNTUACIÓN: /6 PUNTUACIÓN FINAL POBLACIÓN Y MUESTRA : BASADA EN MOMENTOS BASADA EN ORDENACIONES: DIAGRAMA DE CAJA : TOTAL: / / / / 5 7 6 6 / 24 Quien haya obtenido 24 / 24 siento haberle hecho perder el tiempo