Estadística descriptiva Imagen popular de la estadística: "Existen medias mentiras, mentiras y estadísticas". Dos significados: (1) Colección de datos numéricos (Una estadística). (2) Ciencia: obtener regularidades de fenómenos de masas (La estadística). "Más del 75% de los americanos blancos son propietarios de su casa y menos del 50% de los hispanos y afroamericanos no son propietarios de su casa. Aquí hay un abismo, el abismo de la propiedad de la casa". George W. Bush, Cleveland, 1 de julio de 2002 1 www.bushisms.com La estadística surgió como una necesidad del estado: el censo y su descripción política, geográfica y económica. En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadística. En el XIX empieza a aplicarse a cuestiones sociales. Y actualmente se aplica a la historia, psicología, pedagogía, ingeniería, biología, economía, periodismo, 2 política, medicina... El mundo en miniatura Toby Ng Kwong To http://www.toby-ng.com/graphic-design/the-world-of-100/ Imagina que pudiéramos reducir la población de la Tierra, manteniendo proporcionalmente sus características, a tan solo 100 habitantes. Ese mundo en miniatura sería algo así... Nota: Los datos escritos bajo los logotipos son los actualizados a 2010. En algunos casos no coinciden, por este motivo, con los que aparecen en las imágenes. “El Mundo en Miniatura” (The Miniature Earth) http://www.youtube.com/watch?v=CW5TnEc WN3Q&feature=related “If the world were a village of 100 people” (Si el mundo fuera una aldea de 100 personas) en la web animada de los coreanos Hye-Bin Park y Jhoo-Young Cha (http://binsworld.com/100/). 61 Asiáticos, 13 Africanos, 12 Europeos, 8 Norteamericanos, 5 Sudamericanos y Caribeños, 1 de Oceanía. 50 son hombres y 50 son mujeres. 47 viven en la ciudad. 12 son discapacitados. 33 son cristianos, 21 musulmanes, 14 no son religiosos, 13 hinduistas, 6 budistas y 13 practican otras religiones. 43 viven sin sanidad básica. 18 viven sin una fuente de agua potable. 20 personas poseen el 75% de las riquezas de todo el mundo. 14 están hambrientos o desnutridos. 12 no saben leer. Sólo 1 tiene educación universitaria. Sólo 12 tienen un ordenador, y de ellos, sólo 8 tienen conexión a Internet. 20 personas viven con miedo de morir por bombardeos, ataques armados, minas terrestres, violación o secuestro por grupos armados. A pesar de las desigualdades y la pobreza, nuestros gobernantes dedican más de 875.000.000.000 de euros en gastos militares. Si tienes comida en un frigorífico, ropa en un armario, una cama donde dormir y un techo sobre tu cabeza, eres más rico que el 75% de la población mundial. Donella Meadows hizo público en 1990 su primer “Informe sobre el Estado de la Aldea”, que se ha actualizado varias veces desde entonces. “El Mundo en Miniatura” (The Miniature Earth) es su versión gráfica. Página oficial del Proyecto “The Miniature Earth” es: http://www.miniature-earth.com/ Aprecia lo que tienes y haz todo lo que puedas para hacer de este mundo un lugar mejor. Datos estadísticos: http://www.miniature-earth.com/docs/ME_2010_text.pdf http://www.odt.org/pop.htm Definición de Estadística La Estadística es la ciencia de la • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • Deducir las leyes que rigen esos fenómenos • y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. 10 Pasos en un estudio estadístico • Plantear hipótesis sobre una población: • Los fumadores tienen “más bajas” laborales que los no fumadores. • ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? • Decidir qué datos recoger (diseño de experimentos) – Qué individuos pertenecerán al estudio (muestras). • Fumadores y no fumadores en edad laboral. • Criterios de exclusión: ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? – Qué datos recoger de los mismos (variables). • Número de bajas. • Tiempo de duración de cada baja. • ¿Sexo? ¿Sector laboral? ¿Otros factores? 11 Pasos en un estudio estadístico (y 2) • Recoger los datos (muestreo): – ¿Estratificado? ¿Sistemáticamente? ¿Con remplazo o sin remplazo? • Describir (resumir) los datos obtenidos: • Tiempo medio de baja en fumadores y no fumadores (estadísticos) • % de bajas por fumadores y sexo (frecuencias), gráficos,... • Realizar una inferencia sobre la población: • Los fumadores están de baja al menos 10 días/año más de media que los no fumadores. • Cuantificar la confianza en la inferencia: – Nivel de confianza del 95% – Significación del contraste: p = 2% 12 ¿Qué es una familia? (Definiciones claras) ¿De qué estamos hablando? (Definiciones claras) «Què vol dir família? És tothom qui viu en una mateixa casa? O també s’inclouen avis i àvies, oncles i ties, cosins i cosines, etc. Si és la segona opció, que inclou molta més gent, tampoc és tant sorprenent l’afirmació...» Pere Grima ¿Los que fuman tienen algún trastorno mental? (Definiciones claras) «Què vol dir trastorns mentals? Si la dependènciade drogues es considera un trastorn mental, gairebé tothom que té l’hàbit de fumar pateix un trastorn mental!» Pere Grima El País, 28 noviembre 2000 Jóvenes.... (Definiciones claras) ! http://www.ajemadrid.es/ “Estadísticas...” (Definiciones claras) • Salud mental • Popularidad • Inteligencia • Pobreza ... http://es.wikipedia.org/wiki/Pobreza Precisión exagerada «Segurament, el mateix dia quevan editar el fulletó va deixar de ser cert. En tot cas, haurien d’haver dit la data en que la xifra d’habitants era aquesta. Però no cal, sabent que és una mica més d’un milió n’hi ha prou». Pere Grima. Esto es hilar fino... «Com saben amb tanta exactitud quan es va començar a fer servir la soja? D’on han tret la dada? Segurament és més fàcil endevinar en quin dia de la setmana es va començar a fer servir. La probabilitat d’encertar és 1 entre 7!» Pere Grima. Precisión ridícula Inferencia ¿Puedes indicar si son ciertos los siguientes razonamientos sobre estadísticas? En este caso es Martin Gardner en su libro “¡Aja! Paradojas que hacen pensar” el que nos ha otorgado el regalito: 1) Las estadísticas muestran que casi todos los accidentes de circulación se producen a velocidad moderada. Muy pocos ocurren a más de 150 km por hora. ¿Significa esto que resulta más seguro conducir a gran velocidad? 2) Si las estadísticas mostrasen que la mortalidad por tuberculosis es mayor en Segovia que en las demás provincias, ¿significaría esto que el clima segoviano favorece el contagio por tuberculosis? 3) Un estudio psicopedagógico ha mostrado que los niños de pie grande saben leer mejor que los de pie pequeño. ¿Permitirá el tamaño del pie medir la capacidad de lectura de los niños? 4) Suele decirse que casi todos los accidentes de automóvil ocurren cerca de casa. ¿Significa esto que viajar por carretera, a muchos kilómetros de nuestra ciudad, es menos peligroso que callejear por nuestro barrio? 6) Un estudio hizo ver que en cierta población europea se produjo simultáneamente un fuerte crecimiento de la población y un notable incremento del número de nidos de cigüeñas. ¿No es esto demostración de que son las cigüeñas quienes traen a los niños al mundo? 7). Otro trabajo estadístico mostró que casi todos los grandes matemáticos fueron primeros hijos. ¿Significa esto que los niños nacidos los primeros reciben una dote de sensibilidad matemática mayor que sus hermanos posteriores? Población y muestra • Población (‘population’ ) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). – Normalmente es demasiado grande para poder abarcarlo. • Muestra (‘sample’ ) es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) – Debería ser “representativo” – Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). 21 Variables • Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. • En los individuos de la población española, de uno a otro es variable: – El grupo sanguíneo • {A, B, AB, O} Var. Cualitativa – Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz} Var. ordinal – El número de hijos • {0,1,2,3,...} Var. Numérica discreta – La altura • {1,62 ; 1,74; ...} Var. Numérica continua 22 • Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. • Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. – Sexo (Cualit: Códigos arbitrarios) • 1 = Hombre • 2 = Mujer – Raza (Cualit: Códigos arbitrarios) • 1 = Blanca • 2 = Negra,... – Felicidad Ordinal: Respetar un orden al codificar. • 1 = Muy feliz • 2 = Bastante feliz • 3 = No demasiado feliz • Se pueden asignar códigos a respuestas especiales como • 0 = No sabe • 99 = No contesta... • Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’) 23 • Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) – Edades: • Menos de 20 años, de 20 a 50 años, más de 50 años – Hijos: • Menos de 3 hijos, De 3 a 5, 6 o más hijos • Las modalidades/clases deben formar un sistema exhaustivo y excluyente – Exhaustivo: No podemos olvidar ningún posible valor de la variable – Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? – Bien: ¿Cuál es su grupo sanguíneo? – Excluyente: Nadie puede presentar dos valores simultáneos de la variable • Estudio sobre el ocio – Mal: De los siguientes, qué le gusta: (deporte, cine) – Bien: Le gusta el deporte: (Sí, No) – Bien: Le gusta el cine: (Sí, No) 24 Ejemplo: En un programa para la detección de hipertensión en una muestra de 30 hombres en edades entre 30 y 40 años, la distribución de la presión diastólica (mínima) en mm Hg fue la siguiente: 70 85 85 75 65 90 110 95 90 60 75 80 120 85 95 90 70 100 65 80 90 95 90 110 100 85 80 95 La variable en estudio es : Presión diastólica (medida en mm de Hg) una variable numérica continua. 70 75 Tablas de frecuencia • Exponen la información recogida en la muestra de manera inteligente: – Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad. – Frecuencias relativas (porcentajes unitarios): Ídem, pero dividido por el total, normalizadas. – Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente útiles para calcular cuantiles (como veremos más adelante). 26 Ordenamos los datos en forma creciente: 60 65 65 70 70 70 75 75 75 80 80 80 85 85 85 85 90 90 90 90 90 95 95 95 95 100 100 110 110 120 La amplitud total A = 120 – 60 = 60 Número de clases: K = √30 = 5.48 Aprox. 6 clases Extensión del intervalo : H = A/ K = 60/6 = 10 En este caso , entonces, la tabla de frecuencias tendrá aproximadamente 6 clases de amplitud 10 unidades en cada clase. Variable Frecuencia Frecuencia Frecuencia normalizada absoluta Frecuencia absoluta norm. f fr F Fr 60 - 70 3 0.1 3 0.1 70 - 80 6 0.2 9 0.3 80 - 90 7 0.23 16 0.53 90 - 100 9 0.3 25 0.83 100 - 110 2 0.07 27 0.90 110 - 120 2 0.07 29 0.97 120 - 130 1 0.03 30 1.00 30 1.0 x total 28 Histograma de la distribución de presión diastólica en mm de Hg según las frecuencias absolutas: 10 f 8 6 4 2 0 60 70 80 90 100 110 120 130 mm de Hg 29 FLORENCE NIGHTINGALE (1820-1910) La dama de la lámpara Enfermera, escritora y estadística. Considerada pionera de la enfermería moderna, sentó las bases de su profesionalización. Destacó en matemáticas, y aplicó sus conocimientos de estadística a la epidemiología y a la estadística sanitaria, siendo la primera mujer admitida en la Royal Statistical Society británica, y miembro honorario de la American Statistical Association. LA GUERRA DE CRIMEA (1854-1856) 1854 Inglaterra, Francia y Turquía declaran la Guerra a Rusia En 1854 estalla la guerra de Crimea. Por primera vez la prensa cubrió una guerra. La organización de los hospitales británicos durante la guerra era deficiente. La preocupación por el bienestar de los soldados se manifestó como una oleada en la opinión pública lo que permitió al Secretario de Estado para la Guerra, Sidney Herbert, designar a Florence para dirigir a un grupo de enfermeras. Ninguna mujer había ocupado un puesto oficial en el ejército. Alcanzó fama mundial en la asistencia a los heridos durante la Guerra de Crimea ( 1854 – 1856 ), siendo conocida como «La Dama del Candil», por su costumbre de realizar rondas nocturnas con un candil para atender a sus pacientes. Petición por parte de Sidney Herbert de hacerse cargo de la atención a heridos.. El 21 de octubre de 1854, ella y un equipo de 38 enfermeras voluntarias, se encontraron con que los soldados heridos recibían tratamientos inadecuados por parte del sobrecargado equipo médico, mientras que la oficialidad era indiferente. Los suministros médicos escaseaban, la higiene era pésima, las infecciones comunes y fatales, y no se contaba con equipamiento apropiado para procesar los alimentos de los pacientes. Alto índice de mortalidad: Poca salubridad, Mala alimentación, Poco personal sanitario mal cualificado. Enfermedades: Tifus, Cólera y Disentería. Al instalar una lavandería en el hospital, y en tan sólo un mes consiguió mejoras en el mantenimiento de las salas, obtuvo ropa de cama y prendas nuevas para los soldados, y mejoró las comidas del hospital... Durante su primer verano en Scutari, 4.077 soldados perdieron la vida allí. Fallecieron 10 veces más soldados de enfermedades como tifus, fiebre tifoidea, cólera y disentería que de heridas en el campo de batalla. Las condiciones en el hospital de las barracas eran tan nocivas para los pacientes debido al hacinamiento, a los deficientes desagües sanitarios y a la falta de ventilación. El gobierno británico destinó una Comisión Sanitaria a Scutari en marzo de 1855, casi seis meses después de la llegada de Florence Nightingale, que efectuó la limpieza de los vertederos contaminantes y mejoró la ventilación. A partir de esas medidas el índice de mortalidad bajó rápidamente. El creciente interés del público por sus iniciativas dio a su opinión una fuerza de la que no disponían los reformadores en las filas del ejército, así, muchas de las recomendaciones de la directora de enfermeras al Secretario de Estado para la Guerra se convirtieron en nuevos reglamentos militares. Durante la guerra ella no reconoció que la falta de higiene era una de las causas principales de muerte, creyendo que el elevado índice de mortalidad se debía a la mala nutrición, a la falta de suministros médicos y al agotamiento extremo de los hombres. Pero a su regreso a Londres comenzó a reunir pruebas para la Comisión Real para la Salud en el Ejército, a fin de sustentar su posición de que los soldados fallecían a causa de las deplorables condiciones de vida en el hospital. Esta experiencia influyó decisivamente en su carrera posterior, llevándola a abogar por la importancia de mejorar las condiciones sanitarias hospitalarias. En consecuencia, ayudó a reducir las muertes en el ejército durante tiempos de paz y promovió el correcto diseño sanitario de los hospitales. Se le atribuye el desarrollo de una forma de gráfico circular hoy conocida como diagrama de área polar o como diagrama de la rosa de Nightingale, equivalente a un moderno histograma circular, a fin de ilustrar las causas de la mortalidad de los soldados en el hospital militar que dirigía. Gráficos para variables cualitativas • Diagramas de barras – Alturas proporcionales a las frecuencias (abs. o rel.) – Se pueden aplicar también a variables discretas • Diagramas de sectores (tartas, polares) – El área de cada sector es proporcional a su frecuencia (abs. o rel.) 37 Gráficos para variables cualitativas (y 2) • Pictogramas – Fáciles de entender. – Cada modalidad debe ser proporcional a la frecuencia. De los dos pictogramas, ¿cuál dirías que es incorrecto? 38 Gráficos diferenciales para variables numéricas 419 400 375 Son diferentes en función de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas. Recuento 300 255 215 200 127 100 54 24 – Diagramas barras para v. discretas 0 1 2 3 4 5 6 23 7 Ocho o más Número de hijos • Se deja un hueco entre barras para indicar los valores que no son posibles 250 • El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. Recuento 200 – Histogramas para v. continuas 150 100 50 20 40 60 Edad del encuestado 17 39 80 Diagramas integrales • Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. 40 Impacto del eje vertical «El gràfic de l’esquerra dóna la sensació de que les despeses han pujat però d’una manera molt suau, mentre que el de la dreta, amb les mateixes dades, però fent un “zoom” sobre la part de l’escala on està la gràfica, l’increment es veu molt més exagerat.» Pere Grima Si quieres demostrar algo absurdo toma un montón de datos, tortúralos hasta que digan lo que quieres demostrar, y a la confesión así obtenida llámalo “Estadística”. (Darrel Huff: How to lie with statistics) Priorizar la estética «Segurament aquí no hi havia mala intenció. De fet, afavoria més al que volien transmetre haver fet la gràfica bé!» Pere Grima. 143.449 85.990 Gráfico universal Es muy rápido. Sobre el mismo dibujo se cambian los números Sin escala «Un clàssic de la publicitat: la gràfica sense escala. Però en què consisteixen aquests tests? Què mesuren ? Com ho mesuren?» Pere Grima Sin escala Unidad = Unidad «Que ningú digui que no fan servir unitats en els eixos! Justament la unitat de mesura es la unidad.» Pere Grima «Aquí tenim un exemple de llibre: Quant més valia un dòlar en l’època d’Eisenhower respecte l’època de Carter? Segurament esteu pensant que 4 o 5 vegades, però no, només val una mica més del doble. De fet, es pot comprovar que les longituds són proporcionals als valors, però els bitllets tenen dos dimensions, i la sensació de quantitat que donen és proporcional a la seva superfície, i no a la longitud. Podem veure que la superfície del d’Eisenhower és 5 vegades més gran que l’altra.» Pere Grima «I en el gràfic de la dreta, tret d’un diari que fa una estadística” sobre les edats dels seus lectors, tenim un exemple similar. Entre 25 i 34 anys tenen un 37,5% de lectors, i de més de 55 tenen un 12,8%. Tot i que aquests últims són 1/3 dels primers, en el gràfic sembla que no pinten quasi bé res. De fet, es pot posar un home de 12,8%” a cada pota del “gegant”. Han fet els gràfics proporcionals a les alçades (el “gegant” és tres vegades més alt que l’home que comprèn el grup de lectors de més de 55 anys), però la sensació que donen és proporcional a les àrees». Pere Grima Dieta más... lo que sea «Prens ginebra amb glaçons i t’emborratxes, vodka amb glaçons i t’emborratxes, whisky amb glaçons i t’emborratxes. Conclusió: els glaçons t’emborratxen». Pere Grima El Periódico, 13 de febrer de 2001 Descobriment sorprenent A Catalunya les rosses no guanyen igual que les morenes «Si dividim les noies en rosses i morenes, és normal que un dels grups cobri més que l’altre. Però segurament aquesta diferència no serà significativa. El que seria sorprenent és que els dos grups de persones cobressin exactament igual, fins al cèntim d’euro!» Pere Grima ¿Encuestas interesadas? ¡Atención: un 30% de los expertos no aconseja huir del excesivo consumo de grasas! Curiosa encuesta http://nosomoshormigas.org/ Las 7 obsevaciones optimistas de No Somos Hormigas en TEDxLaRioja. http://www.youtu be.com/watch?feat ure=player_embed ded&v=E6Wd8SGAac#t=621s ¿El peor gráfico de todos los tiempos? El País 22.11.05 publica a dos páginas una nueva entrega de su sección de Investigación y Análisis, esta vez sobre el gasto farmacéutico. “¿Alguien puede decirme qué escala utiliza este gráfico? ¿El 4,7% de Castilla-La Mancha y el País Vasco, es cada una, o es entre las dos? Idem para Cantabria y Navarra y Aragón y Murcia. ¿Alguien sabe qué interés tiene el gasto farmacéutico por comunidades, si no es per cápita?” http://personales.ya.com/josumezo/2005/11/el-peor-grfico-de-todos-los-tiempos.html Ministerio de Agricultura http://sigpac.mapa.es/fega/visor/ ¿Cómo visualizar la complejidad del mundo? Según Naciones Unidas existen en estos momentos más de 27 millones de refugiados. El mayor número alcanzado jamás. La anchura de las flechas indica la cantidad relativa de refugiados según las zonas. En la web de la Agencia de la Organización de Naciones Unidas para los Refugiados podemos leer: La Convención de Refugiados de 1951 que es el mandato principal del ACNUR explica que un refugiado es una persona que "debido a fundados temores de ser perseguida por motivos de raza, religión, nacionalidad, pertenencia a determinado grupo social u opiniones políticas se encuentre fuera del país de su nacionalidad y no pueda o, a causa de dichos temores, no quiera acogerse a la protección de tal país". 90 Los métodos visuales para comunicar grandes cantidades de información de manera eficiente son una mezcla de arte y ciencia. Por ejemplo, ¿cómo podemos visualizar datos a nivel mundial? Centrémonos en una cuestión particular: a pesar del indudable progreso humano, las desigualdades son ahora más grandes que en ningún momento de la historia. Uno de los indicadores más comunes de la calidad de vida es la esperanza de vida, la media de la cantidad de años que vive una cierta población en un cierto periodo de tiempo. Mientras en algunos lugares de la Tierra hay gente que vive en la opulencia, más de mil millones de personas pasan hambre. Así la esperanza de vida es muy distinta según los países. Si has nacido y vives en España, tu esperanza de vida es de más de 80 años. Pero si perteneces a uno de los 35 países con menor esperanza de vida, localizados todos ellos en el África sub-sahariana, tu esperanza de vida es inferior a los 50 años. Una desigualdad espeluznante que podemos apreciar en un vistazo en este globo terráqueo diseñado por Ingo Günther. La esperanza de vida es la media de la cantidad de años que vive una cierta población en un cierto periodo de tiempo. Nota: Los datos del proyecto WorldProcessor no están actualizados: son datos que van entre 1998 y 2005, según el globo. Montañas de débito La deuda externa de los países, el dinero público y privado, que cada uno debe al extranjero, está representada en este doble globo terráqueo de forma proporcional a la altura de sus montañas. © 1988 - 2006, Ingo Günther and Worldspace Corporation Polución Polución: Los círculos rojos indican vertidos de petróleo y los de color gris sombreado contaminación del mar y de la tierra debida a fertilizantes químicos. En promedio, cada tres meses esta imagen se vuelve obsoleta debido a otro gran vertido de petróleo y al aumento continuo de la contaminación. Comprehensive Guide to the World Es cierto que el mundo hoy es más complicado que nunca. Aunque eso no significa que su comprensión sea necesariamente inaprensible o extremadamente difícil, como apunta Günther en este globo terráqueo que titula con cierta sorna: "Guía completa del mundo". Agencia de la Organización de Naciones Unidas para los Refugiados: http://www.acnur.org Proyecto WorldProcessor: http://www.worldprocessor.com/catalog/world/ Estadísticas mundiales desde la CIA, la Agencia Central de Inteligencia de EEUU: https://www.cia.gov/library/publications/the-world-factbook/ Redes para representar la complejidad Mark Lombardi Complejidad en la corrupción: Manipuladores del poder Interconexiones clandestinas entre corporaciones, organizaciones políticas e instituciones internacionales. "Redes globales, … porque cada una consiste en una red de líneas y apuntes, que a su vez tratan de inspirar y redactar un cuento, tipicamente sobre un evento reciente …, como la caída de un gran banco internacional o una firma de inversiones. Una de mis metas es investigar las fuerzas de interacción política, social y económica en los negocios contemporáneos." Mark Lombardi (1951-2000) Artista, pintor e historiador de arte george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, 1999 graphite on paper 20 x 44 inches sold george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, (detail) Compañías Compañías versus países: algunas compañías privadas tienen beneficios anuales mayores que el producto interior bruto (PIB) de algunos países. En el globo, se renombran algunos países siguiendo este criterio. vs. Países They Rule w w w .theyrule.net They Rule permite crear redes de relaciones entre las 500 compañías más poderosas de EEUU y muchas de sus instituciones gubernamentales, educativas o fundaciones, a través de las personas que ocupan asiento en sus consejos de administración. Algunas de estas personas ocupan asientos en hasta 7 compañías... Parámetros y estadísticos • Parámetro: Es una cantidad numérica calculada sobre una población. – La altura media de los individuos de un país. – La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). • Estadístico: Ídem pero cambiando población por muestra. – La altura media de los que estamos en este aula. • Somos una muestra (¿representativa?) de la población. – Si un estadístico se usa para aproximar un parámetro, se le suele 101 llamar estimador. Estadísticos • • Centralización: Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda Posición: Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuantiles, percentiles, cuartiles, deciles,... Dispersión: Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza • Forma: Asimetría; apuntamiento o curtosis... 102 Estadísticos de posición • Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α. • Casos particulares son los percentiles, cuartiles, deciles, quintiles,... 103 • Percentil de orden k = cuantil de orden k/100 – La mediana es el percentil 50. – El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%. • Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. – Primer cuartil = Percentil 25 = Cuantil 0,25. – Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. – Tercer cuartil = Percentil 75 = cuantil 0,75. 104 – Ejemplos: El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”? • Percentil 5 o cuantil 0,05. – ¿Qué peso es superado sólo por el 25% de los individuos? • Percentil 75. – El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales. ¿Entre qué valores se encuentran los individuos normales? • Entre el percentil 5 y el 95. – ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? • Entre 1º y 3º cuartil (Q1 y Q3). 105 http://www.who.int/growthref/who2007_height_for_age/en/index.html 106 107 http://www.who.int/growthref/who2007_height_for_age/en/index.html Niveles de Hb en 61 adultos normales 105 110 125 126 138 138 148 148 153 153 158 159 160 168 168 112 127 138 148 154 160 170 112 128 138 149 149.5 154 160 172 118 130 141 150 154 163 172 119 132 142 150 154 164 176 120 133 133.5 144 150 155 164 179 120 134 145 151 156 165 120 135 146 151 156 166 Un resumen de esta serie en 5 valores Min = 105 ; Max =179; Q1 = 133.5 ; Q3 = 159 ; Q2 = Mn = 149.5 IQR = Q3 - Q1 Recorrido intercuartílico Min Max (Mediana de los datos inferiores) 105 Q1 133.5 Mn Q3 (Mediana de los datos superiores) 149.5 159 (“Box-and-Whisker” plot) 179 108 Porcentaje... ¿De qué? «Per exemple: Si el contingut anterior d’un producte era 75ml i ara és de 100ml, quant ens regalen? La resposta no és evident. Si ens referim al contingut inicial regalen el 33%, però del contingut total que estan venent ara, només regalen el 25%. Davant d’un percentatge sempre cal preguntar-se: percentatge, de què? I descobrirem que moltes vegades no ho té clar ni el que ho ha calculat.» Pere Grima Porcentajes y puntos porcentuales: «Los beneficios han pasado del 2% al 4%» ¿Han aumentado 2 puntos o han aumentado un 100% ? PVP = 100 € 18% de descompte = 82 € Sense IVA: 82? NO! Sense IVA: 84,75 (84,75 x 1,18 = 100) Números para dar credibilidad «Els percentatges es fan servir també per donar un aire de rigor científic en alguns anuncis. És millor per això fer ser- vir números que no siguin rodons (millor 89% que no 90%» Pere Grima. «Operacions amb percentatges: Cal vigilar quan es fan operacions amb percentatges! Si un producte està for- mat per 10 components i el cost de cadascun d’ells s’incrementa un 2%, quant augmenta tot el producte? No augmenta un 20%, com algú podria pensar, sinó només un 2%.» Pere Grima. Porcentajes basados en niveles y cambios de nivel Un vendedor vendió el año pasado por valor de 100.000 €. Su objetivo este año era aumentar la facturación un 6%. Ha conseguido vender por valor de 103.000 €. ¿Qué porcentaje del objetivo ha cubierto? «Si volem que pinti malament: Havia d’augmentar un 6% i ha augmentat un 3%. Ha assolit només un 50% del previst. Si volem que pinti bé: El seu objectiu era vendre per 106 000 €. S’ha quedat en 103 000 €, per tant el percentatge d’acompliment ha estat (103 000 / 106 000) x 100 = 97,2%» Pere Grima 6% 3% 50% 106.000 103.000 97,2% Porcentajes y puntos percentuales Los beneficios han pasado de un 3% a un 6%... Han aumentado “un 3 %” (en realidad 3 puntos percentuales) Han aumentado un 100 % La Vanguardia, 23 novembre 2003 «Dos problemes en aquesta notícia. El 23% del titular no surt ni calculant-lo bé ni malament! 1. El que segurament pretenia el periodista era fer 45 – 18, però això dóna 27%, no 23%. 2. Però és que aquest percentatge no es calcula així. El càlcul correcte seria [(45 – 18)/45] x 100 = 60%. Per exemple, si passem d’un 5% a un 0%, no disminuïm un 5%, sinó un 100%!» Pere Grima Operaciones con porcentajes «Només un exemple que vaig veure fa uns mesos al diari: “El 65% dels menors...” però d’on surt aquest 65%?: del 50% dels nens i el 15% de les nenes! I si sortís del 100% dels nens i el 100% de les nenes, tindríem aleshores el 200% dels menors...?» Pere Grima El Periódico, 5 de gener de 2006. Pàgina 27 «Recelo de la Estadística; un buen amigo mío murió ahogado en un río cuya profundidad media era de 40 cm.» Pío Baroja En cierta ocasión le preguntaron a un vendedor que como podía vender tan baratos sus sándwiches de conejo, a lo que respondió : «Bueno, tengo que admitir que hay un poco de carne de caballo. Pero la mezcla es solo 50:50; uso el mismo numero de conejos que de caballos». [ Darrel Huff, "Como mentir con la estadística".] 115 Centralización • Añaden unos cuantos casos particulares a las medidas de posición. Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse. • Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. – Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 – Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy X= sensible a valores extremos. – Centro de gravedad de los datos. n Media ponderada Xp = ∑w x i =1 n i i ∑w i =1 i 116 n ∑X i =1 n i Si en la ETSIA la edad media de los chicos es de 25 años y la edad media de las chicas es 23, ¿cuál es la media de edad de los estudiantes de la escuela? ¿Dados dos conjuntos de datos y sus dos medias, ¿la media de las medias será la media de todos los datos? _ _ n1 x1 + n2 x 2 xT = n1 + n2 _ _ _ _ n1 _ n2 _ xT = x1 + x 2 = p1 x1 + p2 x 2 n1 + n2 n1 + n2 117 H ≤G≤ X ≤Q Otras medias • Media Armónica (H): H= • Media Cuadrática (Q): n k 1 ∑ i =1 x i × ni k Q= 2 x ∑ i ⋅ ni i =1 n • Media Geométrica (G) o media logarítmica: G= n x1 ⋅ x 2 ⋅ ⋅ x n La media no necesariamente representa a todos La Vanguardia 25 noviembre 2005. Pág. 5 (suplemento Vivir) El Periódico 25 noviembre 2005; Pág. 45 Sueldos El País, 6 de marzo de 2011, pág. 25 Confundir la media con el conjunto La Vanguardia, 26 de Febrero de 2002. Página 16 Centralización • Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. – Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 – Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5 – Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. • Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es 117,7! Si queremos saber si estamos entre los que cobramos más o menos en nuestra empresa, mejor comparar nuestro salario con la mediana y no con la media... • Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Su uso tiene más sentido con datos cualitativos. 123 Altura mediana 124 Asimetría o sesgo • Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. • En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide. • La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. • La media tiende a desplazarse hacia las valores extremos (colas). • Las discrepancias entre las medidas de centralización son indicación de asimetría. 127 Apuntamiento o curtosis (kurtosis) • La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. • Platicúrtica: curtosis < 0 • Mesocúrtica: curtosis = 0 Los gráficos poseen la misma media y • Leptocúrtica: curtosis > 0 desviación típica, pero diferente grado de apuntamiento o curtosis. 400 300 160 140 300 200 120 200 100 100 60 40 Frecuencia Frecuencia Frecuencia 80 0 27 45 48 51 54 57 60 63 66 69 72 75 78 81 84 Platicúrtica 37 32 45 41 Mesocúrtica 53 49 61 57 69 65 77 73 85 81 0 3 93 89 100 99 27 16 37 32 47 42 Leptocúrtica 57 52 67 62 77 72 87 82 128 97 92 108 102 138 Medidas de dispersión •Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. •Amplitud o Rango (‘range’): La diferencia entre las observaciones extremas. – 2,1,4,3,8,4. El rango es 8-1=7 – Es muy sensible a los valores extremos. •Rango intercuartílico (‘interquartile range’): – Es la distancia entre el primer y tercer cuartil. • Rango intercuartílico = P75 - P25 – Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. – No es tan sensible a valores extremos. 129 Fr 1 0.75 0.5 0.25 Recorrido o rango intercuartílico 0 P25 Q1 P50 Q2 mediana P75 Q3 x 130 • Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. 1 2 S = ∑ ( xi − x ) n i 2 – Es sensible a valores extremos (alejados de la media). – Sus unidades son el cuadrado de las de la variable. • Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable. S= S 2 131 • Coeficiente de variación • Es la razón entre la desviación típica y la media. – Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” – También se la denomina variabilidad relativa. – Es frecuente mostrarla en porcentajes S CV = x • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) • Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. – Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. • No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente – Por ejemplo 0ºC ≠ 0ºF • Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso). 132 • Centrados en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.) • A dos desviaciones típicas las tenemos a casi todas (dcha.) 133 Desigualdad de Chebyshev (1821-1894) Si un conjunto de datos posee una varianza pequeña no existirán "muchos valores" alejados de la media. Precisemos: sea el intervalo alrededor de la media: x − kσ < xi < x + kσ 1 S = ∑ ( xi − x ) 2 ⋅ f i n i 1 1 2 2 2 ( ) ( ) − ⋅ + − ⋅ fi S = x x f x x ∑ ∑ i i i n i dentro n i fuera del entorno del entorno 2 >0 >0 134 Demostración: 1 S ≥ n 2 1 ( xi − x ) ⋅ f i ≥ ∑ n i fuera 2 del entorno 1 =k S n 2 1 n 2 ∑f ∑k 2 S ⋅ fi = 2 i fuera del entorno i i fuera del entorno 1 fi ≤ 2 ∑ k i fuera del entorno La frecuencia relativa de los datos que caen fuera del intervalo de centro media y radio k veces la varianza es igual o menor que 1/k2 135 7.000 millones y tú Google Public Data Explorer http://www.google.com/publicdata/home Directorio – Banco Mundial – Población Cada círculo es proporcional a la población del país y puedes cambiar el color en la misma aplicación simplemente picando encima del círculo. Deberían aparecer los siguientes datos: China 1.338 millones de habitantes, India 1.171, EEUU 309, España 46, Nigeria 158, Brasil 195 Datos de 2010 (Banco Mundial, Indicadores de Desarrollo). Siete mil millones... y usted, ¿sabe qué número es? http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml “El 30 de octubre de 2011, con el nacimiento de Danica Mae Camacho en Manila, Filipinas se alcanzó la cifra de 7 mil millones de habitantes”. ¿Es esta noticia una afirmación exacta? Obviamente se trata de una noticia periodística “coloreada”. Es imposible determinar quién ha sido realmente el ciudadano 7.000 millones. Las estimaciones estadísticas poblacionales de la ONU determinan el instante en que se espera el nacimiento del humano 7.000 millones. Se busca el nacimiento en un hospital a nivel mundial más cercano a ese instante y se utiliza el dato para “humanizar” la información estadística. Una cuestión simbólica discutible. En http://www.worldometers.info/es/ puedes acceder a un reloj de población mundial y otras estadísticas mundiales a tiempo real. Entra en http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml introduce tu fecha de nacimiento y determina cuál es tu posición entre los 7.000 millones de habitantes actuales de la Tierra. Prueba con las fechas de tus padres y abuelos. El crecimiento de la población mundial se ha acelerado extraordinariamente a lo largo de las tres últimas generaciones. Tres posibles escenarios de la evolución de la población mundial hasta 2100 según Naciones Unidas (2010). http://esa.un.org/wpp/Analytical-Figures/htm/fig_1.htm Sobrepoblación Cuando el destino nos alcance (Soylent Green, Richard Fleischer, 1973) Extinción Hijos de los hombres (Children of Men, Alfonso Cuarón, 2006) Ambas películas describen futuros distópicos: “Cuando el destino nos alcance” muestra un planeta Tierra superpoblado en el año 2022, donde la energía y los alimentos son escasos. E “Hijos de los hombres” transcurre en 2027 con una humanidad estéril abocada a la extinción. Para referencias detalladas de estas películas, y ciencia ficción en general, recomendamos el portal de ciencia ficción Alt64-wiki (http://www.alt64.org/wiki/) Si cada persona viva tiene dos progenitores, que a su vez tuvieron dos progenitores, etc… necesariamente en el pasado la población era superior a la actual. Piensa que tú tienes dos padres, cuatro abuelos, ocho bisabuelos… De hecho mientras más atrás vamos en el tiempo, mayor debería ser la población. ¿Es esto correcto? La falacia se produce porque contamos repetidamente la misma persona muchas veces. Piensa que si una pareja tiene tres hijos y cada uno tiene otros tres, la misma pareja son los abuelos de 9 personas distintas. Además en todo árbol genealógico se producen cruzamientos entre parientes más o menos lejanos. 141