Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Básica COMISIÓN 1 1° Cuatrimestre 2016 s. La palabra Estadística procede del vocablo “Estado”, pues era función principal de los Gobiernos de los Estados establecer registros de población, nacimientos, defunciones, impuestos, cosechas... La necesidad de poseer datos cifrados sobre la población y sus condiciones materiales de existencia han debido hacerse sentir desde que se establecieron sociedades humanas organizadas. Moore(1999) define la estadística como la ciencia de los datos. El objeto de la estadística es el razonamiento a partir de datos empíricos. Es una disciplina científica autónoma, que tiene sus métodos específicos de razonamiento. Aunque es una ciencia matemática, no es una rama de la matemática. Aunque es una disciplina metodológica, no es una colección de métodos”. . Descriptiva -describe -visualiza -resume la información el análisis de datos Estadística Inferencial incluye la recopilación, organización, presentación, análisis e interpretación de la información Parte del análisis de datos y lo extiende a un grupo más amplio, obteniendo conclusiones sobre estimaciones y pruebas de hiótesis Auxilia en el proceso de toma de decisiones Si nos ocupa el análisis de uno o varios conjuntos de datos de la misma variable, contamos con métodos gráficos y numéricos que reúne la Estadística descriptiva. Si debemos tomar decisiones bajo condiciones de incertidumbre, a través de estimaciones o pruebas de hipótesis, contamos con la Estadística inferencial. Si nos ocupa el análisis de dos conjuntos de variables denominadas explicativas y explicadas, nos serán de utilidad los métodos de regresión. ¿DE QUÉ SE OCUPA LA ESTADÍSTICA DESCRIPTIVA? La estadística descriptiva se ocupa de la organización, presentación y análisis de la información. ¿Cuál es la información que organiza, de dónde surge, cómo se obtiene, cómo se la presenta y cómo se la analiza? ¿Qué medidas calculamos? ¿Para qué? ¿Qué significado tienen? ¿Qué significa aplicar un programa estadístico? ¿Elegimos las medidas adecuadamente en cada caso? ¿Nos ayudan a resumir la información? ¿Son medidas que representan los datos? ¿Son confiables? Todas estas preguntas serán respondidas al trabajar con Proyectos Un proyecto de análisis de datos comienza con un problema que se resuelve aplicando el método estadístico. Planteo del Problema. Planteo de las preguntas. Identificación de las variables y de los objetivos del proyecto. Recopilación de la información muestral NO ¿SE RESUELVE EL PROBLEMA? SI Presentación del informe con los resultados y las conclusiones Descripción de la población, de la muestra y de la técnica de recolección utilizada. Presentación de los datos: Tablas de frecuencias. Gráficos. Medidas de tendencia central y de variabilidad. Análisis e interpretación de los datos, coherencia entre el problema y los objetivos PROBLEMA ¿CÓMO SON LOS ALUMNOS DE ESTA CLASE? Para responder la pregunta, deberíamos identificar al alumno típico. (OBJETIVO) ¿Qué características consideramos para definir al alumno típico? Algunas características surgen por simple observación, como el sexo, el color de pelo y de ojos. Otras surgen de una medición, como la estatura y el peso. Y otras características surgen de una encuesta: carrera, número de materias aprobadas a la fecha, edad, si alguna vez cursó Estadística Básica, y el interés hacia la estadística, por ejemplo. Estas características que pueden ser obtenidas por observación, por medición y por encuestas, deben ser “medidas” de alguna manera. Toda característica de la que se requiera su medición, es una variable. Hay que recurrir a las respuestas posibles que obtenemos con esa pregunta. El proceso de categorizar la variable permite su medición a través de una clasificación exhaustiva y excluyente en sus categorías. Eso la clasifica como una variable categórica o cualitativa. Mecánica Química Carreras de Ingeniería en la UNMDP Electrónica Electromecánica Alimentos Materiales Industrial Variables: Cualitativas y Cuantitativas. Las variables cualitativas son aquellas que se refieren a categorías o atributos de los elementos de estudio. Las variables cuantitativas son aquellas cuyos datos son de tipo numérico. Discretas Continuas SELECCIÓN DE UNA MUESTRA AL AZAR. FORMAS DE PRESENTACIÓN Y REPRESENTACIÓN DE LOS DATOS Nº Edad Orden Es el alumno Carrera Recursa Peso Sexo Nº mater. Aprob. Interés en la materia Estatura 24 22 Mecánica no 60 M 16 si 1,70 37 18 Electromec ánica no 60 M 6 si 1,60 29 20 Materiales no 48 F 6 no 1,55 36 21 Mecánica Si 68 M 6 si 1,79 Si los datos están sin agrupar, Tenemos una serie simple, que es una secuencia de los datos tal como aparecieron. Son los valores que toma una variable. Si la serie está ordenada, es una. serie simple ordenada. Si contamos el número de veces que se repite un dato, registramos en una tabla, la frecuencia de ese dato o valor que toma la variable. Si los datos se agrupan por frecuencias, presentamos una serie de frecuencias en una tabla. xi 19 20 21 22 fi Fa fr Fa% 5 6 7 8 9 10 11 12 15 16 19 22 25 1 9 3 2 2 2 4 2 1 1 1 1 Nro de Materias Aprobadas Frecuencias 1 9 1 5 6 7 8 9 10 11 12 15 16 22 Número de materias aprobadas a la fecha por los alumnos de Estadística 1er cuat.. 2008 Utilizaremos intervalos iguales en los que se divide el número total de observaciones. Es conveniente utilizar los intervalos de clase cuando se tiene un gran número de datos (n>20) de una variable continua. La fórmula de Sturges se utiliza para calcular el número K de intervalos: K = 1 + 3.3 log n Otra forma para calcular la cantidad de intervalos K = Donde n es la cantidad de datos n 1. Calculamos el rango de la variable (edad): R = Xmáx – Xmín = 2. Calculamos la cantidad de intervalos, si n = 30 K = 1 + 3.3 log 30 =5,8 ~ 6 3. Calculamos la amplitud del intervalo: a = R/K 4. Construimos los intervalos a partir del Xmín o algún valor “redondeado” que lo contenga, de amplitud “a”, con sus frecuencias correspondientes. Intervalos de Edad [18 – 20) Fi Fa 6 6 [20 –22) 13 19 [22 – 24) 6 25 [24 – 26) 3 28 [26 – 28) 2 30 HISTOGRAMA Representación gráfica para variables cuantitativas continuas Consiste en una serie de rectángulos cuyas bases, de longitud igual al tamaño de los intervalos de clase, se ubican sobre el eje horizontal (x) Si los intervalos son iguales, la altura de cada rectángulo es la frecuencia de cada intervalo, ubicada en el eje vertical (y) Se escribe el nombre de cada eje. Edades de la muestra aleatoria de 30 alumnos de Estadística Básica del 1er cuatrimestre de 2008 Tutorial para graficar histogramas con excel, http://www.youtube.com/watch?v=92XSKX0FJCE Es un gráfico de línea trazado sobre las marcas de clase. Se puede obtener uniendo los puntos medios de los techos de los rectángulos del histograma. Se acostumbra prolongar el polígono hasta las marcas de clase superior e inferior de frecuencia cero y en ese caso la suma de las áreas del histograma y el polígono con el eje x, son iguales. Distribución de las edades de la muestra de los alumnos de Estadística del 1er cuatrimestre de 2008 Permite comparar dos o más distribuciones frecuencias. de Interés hacia la Si Estadística % No % No Se % Total Masculino 10 55,5 3 16,7 5 27,8 18 Femenino 6 50 2 16,7 4 33,3 12 Total 16 53,3 5 16,7 9 30 30 60 50 40 Masculino Femenino 30 20 10 0 si no no se total Interés hacia la Estadística según sexo de los alumnos. 1er cuatrimestre 2008. Facultad de Ingeniería. UNMDP. 12 10 8 6 Recursan 4 No recursan 2 0 Me interesa No me interesa No se INTERÉS DE LOS ALUMNOS HACIA LA ESTADÍSTICA SEGÚN SUS CONOCIMIENTOS PREVIOS Carrera Mecánica Electro Materiales Química mecánica Frecuencias % Alimentos Industrial 3 5 1 12 6 3 10 16,7 3,3 40 20 10 Mecánica Electromec. Materiales Química Alimentos Industrial Matrícula según el tipo de carrera de los alumnos de Estadística Básica del 1er cuat. 2008 PRIMERAS CONCLUSIONES •La mayoría de los alumnos de esta muestra tienen entre 20 y 22 años. •En cuanto al interés por la estadística, el 53% muestra interés, pero hay aproximadamente un 30 % que no sabe si le interesa. •Existe en esta muestra, un 40 % de alumnos con orientación en química. Le siguen alimentos y electromecánica. •El 73 % de los alumnos de la muestra no son recursantes. •El 60% de los alumnos de la muestra son varones. •Hasta ahora: un alumno típico de esta clase es un varón entre 20 y 22 años, con orientación en química, no recursante con interés hacia la estadística y con aproximadamente 6 materias aprobadas. Una de las acepciones de la palabra población se refiere al conjunto de unidades elementales con características comunes observables. En nuestro caso, son los todos los alumnos que cursan Estadística Básica en esta Facultad. Una unidad elemental es cada objeto o sujeto que observamos de la población. En este caso, cada alumno es una unidad elemental. En una base de datos, cada unidad elemental corresponde a cada fila. Una muestra es un subconjunto de unidades elementales tomadas de la población. Aquella característica que se observa o se mide sobre las unidades elementales, se denomina variable. En una base de datos, las variables son las columnas. Serie simple Serie de frecuencias Por intervalos • Variables cualitativas • Barras Simples (UNA SOLA VARIABLE) • Diagramas Sectoriales (UNA SOLA VARIABLE) • Barras Proporcionales (DOS VARIABLES) • Barras Agrupadas (DOS VARIABLES) • Variables cuantitativas • Discretas • Bastones • Continuas • Histograma • Polígono de Frecuencias Simples • Polígono de Frecuencias Acumuladas ¿POR QUÉ TIENE TAN MALA PRENSA LA ESTADÍSTICA? Si definimos las variables y sus categorías, esa categorización no es única y depende de la manera en que simplificamos la realidad. Esto significa que un mismo problema estadístico puede tener muchas resoluciones posibles y distintas interpretaciones. Y eso dependerá esencialmente de: Cómo definimos y clasificamos las variables. y Dónde focalizamos nuestra atención.