Curso de estadística. Material primera semana GENERALIDADES DEFINICIÓN DE ESTADÍSTICA. La estadística es una ciencia o una rama matemática que se encarga de la ordenación, estudio, análisis e interpretación de datos numéricos para posteriormente servir de apoyo en la toma de decisiones basada en los resultados obtenidos a partir de dichos análisis. Algunos conjuntos de datos numéricos pueden estar compuestos por sueldos de los empleados de una compañía, la estatura de los niños en un colegio, número de hijos por hogar en un barrio, temperaturas en las ciudades de un país, las longitudes de los clavos producidos en una fábrica, etc. La estadística se divide en tres ramas: estadística descriptiva, estadística inferencial, teoría de probabilidades. En este curso abordaremos la estadística descriptiva la cual dirige sus métodos de estudio hacia el total de individuos que conforman una población con el propósito de establecer sus principales características. POBLACIÓN Una población es un conjunto de objetos o individuos sobre los cuales se observa una o más características para ser analizadas. Ejemplos de poblaciones: niños de un colegio, empleados de una fábrica, automóviles producidos en una ensambladora, peces contenidos en un criadero, etc. El tamaño de la población esta dado por la cantidad de objetos o individuos que la conforman y la representaremos con la letra N. MUESTRA Este concepto es más propio de la estadística inferencial ya que se refiere a una subpoblación, tomada de una población, sobre la cual se realizan los estudios de interés a fin de acercarse a la realidad del total de individuos contenidos en la población, en otras palabras una muestra es una parte representativa de una población. La toma de individuos u objetos que conforman la muestra deber ser lo mas aleatorio posible para lograr una mejor representación. VARIABLE Es un símbolo cualquiera X, Y; Z, W que toma valores sobre la característica que se observa o mide en la población. Las variables pueden ser cualitativas cuando definen atributos o cualidades de los individuos como sexo, color de piel. Cuantitativas cuando la característica observada es cuantificable o medible numéricamente y según su naturaleza las variables cuantitativas se dividen en discretas si los valores asumidos por la variable van de uno en uno dentro de la población como por ejemplo ausencias en una escuela, hijos por hogar, cantidad de materias perdidas. Continuas cuando la variable puede asumir cualquier valor entre dos valores dados como por ejemplo mediciones de temperatura, longitudes, etc. FRECUENCIA ABSOLUTA Es la cantidad de veces que se repite un dato numérico dentro de una población. Tales datos nacen de la característica que se esta estudiando en los individuos u objetos que conforman la población. FRECUENCIA RELATIVA Es el valor obtenido a partir de la división de la frecuencia absoluta de un dato numérico y el tamaño de la población. Curso de estadística. Material primera semana El siguiente ejemplo permite aclarar los conceptos hasta aquí presentados. Supongamos que nuestra población esta conformada por 25 niños de un salón de clase y que la característica a ser analizada es la cantidad de materias que reprobó cada niño. Bajo estas circunstancias debemos tener 25 datos numéricos y cada dato debe representar la cantidad de materias que reprobó un niño. 1,1,2,2,2,3,2,3,1,4,1,5,4,3,3,2,2,5,0,1,4,3,2,0,0. De aquí podemos concluir que cinco niños perdieron una materia, cinco niños perdieron tres materias, siete niños perdieron dos materias, tres niños perdieron cuatro materias, dos niños perdieron cinco materias y tres niños no perdieron materia alguna. Una forma ordenada y rigurosamente correcta de ordenar estos datos es distribuirlos en una tabla de frecuencias que muestre la cantidad de veces que se repite cada dato. Para nuestro ejemplo tenemos: Note que en este caso la variable es discreta y los valores que ella asume han sido ordenados de forma ascendente (0, 1, 2, 3, 4,5). Esta ordenación nos permite agregar a nuestra tabla de frecuencias dos columnas más llamadas Frecuencia acumulada que suma uno a uno los valores de la frecuencia absoluta y Frecuencia relativa acumulada que suma uno a uno los valores de la frecuencia relativa. Agregaremos una tercera columna la cual es un contador que facilitará la interpretación de resultados. TABLA DE DISTRIBUCION DE FRECUENCIAS En adelante nuestras tablas de distribución de frecuencias tendrán este aspecto y siempre será muy importante que el título dado a la tabla indique claramente la distribución de los datos y la característica medida por la variable. Para el ejemplo que venimos trabajando tenemos: Tabla 1. Distribución de 25 niños según cantidad de materias perdidas por cada niño. Curso de estadística. Material primera semana i: Contador. Cuenta número de materias perdidas diferentes. Xi : Variable. Para nuestro caso solo puede tomar los valores 0, 1, 2, 3, 4,5 y representa las diferentes cantidades de materias perdidas. Conteo: Cuenta las veces que se repite cada dato o sea las veces que se perdió determinada cantidad de materias. ni : Frecuencia absoluta. Nace directamente del Conteo hi : Frecuencia relativa absoluta. Es la frecuencia con que se presenta determinada cantidad de materias perdidas (Interpretación por porcentajes) Ni: Frecuencia acumulada. Esta directamente relacionada con ni y es la suma acumulativa uno a uno de los valores de la frecuencia absoluta Hi: Frecuencia relativa acumulada. Esta directamente relacionada con hi y es la suma acumulativa uno a uno de los valores de la frecuencia relativa absoluta. (Interpretación por porcentajes) Procedamos a realizar algunas interpretaciones a partir de la tabla anteriormente construida. Interpretaciones para ni Si i = 1 entonces n1 = 3, es decir, tres niños no perdieron materia alguna, ya que X1 = 0 Si i = 2 entonces n2 = 5, es decir, cinco niños perdieron una materia, ya que X2 = 1 Si i = 3 entonces n3 = 7, es decir, siete niños perdieron dos materias, ya que X3 = 2 Si i = 4 entonces n4 = 5, es decir, cinco niños perdieron tres materias, ya que X4 = 3 Si i = 5 entonces n5 = 3, es decir, tres niños perdieron cuatro materias, ya que X5 = 4 Si i = 6 entonces n6 = 2, es decir, dos niños perdieron cinco materias, ya que X6 = 5 Interpretaciones para hi h1 = 0,12. El 12% de los niños no perdieron materia alguna. h2 = 0,20. El 20% de los niños perdieron una materia. h3 = 0,28. El 28% de los niños perdieron dos materias. h4 = 0,20. El 20% de los niños perdieron tres materias. h5 = 0,12. El 12% de los niños perdieron cuatro materias. h6 = 0,08. El 8% de los niños perdieron cinco materias. Interpretaciones para Ni N1 = 3. Tres niños perdieron cero materias (No perdieron materia alguna) N2 = 8. Ocho niños perdieron una o menos materias, o también, Quince niños perdieron entre cero y una materia. Curso de estadística. Material primera semana N3 = 15. Quince niños perdieron dos o menos materias, o también, Quince niños perdieron entre cero y dos materias. N4 = 20. Veinte niños perdieron tres o menos materias, o también, veinte niños perdieron entre cero y tres materias. N5 = 23. Veintitrés niños perdieron cuatro o menos materias, o también, Veintitrés niños perdieron entre cero y cuatro materias. N6 = 25. Veinticinco niños perdieron cinco o menos materias, o también, Veinticinco niños perdieron entre cero y cinco materias. Interpretaciones para Ni H1 = 0,12. El 12% de los niños perdieron cero materias (No perdieron materia alguna) H2 = 0,32. El 32% de los niños perdieron una o menos materias, o también, el 32% de los niños perdieron entre cero y una materia. H3 = 0,60. El 60% de los niños perdieron dos o menos materias, o también, el 60% de los niños perdieron entre cero y dos materias. H4 = 0,80. El 80% de los niños perdieron tres o menos materias, o también, el 80% de los niños perdieron entre cero y tres materias. H5 = 0,92. El 92% de los niños perdieron cuatro o menos materias, o también, el 92% de los niños perdieron entre cero y cuatro materias. H6 = 1,00. El 100% de los niños perdieron cinco o menos materias, o también, el 100% de los niños perdieron entre cero y cinco materias.