Estadística Descriptiva - Universidad Nacional de Mar del Plata

Anuncio
Universidad Nacional de Mar del Plata
Facultad de Ingeniería
Estadística Básica
COMISIÓN 1
1° Cuatrimestre 2016
s.
La palabra Estadística procede del vocablo
“Estado”, pues era función principal de los
Gobiernos de los Estados establecer registros de
población, nacimientos, defunciones, impuestos,
cosechas...
La necesidad de poseer datos cifrados sobre la
población y sus condiciones materiales de
existencia han debido hacerse sentir desde que se
establecieron sociedades humanas organizadas.
Moore(1999) define la estadística como la ciencia de
los datos.
El objeto de la estadística es el razonamiento a partir
de datos empíricos.
Es una disciplina científica autónoma, que tiene sus
métodos específicos de razonamiento.
Aunque es una ciencia matemática, no es una rama
de la matemática.
Aunque es una disciplina metodológica, no es una
colección de métodos”.
.
Descriptiva
-describe
-visualiza
-resume la
información
el análisis
de datos
Estadística
Inferencial
incluye la
recopilación,
organización,
presentación,
análisis e
interpretación de
la información
Parte del análisis
de datos y lo
extiende a un
grupo más amplio,
obteniendo
conclusiones sobre
estimaciones y
pruebas de
hiótesis
Auxilia en
el proceso de
toma de
decisiones
Si nos ocupa el análisis de uno o varios conjuntos
de datos de la misma variable, contamos con
métodos gráficos y numéricos que reúne la
Estadística descriptiva.
Si debemos tomar decisiones bajo condiciones de
incertidumbre, a través de estimaciones o
pruebas de hipótesis, contamos con la Estadística
inferencial.
Si nos ocupa el análisis de dos conjuntos de
variables
denominadas
explicativas
y
explicadas, nos serán de utilidad los métodos de
regresión.
¿DE QUÉ SE OCUPA LA ESTADÍSTICA DESCRIPTIVA?
La estadística descriptiva se ocupa de la organización,
presentación y análisis de la información.
¿Cuál es la información que organiza, de dónde surge, cómo
se obtiene, cómo se la presenta y cómo se la analiza?
¿Qué medidas calculamos? ¿Para qué? ¿Qué significado
tienen?
¿Qué significa aplicar un programa estadístico? ¿Elegimos las
medidas adecuadamente en cada caso? ¿Nos ayudan a
resumir la información? ¿Son medidas que representan los
datos? ¿Son confiables?
Todas estas preguntas serán respondidas al trabajar con
Proyectos
Un proyecto de análisis de datos comienza con un problema que
se resuelve aplicando el método estadístico.
Planteo del Problema.
Planteo de las
preguntas.
Identificación de las
variables y de los
objetivos del proyecto.
Recopilación de la
información muestral
NO
¿SE RESUELVE EL
PROBLEMA?
SI
Presentación del informe con los
resultados y las conclusiones
Descripción de la
población, de la muestra y
de la técnica de
recolección utilizada.
Presentación de los datos:
Tablas de frecuencias.
Gráficos.
Medidas de tendencia
central y de variabilidad.
Análisis e interpretación de los datos,
coherencia entre el problema y los objetivos
PROBLEMA
¿CÓMO SON LOS ALUMNOS DE ESTA CLASE?
Para responder la pregunta,
deberíamos identificar al
alumno típico. (OBJETIVO)
¿Qué características
consideramos para definir al
alumno típico?



Algunas características surgen por
simple observación, como el sexo, el
color de pelo y de ojos.
Otras surgen de una medición, como
la estatura y el peso.
Y otras características surgen de una
encuesta: carrera, número de
materias aprobadas a la fecha,
edad, si alguna vez cursó Estadística
Básica, y el interés hacia la
estadística, por ejemplo.
Estas características que pueden ser obtenidas por
observación, por medición y por encuestas, deben ser
“medidas” de alguna manera.
Toda característica de la que se requiera su medición, es una
variable.
Hay que recurrir a las respuestas posibles que obtenemos
con esa pregunta.
El proceso de categorizar la variable permite su medición a
través de una clasificación exhaustiva y excluyente en sus
categorías. Eso la clasifica como una variable categórica o
cualitativa.
Mecánica
Química
Carreras de
Ingeniería en la
UNMDP
Electrónica
Electromecánica
Alimentos
Materiales
Industrial
Variables: Cualitativas y Cuantitativas.
Las variables cualitativas son aquellas que se
refieren a categorías o atributos de los
elementos de estudio.
Las variables cuantitativas son aquellas cuyos
datos son de tipo numérico.
Discretas
Continuas
SELECCIÓN DE UNA MUESTRA AL AZAR. FORMAS
DE PRESENTACIÓN Y REPRESENTACIÓN DE LOS
DATOS
Nº
Edad
Orden
Es el
alumno
Carrera
Recursa
Peso
Sexo
Nº
mater.
Aprob.
Interés en
la materia
Estatura
24
22
Mecánica
no
60
M
16
si
1,70
37
18
Electromec
ánica
no
60
M
6
si
1,60
29
20
Materiales
no
48
F
6
no
1,55
36
21
Mecánica
Si
68
M
6
si
1,79
Si los datos están sin agrupar,
Tenemos una serie simple, que es una secuencia de los datos tal como
aparecieron. Son los valores que toma una variable.
Si la serie está ordenada, es una. serie simple ordenada.
Si contamos el número de veces que se repite un dato, registramos en
una tabla, la frecuencia de ese dato o valor que toma la variable.
Si los datos se agrupan por frecuencias, presentamos una serie de
frecuencias en una tabla.
xi
19
20
21
22
fi
Fa
fr
Fa%
5
6
7
8
9
10
11
12
15
16
19
22 25
1
9
3
2
2
2
4
2
1
1
1
1
Nro de
Materias
Aprobadas
Frecuencias
1
9
1
5 6 7 8 9 10 11 12
15 16
22
Número de materias aprobadas a la fecha por los alumnos de
Estadística 1er cuat.. 2008
Utilizaremos intervalos iguales en los que se
divide el número total de observaciones. Es
conveniente utilizar los intervalos de clase
cuando se tiene un gran número de datos (n>20)
de una variable continua.
La fórmula de Sturges se utiliza para calcular el número K
de intervalos:
K = 1 + 3.3 log n
Otra forma para calcular la cantidad de intervalos K =
Donde n es la cantidad de datos
n
1. Calculamos el rango de la variable (edad):
R = Xmáx – Xmín =
2. Calculamos la cantidad de intervalos, si n = 30
K = 1 + 3.3 log 30 =5,8 ~ 6
3. Calculamos la amplitud del intervalo:
a = R/K
4. Construimos los intervalos a partir del Xmín o algún
valor “redondeado” que lo contenga, de amplitud
“a”, con sus frecuencias correspondientes.
Intervalos
de Edad
[18 – 20)
Fi
Fa
6
6
[20 –22)
13
19
[22 – 24)
6
25
[24 – 26)
3
28
[26 – 28)
2
30
HISTOGRAMA
Representación gráfica para variables
cuantitativas continuas
Consiste
en
una
serie
de
rectángulos cuyas bases,
de
longitud igual al tamaño de los
intervalos de clase, se ubican
sobre el eje horizontal (x)
Si los intervalos son iguales, la
altura de cada rectángulo es la
frecuencia de cada intervalo,
ubicada en el eje vertical (y)
Se escribe el nombre de cada
eje.
Edades de la muestra aleatoria de 30 alumnos
de Estadística Básica del 1er cuatrimestre de
2008
Tutorial para graficar histogramas con excel,
http://www.youtube.com/watch?v=92XSKX0FJCE
Es un gráfico de línea trazado
sobre las marcas de clase. Se
puede
obtener
uniendo
los
puntos medios de los techos de
los rectángulos del histograma.
Se acostumbra prolongar el
polígono hasta las marcas de
clase superior e inferior de
frecuencia cero y en ese
caso la suma de las áreas del
histograma y el polígono con
el eje x, son iguales.
Distribución de las edades de la muestra de
los
alumnos de Estadística del 1er cuatrimestre
de 2008
Permite comparar dos o
más
distribuciones
frecuencias.
de
Interés
hacia la
Si
Estadística
%
No
%
No Se
%
Total
Masculino
10
55,5
3
16,7
5
27,8
18
Femenino
6
50
2
16,7
4
33,3
12
Total
16
53,3
5
16,7
9
30
30
60
50
40
Masculino
Femenino
30
20
10
0
si
no
no se
total
Interés hacia la Estadística según sexo de
los alumnos. 1er cuatrimestre 2008.
Facultad de Ingeniería. UNMDP.
12
10
8
6
Recursan
4
No recursan
2
0
Me
interesa
No me
interesa
No se
INTERÉS DE LOS ALUMNOS HACIA LA ESTADÍSTICA SEGÚN SUS
CONOCIMIENTOS PREVIOS
Carrera Mecánica Electro Materiales Química
mecánica
Frecuencias
%
Alimentos
Industrial
3
5
1
12
6
3
10
16,7
3,3
40
20
10
Mecánica
Electromec.
Materiales
Química
Alimentos
Industrial
Matrícula según el tipo de carrera de los alumnos
de Estadística Básica del 1er cuat. 2008
PRIMERAS CONCLUSIONES
•La mayoría de los alumnos de esta muestra tienen entre 20 y
22 años.
•En cuanto al interés por la estadística, el 53% muestra interés,
pero hay aproximadamente un 30 % que no sabe si le interesa.
•Existe en esta muestra, un 40 % de alumnos con orientación en
química. Le siguen alimentos y electromecánica.
•El 73 % de los alumnos de la muestra no son recursantes.
•El 60% de los alumnos de la muestra son varones.
•Hasta ahora: un alumno típico de esta clase es un varón entre
20 y 22 años, con orientación en química, no recursante con
interés hacia la estadística y con aproximadamente 6 materias
aprobadas.
Una de las acepciones de la palabra población se refiere al
conjunto de unidades elementales con características
comunes observables.
En nuestro caso, son los todos los alumnos que cursan Estadística
Básica en esta Facultad.
Una unidad elemental es cada objeto o sujeto que observamos
de la población.
En este caso, cada alumno es una unidad elemental.
En una base de datos, cada unidad elemental corresponde a
cada fila.
Una muestra es un subconjunto de unidades elementales tomadas
de la población.
Aquella característica que se observa o se mide sobre las unidades
elementales, se denomina variable.
En una base de datos, las variables son las columnas.
Serie simple
Serie de frecuencias
Por intervalos
• Variables cualitativas
• Barras Simples (UNA SOLA VARIABLE)
• Diagramas Sectoriales (UNA SOLA VARIABLE)
• Barras Proporcionales (DOS VARIABLES)
• Barras Agrupadas (DOS VARIABLES)
• Variables cuantitativas
• Discretas
• Bastones
• Continuas
• Histograma
• Polígono de Frecuencias Simples
• Polígono de Frecuencias Acumuladas
¿POR QUÉ TIENE TAN MALA PRENSA LA
ESTADÍSTICA?
Si definimos las
variables y sus
categorías,
esa
categorización
no es única
y
depende de
la manera en
que
simplificamos la
realidad.
Esto significa que
un mismo
problema
estadístico
puede tener
muchas
resoluciones
posibles
y
distintas
interpretaciones.
Y eso
dependerá
esencialmente
de:
Cómo
definimos y
clasificamos las
variables.
y
Dónde
focalizamos
nuestra
atención.
Descargar