MI4040. - U

Anuncio
MI4040 Análisis Estadístico y
Geoestadístico de Datos.
Proyecto 1
Integrantes
Angel Báez C.
Ignacio Farías G.
Profesor
Xavier Emery.
Responsable de que el informe esté completo:
Responsable de la redacción, ortografía y puntuación:
Responsable del resumen en inglés:
Santiago de Chile
13 de Octubre de 2014
1 ABSTRACT
Para poder aprovechar el diseño de esta plantilla, use la galería de estilos de la pestaña Inicio. Puede dar
formato a los encabezados mediante los estilos de encabezado o resaltar texto importante con otros
estilos, como Énfasis o Cita destacada. Estos estilos ya vienen preparados para ofrecer el mejor aspecto
juntos y para ayudarle a comunicar sus ideas.
Continúe para probarlo.
2 CONTENIDO
1
Abstract ................................................................................................................................................. 2
3
RESUMEN .............................................................................................................................................. 4
4
INTRODUCCIÓN..................................................................................................................................... 5
4.1
5
Objetivos ....................................................................................................................................... 5
MARCO TEÓRICO .................................................................................................................................. 6
5.1
6
Conceptos Básicos de la Estadística .............................................................................................. 6
Desarrollo ............................................................................................................................................ 14
6.1
7
Estudio Exploratorio de Datos .................................................................................................... 14
6.1.1
Outliers ................................................................................................................................ 14
6.1.2
Estadística Descriptiva ........................................................................................................ 14
Modelo Predictivo de la Ley de Plata en Función de la Ley de Oro y la Potencia .............................. 15
7.1
Modelo 1 ..................................................................................................................................... 15
7.2
Modelo 2 ..................................................................................................................................... 15
7.3
Modelo 3 ..................................................................................................................................... 15
7.4
Modelo 4 ..................................................................................................................................... 15
7.5
Análisis de los Modelos .................................................................. Error! Bookmark not defined.
8
modelo Predictivo de la Ley de Oro en Función de las Coordenadas ................................................. 16
9
CONCLUSIONES ................................................................................................................................... 17
10
REFERENCIAS................................................................................................................................... 18
3 RESUMEN
4 INTRODUCCIÓN
En el siguiente informe se estudia una base de datos que contiene la información de sondajes
realizados en un yacimiento aurífero-argentífero ubicado a una altura promedio de 1800
m.s.n.m. La mineralización se ubica en una veta aproximadamente vertical de pocos metros de
potencia en la dirección este-oeste. La base de datos reúne información geo-metalúrgica como
ley de oro, ley de plata, potencia y coordenadas geográficas.
Basados en métodos estadísticos se busca interpretar y predecir el comportamiento de la ley de
oro en función de las coordenadas y de la ley de plata en función de la ley de oro y la potencia.
Para lograr el objetivo se utilizaran test y criterios de selección para eliminar posibles datos
outlier. Además se hará uso de herramientas estadísticas de Excel para obtener los modelos y
predecir su posible factibilidad.
4.1 OBJETIVOS





Realizar un estudio exploratorio de los datos; detectar eventuales anomalías o errores.
Para cada dato, determinar la desviación estándar del error en las acumulaciones de oro y
plata.
Construir un modelo predictivo de la ley de plata en función de la ley de oro y la potencia.
Construir un modelo predictivo de la ley de oro en función de las coordenadas.
Analizar la significancia de los modelos predictivos anteriores.
5 MARCO TEÓRICO
5.1 CONCEPTOS BÁSICOS DE LA ESTADÍSTICA
A continuación se describen algunos conceptos claves para la buena comprensión del presente
informe.
Histograma.
El histograma en un gráfico de barras de una distribución de frecuencia, las clases se miden en
el eje de abscisa, mientras que el número de observaciones o frecuencias se miden en el eje de
la ordenada. Es una herramienta útil para representar gráficamente la variabilidad de los datos
y obtener una estimación gráfica del “centro” y la forma de su distribución de frecuencia.
Variable aleatoria.
Una variable aleatoria X es una magnitud que, a todo elemento del universo, asocia un valor
numérico o realización en R (variable aleatoria continua) o N (variable discreta entera). Una
variable aleatoria X se caracteriza por una función de distribución de probabilidad.
P(x)=Prob(X <x)
Se suele considerar parámetros sintéticos (llamados “momentos”) para describirla distribución
de probabilidad:



ESPERANZA O VALOR ESPERADO: Representa el valor promedio de la distribución.
VARIANZA: Mide la dispersión de la distribución.
DESVIACIÓN ESTÁNDAR: Es la raíz cuadrada de la varianza (s).
Distribución de frecuencia.
La distribución de frecuencia fracciona los datos en grupos o clases e indica el número de
observaciones en cada clase, o el número de observaciones en cada clase dividido por el
número total de observaciones.
Distribuciones bivariables.
Consiste en asociar a cada experimento dos variables aleatorias X e Y (no necesariamente
independientes).Para describir cómo se distribuyen y cómo se relacionan las dos variables X e Y,
se generaliza la definición de la función de distribución al caso bivariable:
P(x, y)=Prob(X <x,Y<y)
Experimentalmente, la distribución bivariable entre X e Y se puede representar común
diagrama de dispersión (también conocido como nube de dispersión o nube de correlación). En
caso de existir una relación potencial de causa y efecto entre las variables, este diagrama sirve
para entender la naturaleza estadística de la causalidad.
Imagen 1: Ejemplo de nube de dispersión
Distribuciones multivariable.
Para describir cómo se distribuyen conjuntamente varias variables 𝑋1,…,𝑋𝑛 se define la función
de distribución multivariable:
P(𝑥1 ,…,𝑥𝑛 )= Prob(𝑋1<𝑥1 ,...,𝑋𝑛 <𝑥𝑛 )
Inferencia estadística.
A partir de las características (media, varianza, etc.) observadas en una muestra, se desea
inferir sobre toda la población.
Se dispone de una muestra independiente (X1,... Xn) procedente de una variable aleatoria X
cuya distribución depende de un parámetro Θ desconocido(o de varios parámetros). Se busca
un estadístico T = ϕ(X1,... Xn) tal que el valor observado pueda ser considerado una estimación
de Θ. La variable aleatoria T se llama estimador de Θ. La función ϕ no debe depender
analíticamente del parámetro a estimar.
𝜃̂ = 𝜑(𝑥1 , … , 𝑥𝑛 )
Intervalos de confianza.
En la práctica, es común buscar acotar el valor de Θ, definiendo dos límites y precisando el
grado de confianza en el intervalo entre estos límites.
Valor atípico.
Son datos con valores extremos que afectan considerablemente las estadísticas básicas y
generan problemas al aplicar regresión o construir modelos predictivos. Podrían ser datos
erróneos (outlier) o aberrantes (debido a una falla accidental del sistema de medición).
Precisión.
Mide la dispersión de una medición y puede expresarse bajo la forma de una desviación
estándar (o de una varianza). Una baja precisión implica incertidumbre y reduce la confianza
que uno tiene en una medición.
Exactitud.
Mide la desviación de la medición con respecto al resultado correcto. Mediciones inexactas
implican la existencia de sesgos (errores sistemáticos), debidos a errores instrumentales,
muestreos no representativos, equivocaciones, etc.
Test de hipótesis.
El test se basa en la formulación de una hipótesis sobre parámetros de las muestras o sobre su
distribución, y una prueba estadística de su validez.
Sólo se testea una hipótesis con respecto a otras posibilidades. Es necesario precisar cuál es la
hipótesis alternativa (H1) con la cual se compara la hipótesis testeada (llamada hipótesis nula y
denotada como H0). En importante destacar que la hipótesis nula es la que se privilegia, es
decir, se presumirá válida salvo si existe una fuerte evidencia para probar lo contrario (en cuyo
caso, se rechazará la hipótesis nula en favor de la hipótesis alternativa). La elección de la
hipótesis nula es por ende muy importante, dado que los test estadísticos siempre tienden a
favorecer el status quo.
Test de outliers.
Un outlier es un valor atípico o inusual. La pregunta que uno se plantea es si se puede o no
eliminar este dato atípico. La respuesta más simple y conservadora es la negativa, a menos que
uno encuentra una explicación física del outlier (error instrumental, muestra contaminada,
error de trascripción del dato, etc.). Ahora, es posible diseñar un test estadístico para saber si
este dato proviene de la misma población que los demás, luego para corroborar la decisión de
remover o no el outlier.
Test de Grubb (Outliers).
Dada una muestra de tamaño n, media experimental 𝑋̅ y varianza experimental 𝑆 2 , se
considera la siguiente variable:
𝐺=
𝑀𝑎𝑥(|𝑋 − 𝑋̅)
𝑆
y se compara su valor con un valor crítico que depende del tamaño de la muestra y del
riesgo asumido. La hipótesis 𝐻0 de no tener outlier se rechaza si:
𝐺>
𝑛−1
√𝑛
√
2
𝑡𝑛−2,𝛼/2𝑛
2
𝑛 − 2 + 𝑡𝑛−2,𝛼/2𝑛
Donde 𝑡𝑛,𝛼 representa el valor de la distribución de Student con n grados de libertad
que corresponde a una probabilidad acumulada 1 – α.
Test de Chi cuadrado para distribuciones.
Permite determinar si las frecuencias observadas en cada una de k clases de una muestra de
datos ( 𝑂𝑖 ) son significativamente distintas de las frecuencias esperadas ( 𝐸𝑖 ) bajo un
determinado modelo de distribución. Si el modelo de distribución postulado es correcto, la
variable sigue una distribución de Chi cuadrado con (k-1) grados de libertad.
𝑘
2
𝜒 =∑
𝑖=1
Test de independencia.
(𝑂𝑖 − 𝐸𝑖 )2
𝐸𝑖
Supongamos que n individuos poseen dos variables A y B, las cuales pueden tener ciertas
modalidades (exclusivas), A1…Ar y B1…Bs.
La tabla de contingencia contiene r columnas y s filas. En la columna i y la fila j, se halla el
número nij que representa las modalidades Ai y Bj simultáneamente.
La hipótesis nula (𝐻0 ) consiste en suponer que A y B son independientes. Bajo esta hipótesis, la
probabilidad teórica de pertenecer a la casilla {i,j} de la tabla de contingencia, es el producto de
las probabilidades individuales de encontrar las modalidades 𝐴𝑖 y 𝐵𝑗 .
𝑝𝑖𝑗 = 𝑝𝑖 ∗ 𝑝𝑗
Las probabilidades se estiman por máximo de verosimilitud
𝑝̂𝑖∙=
𝑛𝑖.
𝑛
𝑝̂.𝑗=
𝑛.𝑗
𝑛
Para medir la diferencia entre lo estimado y lo observado, se considera el estadístico
𝑟
𝑠
(𝑛𝑖𝑗 − 𝑛𝑝̂ 𝑖∙ 𝑝̂ .𝑗 )2
𝐷 = ∑∑
𝑛𝑝̂ 𝑖∙ 𝑝̂.𝑗
2
𝑖=1 𝑗=1
El cual, bajo la hipótesis 𝐻0 , sigue un chi cuadrado con (r-1)(s-1) grados de libertad. Se
rechazará la hipótesis de independencia si el valor encontrado para D2 es mayor que el valor
crítico para el riesgo asumido.
Test de Student.
Permiten comparar las medias de poblaciones de datos con distribución Gaussiana (normal) de
media y varianza constantes para todos los individuos.
Test de Student para dos medias con varianzas distintas.
Hipótesis nula: μ1 = μ2
Hipótesis alternativa: μ1≠μ2
La variable 𝑇 =
̅̅̅̅−𝑋2
̅̅̅̅
𝑋1
2
2
𝑛1
𝑛2
√𝑆1 +𝑆2
tiene una distribución aproximadamente de student, con un número
de grados de libertad igual a: 𝜈 =
2
𝑆12 𝑆22
)
+
𝑛1 𝑛2
2
2
(𝑆12 /𝑛1)
(𝑆22 /𝑛2)
+
𝑛1−1
𝑛2−1
(
Modelamiento matemático.
Un modelo matemático permite describir las relaciones entre variables que han sido medidas
en un conjunto de datos. La construcción de modelos es un proceso creativo que depende de la
experiencia del modelador, sus preferencias e intuiciones, así como del objetivo para el cual se
construye el modelo.
Mínimos cuadrados.
Supongamos que se dispone de N datos {yi, i = 1… N} de una variable “y”. Dado que existen
errores de medición, ya sea por el aparato de medición o por la “aleatoriedad” del proceso
medido, estos datos se consideran como variables aleatorias de desviaciones estándares {σi, i =
1… N}. Dichas desviaciones miden la precisión de los datos y pueden estimarse si se dispone de
réplicas en las mediciones.
Se desea ajustar estos datos de modo de estimar los valores ŷi= 1… N} que se tendrían si no
hubiese ningún error de medición. Una manera de ajustar los datos es minimizar la suma de los
errores cuadráticos:
Nube de correlación (o diagrama de dispersión).
Permite ver la relación de dependencia entre dos variables y detectar eventuales datos
anómalos.
Coeficiente de correlación.
Este coeficiente resume la relación lineal (de proporcionalidad) existente entre dos variables X
e Y por un valor comprendido entre –1 y 1. No permite detectar relaciones no lineales entre las
variables y es sensible a la presencia de valores extremos.
Coeficiente de determinación multiple.
Este coeficiente, comprendido entre 0 y 1, mide cuánto se explica la variable y al utilizar el
modelo de regresión con las variables x. Cuando se aumenta el número M de variables x, el
coeficiente de determinación múltiple aumenta y se acerca a 1. Por ende, solo permite
comparar modelos del mismo nivel, es decir, con el mismo número de variables explicativas.
𝑅2 =
𝑆𝑅
𝑆
=1−
𝑆𝐸
𝑆
Coeficiente de determinación múltiple ajustado.
Introduce un castigo por el número de parámetros a estimar (nivel de regresión). Este
coeficiente no siempre aumenta al incluir variables explicativas; de hecho, si las variables están
consideradas, es muy probable que baje.
𝑅′2 = 1 −
𝑆𝐸/(𝑁 − 𝑀)
𝑆/(𝑁 − 1)
6 DESARROLLO
6.1 ESTUDIO EXPLORATORIO DE DATOS
6.1.1
Outliers
6.1.2
Estadística Descriptiva
7 MODELO PREDICTIVO DE LA LEY DE PLATA EN FUNCIÓN DE LA LEY DE ORO
Y LA POTENCIA
Sean las variables:
𝑌: 𝐿𝑒𝑦 𝑑𝑒 𝑝𝑙𝑎𝑡𝑎
𝑋: 𝐿𝑒𝑦 𝑑𝑒 𝑜𝑟𝑜
𝑍: 𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎
Además, suponemos que si no existe ley de oro ni dato de la potencia no debería existir ley de plata, en
otras palabras se impone intercepto igual a 0 en todos los modelos.
7.1 MODELO 1
La forma más simple del modelo busca relacionar las variables de manera lineal, ósea exponentes
de las variables independientes igual a 1:
𝑌 = 𝑎∗𝑋+𝑏∗𝑍
7.2 MODELO 2
En este caso se agregan grados al polinomio logrando el siguiente modelo:
𝑌 = 𝑎 ∗ 𝑋2 + 𝑏 ∗ 𝑋 + 𝑐 ∗ 𝑍 + 𝑑 ∗ 𝑍2
7.3 MODELO 3
Se agrega la variable acumulación como producto de la ley de oro y la potencia y se vuelven a
subir los grados de los polinomios:
𝑌 = 𝑎 ∗ 𝑋 2 + 𝑏 ∗ 𝑋 + 𝑐 ∗ 𝑋 3 + 𝑑 ∗ 𝑍 + 𝑒 ∗ 𝑍 2 + 𝑓 ∗ (𝑋 ∗ 𝑌)
7.4 MODELO 4
Se trabaja con las variables anteriores pero se realiza la regresión para los logaritmos naturales de
las leyes privilegiando los polinomios de bajo grado:
ln(𝑌) = 𝑎 ∗ ln(𝑋) + 𝑏 ∗ (𝑋 ∗ 𝑌)
⟹ 𝑌 = 𝑋 𝑎 + 𝑒 𝑏(𝑋∗𝑌)
7.5 MODELO 5
A modo de ver cómo afectan los grados del polinomio a la regresión se realiza un modelo con
exponentes mayores:
ln(𝑌) = 𝑎 ∗ ln(𝑋) + 𝑏 ∗ ln(𝑋)2 + 𝑐 ∗ (𝑋 ∗ 𝑌)
⟹ 𝑌 = 𝑋 𝑎 + 𝑒 𝑏∗ln(𝑋)
2 +𝑐(𝑋∗𝑌)
7.6 ANÁLISIS DE LOS MODELOS
8 MODELO PREDICTIVO DE LA LEY DE ORO EN FUNCIÓN DE LAS
COORDENADAS
Sean las variables:
𝑌: 𝐿𝑒𝑦 𝑑𝑒 𝑜𝑟𝑜
𝑋: 𝐶𝑜𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎 𝐸𝑠𝑡𝑒[𝑚]
𝑍: 𝐶𝑜𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎 𝑁𝑜𝑟𝑡𝑒[𝑚]
Para este caso se también se impone intercepto igual a 0.
8.1 MODELO 1
La forma más simple del modelo busca relacionar las variables de manera lineal, ósea exponentes
de las variables independientes igual a 1:
𝑌 = 𝑎∗𝑋+𝑏∗𝑍
8.2 MODELO 2
En este caso se agregan grados al polinomio logrando el siguiente modelo:
En este caso se agregan grados al polinomio logrando el siguiente modelo:
𝑌 = 𝑎 ∗ 𝑋2 + 𝑏 ∗ 𝑋 + 𝑐 ∗ 𝑍 + 𝑑 ∗ 𝑍2
8.3 MODELO 3
Para intentar graficar que la ley varia más en un eje que en el otro se deja el grado mayor en solo
una coordenada:
𝑌 = 𝑎 ∗ 𝑋 + 𝑏 ∗ 𝑍 + 𝑐 ∗ 𝑍2
8.4 MODELO 4
Se intenta buscar una relación entre las leyes y las coordenadas del punto de medición
inmediatamente anterior:
𝑌 = 𝑎 ∗ 𝑋𝑖 + 𝑏 ∗ 𝑋𝑖−1 + 𝑐 ∗ 𝑍𝑖 + 𝑑 ∗ 𝑍𝑖−1
9 CONCLUSIONES
10 REFERENCIAS
Descargar