Una técnica para cuantificar expresiones probabilísticas

Anuncio
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
Una técnica para cuantificar expresiones
probabilísticas
Carlos Javier Barrera Causil1a, Juan Carlos Correa Morales2b
Email: cjbarrer@bt.unal.edu.co
a. Facultad de Ciencias Básicas, ITM (Instituto Tecnológico Metropolitano Institución
Universitaria), Medellín, Colombia.
Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia,
Medellín, Colombia.
b. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia,
Medellín, Colombia.
Resumen
En la comunicación, técnica y científica se usan expresiones tales como
frecuentemente, o ciertas veces, las cuales indican que la afirmación que
acompaña a dichas frases expresan un grado de incertidumbre. El proceso de
cuantificación de las comunicaciones que emplean expresiones cualitativas
para frecuencias o tasas de ocurrencias corren el riesgo de ser mal
interpretadas tanto por el emisor como el receptor sin importar su nivel de
formación, es por esto que este proceso requiere mucha atención.
En este trabajo se presenta una aplicación con el fin de cuantificar expresiones
probabilísticas a través de un rango de valores que representen el nivel de
certidumbre de cada expresión usando metodología Bayesiana.
Palabras clave: Probabilísticas, cuantificación, distribuciones, certidumbre.
A technique for quantifying probabilistic expressions
Carlos Javier Barrera Causil1a, Juan Carlos Correa Morales2b
Email: cjbarrer@bt.unal.edu.co
a. Facultad de Ciencias Básicas, ITM (Instituto Tecnológico Metropolitano Institución
Universitaria), Medellín, Colombia.
Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia,
Medellín, Colombia.
b. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia,
Medellín, Colombia.
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
Abstract
Everyday people use expressions such as frequently, or certain, which indicate
that the statements associated to the words, occur in fewer than 100% of their
opportunities. The process of quantify the expressions used in communications
that employ qualitative phrases for frequencies or rates of occurrence run the
risk of being misunderstood by both the emitter or receiver, which is why this
process requires much attention.
This paper presents an application in order to quantify probabilistic expressions
through a range of values represent the level of certainty of each expression
using Bayesian methodology.
Key words: Probabilistic, quantification, distribution, certain.
1. Introducción
En la comunicación, técnica y científica se usan expresiones tales como frecuentemente,
o ciertas veces, las cuales indican que la afirmación que acompaña a dichas frases
expresan un grado de incertidumbre. El proceso de cuantificación de las
comunicaciones que emplean expresiones cualitativas para frecuencias o tasas de
ocurrencias corren el riesgo de ser mal interpretadas tanto por el emisor como por el
receptor sin importar su nivel de formación, es por esto que este proceso requiere mucha
atención.
Mosteller y Youtz (1990) cuantificaron 52 expresiones probabilísticas, realizando el
estudio a una población conformada por personas de diferentes áreas, principalmente
estudiantes, médicos, otros trabajadores de la salud y científicos. Muchas de las
expresiones que utilizaron son adjetivos o adverbios de frecuencia. Éstas incluyen
frequent, infrequent, rare, probable, improbable, likely, unlikely, often, seldom, rarely,
unusual, occasionally, y todas sus formas modificadas. Sus intereses radicaban en saber
cómo estos términos son usados en la comunicación técnica de la información, y sus
objetivos eran mejorar la comunicación, para hacer de esta una actividad más precisa.
Su trabajo tiene dos fases. En la primera, ellos intentan determinar el significado de
estos términos para las personas que lo utilizan. En este estudio ellos encontraron por
ejemplo que frequent es usada para representar una probabilidad cerca de 0.72 con un
rango intercuartil de 0.15, es decir, si usted dice que algo es frequent entonces, según
ellos, está afirmando que esto se produce alrededor del 72% de las veces más o menos
7.5%. En la segunda fase codificaron una selección de esos términos de tal forma que se
pueda utilizar una interpretación uniforme.
La codificación tiene dos formas. La primera tiene que ver con la estimación puntual del
grado de certidumbre de la expresión en diferentes contextos, puesto que en algunas
áreas de trabajo pocas expresiones podrían ser usadas en todas las situaciones para
expresar el grado de pensamiento o frecuencia relativa. Por ejemplo, Kent (1949)
codificó algunas expresiones en el campo de la inteligencia en términos de Odds. Una
segunda forma de codificación tiene que ver con establecer rangos de números para un
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
conjunto de expresiones probabilísticas con el fin de establecer cierta precisión en el
lenguaje. Un problema fundamental en la cuantificación es distinguir entre el
significado de la palabra y el uso de ésta, pues una palabra puede cambiar su
interpretación de una situación a otra.
En este trabajo se presenta una aplicación con el fin de cuantificar expresiones
probabilísticas a través de un rango de valores que representen el nivel de certidumbre
de cada expresión usando metodología Bayesiana. Se utilizará una herramienta gráfica
de elicitación para cuantificar 4 expresiones probabilísticas o frecuentistas bajo distintos
contextos, aplicando este procedimiento a 20 profesionales de las ciencias e ingenierías.
2. Métodos
El proceso de cuantificación de 52 expresiones probabilísticas realizado por Mosteller y
Youtz (1990) se llevó a cabo a través de 637 cuestionarios vía mail, obteniendo una tasa
de respuesta del 37%. Los participantes primero fueron cuestionados para que anotaran
la probabilidad (como un porcentaje expresado en la unidad más próxima de 0 a 100)
que ellos de manera particular le asignaban a cada expresión, y segundo, a los
encuestados se les pidió que dieran un rango de probabilidades tal que ellos a través de
su conocimiento podían asociar a las expresiones. El rango dado da una idea acerca de
la variabilidad asociada con una expresión.
En este trabajo se utiliza una herramienta gráfica de elicitación para cuantificar 4
expresiones probabilísticas o frecuentistas bajo distintos contextos, aplicando este
procedimiento a 20 profesionales de las ciencias e ingenierías. Además, se hace uso de
la suavización spline con el fin de construir una función que represente el nivel de
certidumbre que cada participante tiene acerca de las posibles probabilidades asignadas
a las frases en estudio.
La técnica de elicitación permite extraer y cuantificar el grado de pensamiento o
creencia acerca de una afirmación y convertirlo en una forma útil. Este proceso de
capturar el conocimiento de una persona y la creencia acerca de una o más cantidades
desconocidas dentro de una distribución de probabilidad tiene un problema muy
complejo, y es cómo cuantificar la información obtenida por el experto, (Adams 2005).
Es importante distinguir entre la calidad de un conocimiento de expertos y la precisión
con la cual el conocimiento es trasladado a forma probabilística. Una elicitación es
considerada como buena si la distribución que es obtenida con precisión representa el
conocimiento de los expertos, (Garthwaite, et al. 2002).
La suavización de un conjunto de n datos (xi , y i ) para i = 1,2,..., n . Consiste en
aproximar la función g en la siguiente relación de regresión.
y i = g ( xi ) + ε i
Donde g es la curva de respuesta media, y ε es el error aleatorio, que es llamado
"noise". En regresión lineal g ( xi ) = α + βxi y para efectos de hacer inferencia se asume
que ε se distribuye normalmente. En regresión no paramétrica, la forma de la función
g y la distribución de los errores es determinada usando los datos que se han tomado.
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
Un spline de regresión es una aproximación a una curva desconocida, de la cual sólo se
conocen algunos putos observados a través de la unión continua de polinomios cúbicos
en puntos que se conocen como nodos.
Los splines se ajustan a los puntos observados al cambiar los coeficientes de los
polinomios. Por esta razón, el ajuste de una curva a partir de splines es simplemente una
regresión no lineal donde las variables independientes son los splines.
Un número “grande” de nodos o un “sobreajuste” nos indica que mejor será la
aproximación de la curva, también se tiene que si los nodos se localizan exactamente
sobre un punto observado, la curva spline se ajusta perfectamente al dato observado en
el citado punto Forsythe, G. E. y otros (1977).
3. Ejemplo
Un problema inicial al cual se enfrentó para cuantificar expresiones probabilísticas tiene
que ver con la búsqueda de las mismas, ya que en muchas ocasiones las personas
tienden a buscar una relación entre la frase en estudio y los hechos del momento, por
ejemplo, si utilizamos la expresión “posiblemente lloverá mañana” y en la actualidad
nos encontramos en una época de verano, el encuestado tiende a subestimar en términos
probabilísticos el verdadero valor correspondiente a la palabra posiblemente en la frase,
es por esto que la selección adecuada de las frases es muy importante en este tipo de
estudios.
Las cuatro frases utilizadas en este estudio son: “Posiblemente obtendremos un triunfo
si le apostamos al caballo negro”, “es muy raro que un paciente menor de 20 años
desarrolle osteoporosis”, “es poco posible que el candidato X gane en las encuestas”,
“a menudo un hijo de un fumador desarrolla el hábito de fumar”. Note que el interés
es cuantificar en términos probabilísticos las palabras que se encuentran resaltadas en
negrita bajo el contexto que expone la frase que la contiene.
Para cumplir con los objetivos del estudio, se realizó un procedimiento de elicitación
usando un método gráfico conformado por el primer cuadrante de un plano cartesiano
en el cual en el eje X se tiene las probabilidades de 0 a 1 asociadas a la palabra
resaltada en la expresión, y en el eje Y una escala cualitativa ordinal que representa el
nivel de seguridad que el participante tiene acerca de la palabra de interés bajo el
contexto que involucra la frase. A cada participante se le explicó detalladamente el
objetivo del estudio, pues ellos debían anotar puntos (corresponden a alturas sobre el eje
Y ) que representen el nivel de seguridad que tenían acerca de distintas probabilidades
las cuales serían asignadas a la palabra resaltada en la frase en estudio.
Luego de obtener la información captada a través del método gráfico, se obtiene una
función que represente la distribución de los puntos en cada uno de éstos, el método de
suavización spline nos muestra dicho comportamiento.
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
4. Resultados y discusión
100
80
60
40
20
0
0
20
40
60
80
100
En los resultados que se muestran a continuación solo se grafican las estimaciones de 8
de los 20 encuestados, con el fin de no saturar el grafico y mostrando así una tendencia
general de las respuestas obtenidas. Usamos interpolación spline cúbica para poder
obtener las curvas que se muestran en las figuras 1, 2, 3 y 4.
0.0
0.2
0.4
0.6
0.8
Probabilidad asociada a la expresión
0.2
0.4
0.6
0.8
1.0
Probabilidad asociada a la expresión
Figura 1: Cuantificación de la expresión: “Posiblemente obtendremos un triunfo si le apostamos al
caballo negro”
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
100
80
60
40
20
0
0
20
40
60
80
100
_______________________________________________
0.2
0.3
0.4
0.5
0.6
Probabilidad asociada a la expresión
0.0
0.2
0.4
0.6
0.8
1.0
Probabilidad asociada a la expresión
Figura 2: Cuantificación de la expresión: “Es muy raro que un paciente menor de 20 años desarrolle
osteoporosis”
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
100
80
60
40
20
0
0
20
40
60
80
100
_______________________________________________
0.0
0.2
0.4
0.6
0.8
Probabilidad asociada a la expresión
0.0
0.2
0.4
0.6
0.8
1.0
Probabilidad asociada a la expresión
Figura 3: Cuantificación de la expresión: “Es poco posible que el candidato X gane en las encuestas”
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
100
80
60
40
20
0
0
20
40
60
80
100
_______________________________________________
0.2
0.4
0.6
0.8
Probabilidad asociada a la expresión
0.2
0.4
0.6
0.8
1.0
Probabilidad asociada a la expresión
Figura 4: Cuantificación de la expresión: “A menudo un hijo de un fumador desarrolla el hábito de
fumar”
Para la expresión “Posiblemente obtendremos un triunfo si le apostamos al caballo
negro” que se encuentra cuantificada en la figura 1, se puede notar que no todos los
participantes tienen la misma percepción acerca de la probabilidad atribuida a la palabra
posiblemente en las frase, pues un grupo de curvas se centra en el rango de
probabilidades (0.4 - 0.6), y otro grupo entre (0.6 - 0.9) aproximadamente. De manera
general se puede ver que para cada una de las frases en estudio en los diferentes
contextos tiende a haber grandes diferencias en cuanto al verdadero significado que le
atribuyen los encuestados a las palabras resaltadas en dicha expresión. Claramente esto
nos indica que en nuestra comunicación científica diaria podrían existir serias
diferencias en la interpretación de muchas frases, lo cual lleva a distorsionar la
información de manera considerable.
Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos”
VI Coloquio Regional de Estadística
XII Seminario de Estadística Aplicada IASI
III Escuela de Verano CEAES
Medellín, 20-23 de Julio de 2010
_______________________________________________
Cabe notar que en la expresión “A menudo un hijo de un fumador desarrolla el hábito
de fumar” fue donde menos diferencias hubo en cuanto a la cuantificación asignada por
los participantes.
Es importante resaltar que es necesario comparar la efectividad del presente método
gráfico con respecto a otros métodos que permitan la cuantificación de dichas
expresiones, pero esta comparación se debe realizar utilizando frases que se encentren
en el idioma español, puesto que es inadecuado realizar esta tarea bajo idiomas
distintos, pues una simple palabra puede tener múltiples traducciones.
5. Referencias
[1] Adams, F. (2005), “Expert elicitation and Bayesian analysis of construction contract risks:
an investigation”, Construction Management and Economics 24, 81–96.
[2] Forsythe, G. E., Malcolm, M. A. and Moler, C. B.(1977) Computer Methods for
Mathematical Computations.
[3] Garthwaite, P; Kadane, J. & O’Hagan, A. (2002), “Statistical Methods for Eliciting
Probability Distributions”, Journal of the American Statistical Association 100(470).
[4] Kent, S (1949). Strategic Intelligence. Princeton Univ. Press, Princeton, N.J.
[5] Mosteller, F and Youtz, C. (1990). Quantifying probabilistic expressions. Statistical Science.
Vol 5, No 1, 2-34.
Descargar