Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ Una técnica para cuantificar expresiones probabilísticas Carlos Javier Barrera Causil1a, Juan Carlos Correa Morales2b Email: cjbarrer@bt.unal.edu.co a. Facultad de Ciencias Básicas, ITM (Instituto Tecnológico Metropolitano Institución Universitaria), Medellín, Colombia. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia. b. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia. Resumen En la comunicación, técnica y científica se usan expresiones tales como frecuentemente, o ciertas veces, las cuales indican que la afirmación que acompaña a dichas frases expresan un grado de incertidumbre. El proceso de cuantificación de las comunicaciones que emplean expresiones cualitativas para frecuencias o tasas de ocurrencias corren el riesgo de ser mal interpretadas tanto por el emisor como el receptor sin importar su nivel de formación, es por esto que este proceso requiere mucha atención. En este trabajo se presenta una aplicación con el fin de cuantificar expresiones probabilísticas a través de un rango de valores que representen el nivel de certidumbre de cada expresión usando metodología Bayesiana. Palabras clave: Probabilísticas, cuantificación, distribuciones, certidumbre. A technique for quantifying probabilistic expressions Carlos Javier Barrera Causil1a, Juan Carlos Correa Morales2b Email: cjbarrer@bt.unal.edu.co a. Facultad de Ciencias Básicas, ITM (Instituto Tecnológico Metropolitano Institución Universitaria), Medellín, Colombia. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia. b. Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia. Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ Abstract Everyday people use expressions such as frequently, or certain, which indicate that the statements associated to the words, occur in fewer than 100% of their opportunities. The process of quantify the expressions used in communications that employ qualitative phrases for frequencies or rates of occurrence run the risk of being misunderstood by both the emitter or receiver, which is why this process requires much attention. This paper presents an application in order to quantify probabilistic expressions through a range of values represent the level of certainty of each expression using Bayesian methodology. Key words: Probabilistic, quantification, distribution, certain. 1. Introducción En la comunicación, técnica y científica se usan expresiones tales como frecuentemente, o ciertas veces, las cuales indican que la afirmación que acompaña a dichas frases expresan un grado de incertidumbre. El proceso de cuantificación de las comunicaciones que emplean expresiones cualitativas para frecuencias o tasas de ocurrencias corren el riesgo de ser mal interpretadas tanto por el emisor como por el receptor sin importar su nivel de formación, es por esto que este proceso requiere mucha atención. Mosteller y Youtz (1990) cuantificaron 52 expresiones probabilísticas, realizando el estudio a una población conformada por personas de diferentes áreas, principalmente estudiantes, médicos, otros trabajadores de la salud y científicos. Muchas de las expresiones que utilizaron son adjetivos o adverbios de frecuencia. Éstas incluyen frequent, infrequent, rare, probable, improbable, likely, unlikely, often, seldom, rarely, unusual, occasionally, y todas sus formas modificadas. Sus intereses radicaban en saber cómo estos términos son usados en la comunicación técnica de la información, y sus objetivos eran mejorar la comunicación, para hacer de esta una actividad más precisa. Su trabajo tiene dos fases. En la primera, ellos intentan determinar el significado de estos términos para las personas que lo utilizan. En este estudio ellos encontraron por ejemplo que frequent es usada para representar una probabilidad cerca de 0.72 con un rango intercuartil de 0.15, es decir, si usted dice que algo es frequent entonces, según ellos, está afirmando que esto se produce alrededor del 72% de las veces más o menos 7.5%. En la segunda fase codificaron una selección de esos términos de tal forma que se pueda utilizar una interpretación uniforme. La codificación tiene dos formas. La primera tiene que ver con la estimación puntual del grado de certidumbre de la expresión en diferentes contextos, puesto que en algunas áreas de trabajo pocas expresiones podrían ser usadas en todas las situaciones para expresar el grado de pensamiento o frecuencia relativa. Por ejemplo, Kent (1949) codificó algunas expresiones en el campo de la inteligencia en términos de Odds. Una segunda forma de codificación tiene que ver con establecer rangos de números para un Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ conjunto de expresiones probabilísticas con el fin de establecer cierta precisión en el lenguaje. Un problema fundamental en la cuantificación es distinguir entre el significado de la palabra y el uso de ésta, pues una palabra puede cambiar su interpretación de una situación a otra. En este trabajo se presenta una aplicación con el fin de cuantificar expresiones probabilísticas a través de un rango de valores que representen el nivel de certidumbre de cada expresión usando metodología Bayesiana. Se utilizará una herramienta gráfica de elicitación para cuantificar 4 expresiones probabilísticas o frecuentistas bajo distintos contextos, aplicando este procedimiento a 20 profesionales de las ciencias e ingenierías. 2. Métodos El proceso de cuantificación de 52 expresiones probabilísticas realizado por Mosteller y Youtz (1990) se llevó a cabo a través de 637 cuestionarios vía mail, obteniendo una tasa de respuesta del 37%. Los participantes primero fueron cuestionados para que anotaran la probabilidad (como un porcentaje expresado en la unidad más próxima de 0 a 100) que ellos de manera particular le asignaban a cada expresión, y segundo, a los encuestados se les pidió que dieran un rango de probabilidades tal que ellos a través de su conocimiento podían asociar a las expresiones. El rango dado da una idea acerca de la variabilidad asociada con una expresión. En este trabajo se utiliza una herramienta gráfica de elicitación para cuantificar 4 expresiones probabilísticas o frecuentistas bajo distintos contextos, aplicando este procedimiento a 20 profesionales de las ciencias e ingenierías. Además, se hace uso de la suavización spline con el fin de construir una función que represente el nivel de certidumbre que cada participante tiene acerca de las posibles probabilidades asignadas a las frases en estudio. La técnica de elicitación permite extraer y cuantificar el grado de pensamiento o creencia acerca de una afirmación y convertirlo en una forma útil. Este proceso de capturar el conocimiento de una persona y la creencia acerca de una o más cantidades desconocidas dentro de una distribución de probabilidad tiene un problema muy complejo, y es cómo cuantificar la información obtenida por el experto, (Adams 2005). Es importante distinguir entre la calidad de un conocimiento de expertos y la precisión con la cual el conocimiento es trasladado a forma probabilística. Una elicitación es considerada como buena si la distribución que es obtenida con precisión representa el conocimiento de los expertos, (Garthwaite, et al. 2002). La suavización de un conjunto de n datos (xi , y i ) para i = 1,2,..., n . Consiste en aproximar la función g en la siguiente relación de regresión. y i = g ( xi ) + ε i Donde g es la curva de respuesta media, y ε es el error aleatorio, que es llamado "noise". En regresión lineal g ( xi ) = α + βxi y para efectos de hacer inferencia se asume que ε se distribuye normalmente. En regresión no paramétrica, la forma de la función g y la distribución de los errores es determinada usando los datos que se han tomado. Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ Un spline de regresión es una aproximación a una curva desconocida, de la cual sólo se conocen algunos putos observados a través de la unión continua de polinomios cúbicos en puntos que se conocen como nodos. Los splines se ajustan a los puntos observados al cambiar los coeficientes de los polinomios. Por esta razón, el ajuste de una curva a partir de splines es simplemente una regresión no lineal donde las variables independientes son los splines. Un número “grande” de nodos o un “sobreajuste” nos indica que mejor será la aproximación de la curva, también se tiene que si los nodos se localizan exactamente sobre un punto observado, la curva spline se ajusta perfectamente al dato observado en el citado punto Forsythe, G. E. y otros (1977). 3. Ejemplo Un problema inicial al cual se enfrentó para cuantificar expresiones probabilísticas tiene que ver con la búsqueda de las mismas, ya que en muchas ocasiones las personas tienden a buscar una relación entre la frase en estudio y los hechos del momento, por ejemplo, si utilizamos la expresión “posiblemente lloverá mañana” y en la actualidad nos encontramos en una época de verano, el encuestado tiende a subestimar en términos probabilísticos el verdadero valor correspondiente a la palabra posiblemente en la frase, es por esto que la selección adecuada de las frases es muy importante en este tipo de estudios. Las cuatro frases utilizadas en este estudio son: “Posiblemente obtendremos un triunfo si le apostamos al caballo negro”, “es muy raro que un paciente menor de 20 años desarrolle osteoporosis”, “es poco posible que el candidato X gane en las encuestas”, “a menudo un hijo de un fumador desarrolla el hábito de fumar”. Note que el interés es cuantificar en términos probabilísticos las palabras que se encuentran resaltadas en negrita bajo el contexto que expone la frase que la contiene. Para cumplir con los objetivos del estudio, se realizó un procedimiento de elicitación usando un método gráfico conformado por el primer cuadrante de un plano cartesiano en el cual en el eje X se tiene las probabilidades de 0 a 1 asociadas a la palabra resaltada en la expresión, y en el eje Y una escala cualitativa ordinal que representa el nivel de seguridad que el participante tiene acerca de la palabra de interés bajo el contexto que involucra la frase. A cada participante se le explicó detalladamente el objetivo del estudio, pues ellos debían anotar puntos (corresponden a alturas sobre el eje Y ) que representen el nivel de seguridad que tenían acerca de distintas probabilidades las cuales serían asignadas a la palabra resaltada en la frase en estudio. Luego de obtener la información captada a través del método gráfico, se obtiene una función que represente la distribución de los puntos en cada uno de éstos, el método de suavización spline nos muestra dicho comportamiento. Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ 4. Resultados y discusión 100 80 60 40 20 0 0 20 40 60 80 100 En los resultados que se muestran a continuación solo se grafican las estimaciones de 8 de los 20 encuestados, con el fin de no saturar el grafico y mostrando así una tendencia general de las respuestas obtenidas. Usamos interpolación spline cúbica para poder obtener las curvas que se muestran en las figuras 1, 2, 3 y 4. 0.0 0.2 0.4 0.6 0.8 Probabilidad asociada a la expresión 0.2 0.4 0.6 0.8 1.0 Probabilidad asociada a la expresión Figura 1: Cuantificación de la expresión: “Posiblemente obtendremos un triunfo si le apostamos al caballo negro” Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 100 80 60 40 20 0 0 20 40 60 80 100 _______________________________________________ 0.2 0.3 0.4 0.5 0.6 Probabilidad asociada a la expresión 0.0 0.2 0.4 0.6 0.8 1.0 Probabilidad asociada a la expresión Figura 2: Cuantificación de la expresión: “Es muy raro que un paciente menor de 20 años desarrolle osteoporosis” Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 100 80 60 40 20 0 0 20 40 60 80 100 _______________________________________________ 0.0 0.2 0.4 0.6 0.8 Probabilidad asociada a la expresión 0.0 0.2 0.4 0.6 0.8 1.0 Probabilidad asociada a la expresión Figura 3: Cuantificación de la expresión: “Es poco posible que el candidato X gane en las encuestas” Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 100 80 60 40 20 0 0 20 40 60 80 100 _______________________________________________ 0.2 0.4 0.6 0.8 Probabilidad asociada a la expresión 0.2 0.4 0.6 0.8 1.0 Probabilidad asociada a la expresión Figura 4: Cuantificación de la expresión: “A menudo un hijo de un fumador desarrolla el hábito de fumar” Para la expresión “Posiblemente obtendremos un triunfo si le apostamos al caballo negro” que se encuentra cuantificada en la figura 1, se puede notar que no todos los participantes tienen la misma percepción acerca de la probabilidad atribuida a la palabra posiblemente en las frase, pues un grupo de curvas se centra en el rango de probabilidades (0.4 - 0.6), y otro grupo entre (0.6 - 0.9) aproximadamente. De manera general se puede ver que para cada una de las frases en estudio en los diferentes contextos tiende a haber grandes diferencias en cuanto al verdadero significado que le atribuyen los encuestados a las palabras resaltadas en dicha expresión. Claramente esto nos indica que en nuestra comunicación científica diaria podrían existir serias diferencias en la interpretación de muchas frases, lo cual lleva a distorsionar la información de manera considerable. Estadística Aplicada: “Didáctica de la Estadística y Métodos Estadísticos en Problemas Socioeconómicos” VI Coloquio Regional de Estadística XII Seminario de Estadística Aplicada IASI III Escuela de Verano CEAES Medellín, 20-23 de Julio de 2010 _______________________________________________ Cabe notar que en la expresión “A menudo un hijo de un fumador desarrolla el hábito de fumar” fue donde menos diferencias hubo en cuanto a la cuantificación asignada por los participantes. Es importante resaltar que es necesario comparar la efectividad del presente método gráfico con respecto a otros métodos que permitan la cuantificación de dichas expresiones, pero esta comparación se debe realizar utilizando frases que se encentren en el idioma español, puesto que es inadecuado realizar esta tarea bajo idiomas distintos, pues una simple palabra puede tener múltiples traducciones. 5. Referencias [1] Adams, F. (2005), “Expert elicitation and Bayesian analysis of construction contract risks: an investigation”, Construction Management and Economics 24, 81–96. [2] Forsythe, G. E., Malcolm, M. A. and Moler, C. B.(1977) Computer Methods for Mathematical Computations. [3] Garthwaite, P; Kadane, J. & O’Hagan, A. (2002), “Statistical Methods for Eliciting Probability Distributions”, Journal of the American Statistical Association 100(470). [4] Kent, S (1949). Strategic Intelligence. Princeton Univ. Press, Princeton, N.J. [5] Mosteller, F and Youtz, C. (1990). Quantifying probabilistic expressions. Statistical Science. Vol 5, No 1, 2-34.