UNIVERSIDAD DE GRANADA Escuela Técnica Superior de Ingeniería Informática Departamento de Ciencias de la Computación e Inteligencia Artificial. Modelización difusa de sistemas mediante técnicas inductivas TESIS DOCTORAL Luis Jiménez Linares Granada , Julio de 1997 MODELIZACIÓN DIFUSA DE SISTEMAS MEDIANTE TÉCNICAS INDUCTIVAS MEMORIA QUE PRESENTA LUIS JIMÉNEZ LINARES PARA OPTAR AL GRADO DE DOCTOR EN INFORMÁTICA. DIRECTORES MIGUEL DELGADO CALVO-FLORES. ANTONIO F. GÓMEZ SKARMETA. ABRIL DE 1997 DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL. ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA. UNIVERSIDAD DE GRANADA. La memoria titulada “ Modelización difusa de sistemas mediante técnicas inductivas”, que presenta Luis Jiménez Linares, para optar al grado de DOCTOR, ha sido realizada en el departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada, bajo la dirección de Dr. D. Miguel Delgado Calvo-Flores, Catedrático del departamento donde se ha realizado la memoria y Dr. D. Antonio F. Gómez Skarmeta Titular de Escuela Universitaria del departamento de Informática y Sistemas de la Universidad de Murcia. Granada, Abril de 1997. Fdo : Luis Jiménez Linares Fdo : Dr. D. Miguel Delgado Clavo-Flores Fdo : Dr. D. Antonio F. Gómez Skarmeta. $JUDGHFLPLHQWRV Mi agradecimiento a quienes, de un modo u otro, han hecho posible la realización de esta tesis, especialmente a mis directores Dr. D Miguel Delgado Calvo-Flores y Dr. D. Antonio F. Gómez Skarmeta por su paciencia y aliento durante este tiempo. Mi agradecimiento también a mis compañeros del Departamento de Informática de la Universidad de Castilla La Mancha, a la Escuela Universitaria de Informática de Ciudad Real y en general a la Universidad de Castilla La Mancha por el apoyo y los medios que me han brindado para poder realizar esta memoria. Finalmente y no por ello menos importante, he de agradecer a mi familia el interés y apoyo moral que me han mostrado durante el periodo de realización de este trabajo. Luis Jiménez Linares 7DEODGHFRQWHQLGR Introducción ................................................................................................................ 1 Capítulo 1. Modelado Difuso de sistemas. Herramientas.......................................... 8 1.1 Introducción ................................................................................................................. 8 1.2 Sistemas Descritos Mediante Reglas........................................................................ 10 1.2.1 La Idea de Regla Difusa......................................................................................................10 1.2.2 Inferencias en Sistemas descritos mediante Reglas Difusas................................................13 1.2.3 Identificación de Reglas Difusas para el Modelado de Sistemas. .......................................21 1.3 Identificación y Modelado mediante Árboles de Regresión. ................................. 26 1.3.1 Árboles de identificación. ...................................................................................................27 1.3.2 Calidad de los clasificadores...............................................................................................30 1.3.3 Inducción de un árbol de clasificación................................................................................32 1.3.4 Caracterización de las clases...............................................................................................39 1.3.5 Árboles de identificación como mecanismo de aproximación de funciones. ......................41 1.3.6 Inducción de un árbol de regresión. ....................................................................................42 1.4 Empleo de Árboles para la Identificación de Modelos Difusos............................. 46 Capítulo 2. Árboles Difusos de Regresión e Identificación. .................................... 52 2.1 Introducción. .............................................................................................................. 52 2.2 Caracterización del modelo difuso........................................................................... 53 2.2.1 Bondad del modelo. ............................................................................................................56 2.3 Inducción del modelo................................................................................................. 59 2.3.1 Introducción........................................................................................................................59 2.3.2 Caracterización y división de regiones difusas. ..................................................................61 2.3.3 Generación de particiones difusa de conjuntos difusos.......................................................64 2.3.4 Selección de la región a dividir y su partición. ...................................................................69 2.4 Árboles difusos de decisión y regresión. ADRI....................................................... 72 2.4.1 Árboles difusos de decisión. ...............................................................................................72 2.4.2 Árboles difusos de regresión...............................................................................................74 2.5 Base de Reglas difusas asociada a ADRI................................................................. 77 2.5.1 Construcción de un modelo de consecuente puntual...........................................................77 2.5.2 Antecedentes con variables lingüísticas. Descripción del sistema. .....................................81 2.6 Ejemplo de Empleo de ADRI. .................................................................................. 86 Capítulo 3. Aplicación de ADRI al modelado de sistemas económicos. Series temporales....................................................................................................................... 95 3.1 Introducción. .............................................................................................................. 95 3.2 Series temporales. ...................................................................................................... 99 3.2.1 Modelos funcionales. ..........................................................................................................99 3.2.2 Modelo Difuso. Empleo de ADRI. ...................................................................................104 3.3 ADRI aplicado a varias Series Macroeconómicas................................................ 105 3.3.1 Deflactor del PIB a precio de mercado. ............................................................................105 3.3.2 Consumo nacional privado................................................................................................117 3.3.3 Salarios. ............................................................................................................................130 Conclusiones y Trabajos Futuros. .......................................................................... 142 Apéndice A. Razonamiento Aproximado................................................................ 145 Apéndice B. Tablas de datos.................................................................................... 151 Bibliografía .............................................................................................................. 154 ,QWURGXFFLyQ Introducción. Un sistema es un modelo que caracteriza un tipo apropiado de relación entre entidades abstractas. El término “relación” es utilizado aquí en general para representar no sólo el concepto bien definido de relación matemática, sino a una clase más amplia de ideas tales como restricción, interdependencia, estructura, cohesión y similares. El modelado de sistemas es, en general, el conjunto de actividades, métodos y técnicas mediante las cuales se aborda la construcción de sistemas que sean modelos adecuados de algún aspecto de la realidad. Un modelo de un sistema debe contener un conjunto de variables descriptivas, cada una con valores en un cierto espacio o dominio, junto con un conjunto de relaciones, que establecen entre otras cosas un conjunto de restricciones que deben cumplirse para cualquier asignación de valores a la variables descriptivas. Pueden definirse diferentes modelos de un mismo sistema, cambiando las variables descriptivas, los espacio de valores, y las relaciones involucradas. Cada uno de estos modelos podía representar un visón distinta del mismo sistema mostrándonos diferentes aspectos del mismo o distintos niveles de abstracción. Uno de los principios fundamentales que la denominada durante alguna época ciencia moderna mantenía es que un fenómeno no puede ser juzgado como bien comprendido, hasta que éste pueda ser modelado o caracterizado en términos cuantitativos. Este principio se pone de manifiesto en las palabras de Lord Kelvin (1883) : “ En la física un primer paso esencial para aprender cualquier materia es encontrar los métodos numéricos y prácticos para medir alguna característica relacionada con esta materia. A menudo suelo decir que si de lo que estás hablando lo puedes medir y expresarlo numéricamente, posees un buen conocimiento de lo dicho ; pero cuando no puedes medirlo ni expresarlo numéricamente tu conocimiento es pobre e insatisfactorio ...” Introducción y objetivos Dada esta veneración por lo preciso, riguroso y cuantitativo en contraposición a lo difuso, inexacto, no riguroso y cualitativo, no ha de sorprender el auge que los computadores han tenido en el uso de los método cuantitativos de la mayoría de las ciencias. Indiscutiblemente los computadores se han mostrado muy eficientes en relación a los sistemas mecanicistas, esto es, aquellos sistemas inanimados cuyo comportamiento se rige por las leyes de la física, mecánica, química y electromagnetismo. Desafortunadamente no se puede decir lo mismo para los sistemas que involucran la actuación de las personas, los cuales tradicionalmente se resisten al análisis matemático clásico y a la modelización cuantitativa pues tienen dos características que hacen difícil o simplemente imposible su tratamiento cuantitativo: a) El razonamiento y la toma de decisiones de las personas se suelen llevar acabo empleando el lenguaje natural, que juega un papel fundamental como mecanismo de expresión y definición dentro de las ciencias sociales. Esto aporta una vaguedad o incertidumbre propia del lenguaje natural que los modelos matemáticos no pueden expresar en toda su plenitud. b) La complejidad de los sistemas abordados impiden una formulación matemática exacta. Esta característica viene expresada en el principio de incompatibilidad expresado por Zadeh. Este principio dice que una gran precisión en el modelo de un sistema es incompatible con su capacidad para manejar una complejidad grande. En otras palabras, la complejidad de un sistema mantiene una relación inversa con la exactitud con la que podemos determinar dicho sistema. Un forma de abordar problemas con estas características es la utilización del denominado Razonamiento Aproximado donde los modelos dejan de ser cuantitativos para transformase en modelos cualitativos. Estos modelos cualitativos intentan capturar el razonamiento humano mediante el uso de relaciones causa-efecto expresadas en términos lingüísticos o vagos. La teoría de los conjuntos difusos formulada por Zadeh en su trabajo “Fuzzy Sets”[105] y posteriormente completada con sus aportaciones del concepto de variable lingüística[107][108][109] es el intento de introducir un marco de tra- 2 Introducción y objetivos bajo bien definido para el tratamiento de estos modelos cuantitativos en donde los términos difusos, vagos e imprecisos son consustanciales. En las ultimas décadas el uso de estos modelos ha sufrido un gran auge, debido a los resultados espectaculares obtenidos en distintos campos de la ciencia. Se ha de destacar su uso dentro de la ingeniería y más concretamente en el control industrial[36]. Estos sistemas se han beneficiado del uso del Razonamiento Aproximado permitiendo abordar el control de sistemas complejos, que tradicionalmente eran tratados de forma exacta con complejas ecuaciones matemáticas, mediante el uso del conocimiento de expertos humanos expresado en modelos de razonamiento aproximado. La idea que subyace en todas estas técnicas consiste en extraer los conocimientos que el experto posee para identificar una situación concreta del estado del sistema y establecer la acción adecuada que se ha de realizar. Debido a la complejidad de los sistemas estas situaciones o estados son expresados en términos lingüísticos o vagos. Por esta razón el uso de los conjuntos difusos, variables lingüísticas y en general los mecanismos de representación utilizados por el Razonamiento Aproximado se muestran adecuados para su modelización. En general la creación de estos modelos difusos se realiza expresando en forma de regla lingüística el conocimiento deductivo que emplea el experto. Este puede hacerse (y así se hizo en los comienzos) mediante complicadas técnicas de Ingeniería del Conocimiento pero más modernamente, el uso de los computadores, así como la mejora en la potencia de cálculo y la cantidad de almacenamiento de datos que éstos han sufrido en los últimos años, han originado la proliferación de técnicas inductivas para la obtención de tales modelos de sistemas a partir de datos conocidos (Aprendizaje Inductivo). Este enfoque inductivo ha posibilitado la creación de modelos para los cuales no es posible disponer de expertos que nos proporcionen el conocimiento sobre los mismos. Uno de los aspectos de la ciencia que se han visto más favorecidas por el uso de los métodos inductivos es la obtención de clasificadores de objetos. El trabajo de éstos consiste en extraer y estructurar un conjunto de características que definen a un determinado objeto de la realidad, para de esta forma determinar al grupo abstracto de objetos al que 3 Introducción y objetivos pertenece. Este mecanismo de agrupación de objetos en clases, nos permite olvidar las características particulares y no relevantes de cada objetos para centrarnos en aquellas comunes, que nos definan ya no sólo al objeto tratado, sino a un conjunto de objetos cuyo comportamiento o fisonomía es semejante. Podemos decidir que el trabajo realizado en este campo queda divido en dos grandes grupos : a) Métodos orientados a la identificación de clases o grupos en conjunto de objetos conocidos, los cuales son conocidas como métodos de agrupamiento o clustering de datos. b) Métodos orientados a la determinación de la pertenencia de un determinado objeto a una clase o grupo conocido, los cuales genéricamente se denominan clasificadores. Estas técnicas se emplean en la construcción de modelos, y más concretamente, en la construcción de modelos difusos o vagos, los cuales son enfocados en el sentido del razonamiento aproximado y la relación causa-efecto con el objetivo de identificar los estados del sistema a partir de un conjunto de valores conocidos del mismo. Las técnicas que más se han tratado para estos objetivos son las técnicas de agrupamiento o clustering, las cuales han sido ampliadas y adaptadas para que pueden servir como métodos de inducción de modelos difusos de sistemas[33][7]. Sin embargo pocos esfuerzos se han realizado en la utilización de las técnicas de clasificación para estos mismos propósitos. En economía, como en otras ciencias sociales, el uso de modelos matemáticos es defendido por muchos autores a la vez molesta a otros. Estos últimos piensan que la conducta humana es demasiado compleja y sutil como para reducirla a mecánicas fórmulas matemáticas pero no se cuestionan la posibilidad de comprender el comportamiento humano, ni la posibilidad de expresar supuestos sobre el mismo. En todo caso es el uso del formalismo matemático lo que no consideran apropiado para muchos autores, así como para el gran público. Conceptos y relaciones económicas como la predicción de la renta de los agricultores de patata en relación a la cosecha obtenida, o el volumen de 4 Introducción y objetivos desempleo frente a la cantidad de impuestos que hay que pagar, se postulan mediante teorías expresadas lingüísticamente. Ejemplos de estas formulaciones son la teoría del comportamiento del mercado que dice “Si la cosecha de patata es relativamente escasa entonces la renta de los agricultores crecerá”, o la teoría de la renta nacional que dice: “ Una reducción en los impuestos reducirá el volumen de desempleo”. Estos ejemplos pone de manifiesto como muchos de los conceptos y relaciones tratados por la economía se expresan en lenguaje natural por su complejidad o imprecisión. Estas formulaciones imprecisas y vagas han sido frecuentemente desdeñadas en aras de la exactitud y la precisión, abordándolas mediante modelos matemáticos que intentan describir la vaguedad e imprecisión inherente a los sistemas económicos por medio de técnicas de la estadística. Aunque el uso de los modelos matemáticos proporciona un gran avance dentro de la economía, es previsible que la utilización de modelos difusos que reflejen el comportamiento vago e impreciso de los sistemas económicos y que faciliten la postulación de teorías en términos lingüísticos ha de producir un enorme beneficio a la economía. Objetivos. El objetivo de este trabajo es el estudio de los mecanismos y técnicas de inducción de clasificadores clásicos, tales como los árboles de clasificación o identificación, para su generalización como herramienta en la inducción de modelos difusos de sistemas. Además pretendemos probar la eficacia de estos métodos de identificación contrastándolos en problemas de regresión de modelos económicos (series temporales). Para la consecución de dicho objetivo hemos estructurado esta memoria en tres capítulos. En el capítulo primero presentamos los modelos que queremos inducir, mostrando el concepto de regla difusa como elemento fundamental de dichos modelos, sus tipos y los mecanismos y problemas existentes para su inducción. Como pieza común en todos los modelos vemos que una regla tiene el sentido de un clasificador, que a un grupo de elementos de entrada le asigna un determinado valor o clase. La perspectiva de 5 Introducción y objetivos considerar un conjunto de reglas difusas como un clasificador nos induce al estudio del problema de la clasificación y los mecanismos utilizados para su resolución. Por su amplia difusión y los buenos resultados que los avalan nos centraremos en los árboles de clasificación o identificación estudiando su inducción y generalización para la regresión de funciones. Terminamos el capítulo viendo como estas técnicas de clasificación mediante árboles de regresión y clasificación han sido aplicada por algunos autores para la identificación de modelos difusos. En el capítulo segundo introducimos un mecanismo para la inducción de un modelo difuso fundamentándonos en la filosofía de construcción de los árboles de regresión. En un primer momento presentamos el modelo difuso como un clasificador donde quedan definidas las regiones del espacio de definición de las entradas a las cuales se le asignará un valor de salida. El uso de regiones difusas nos obliga a definir un mecanismo de inducción que generalice el utilizado en la generación de los árboles de regresión; por este motivo definimos un nuevo criterio de bondad del modelo, un nuevo mecanismo de partición del espacio de entrada, así como un nuevo mecanismo de asignación del valor de salida de cada región. La inducción de este modelo nos lleva a establecer una estructura en forma de árbol difuso de decisión que generaliza los árboles de regresión y que denominamos ADRI (Árboles Difusos de Regresión e Identificación). Estudiamos la obtención de un conjunto de reglas difusas a partir de un árbol ADRI inducido, tanto en su aspecto aproximativo como en su aspecto descriptivo, observando los efectos que sobre el modelo difuso obtenido y su inducción tiene la consideración de tomar los antecedentes de las reglas formados únicamente por valores de variables lingüísticas. El capítulo finaliza aplicando el modelo y el mecanismo de inducción presentado a un ejemplo de una función no lineal. En el capítulo tercero presentamos la utilización del modelado difuso de sistemas como herramienta para el análisis y síntesis de modelos dentro de la ciencia de la economía, centrándonos en las de series temporales de variables económicas. Tras una pequeña introducción sobre los distintos modelos que existen para modelar el comportamiento de las series temporales, vemos cómo el uso de las técnicas inductivas de cons- 6 Introducción y objetivos trucción de modelos difusos y más concretamente ARDI pueden ser utilizadas para la aproximación de dichas series como un mecanismo uniforme y sistemático. Finalizamos el trabajo exponiendo las conclusiones a las que hemos llegado tras la realización del mismo, así como un conjunto de posibles líneas de investigación y estudio que nos han surgido durante la realización de esta memoria. En el apéndice A presentamos una breve introducción a la teoría de conjuntos difusos y razonamiento aproximado para que el lector que no esté familiarizado con estos conceptos pueda disponer de una primera y rápida aproximación a los mismos. 7 &DStWXOR Modelado Difuso de sistemas. Herramientas 1.1 Introducción Un “sistema” puede visualizarse como el conjunto de "relaciones", en el sentido más amplio de la palabra, entre unas variables de entrada y otras variables de salida. Estas relaciones provocan el cambio temporal de los valores de las variables de salida al modificarse los valores de las variables de entrada. Esquemáticamente (figura 1.1) un sistema se representa mediante una “caja negra” donde encontramos variables de entrada que introducen sus valores en la misma y variables de salida que toman sus valores de ella. X S ENTRADA SALIDA Ξ SISTEMA Sistema Ξ (1.1) Características como el tipo de valores de las variables de entrada y salida, el número de éstas, su dependencia del tiempo, la retroalimentación de las salidas hacia las entradas, etc ., originan una multitud de clasificaciones de los sistemas. Si nos fijamos en el número de entradas y de salidas (lo que resulta de interés en nuestros desarrollos futuros) tenemos : Cap. 1 Modelado Difuso de sistemas. Herramientas • Sistemas MIMO de múltiples entradas y múltiples salidas. • Sistemas MISO de múltiples entradas y una única salida. • Sistemas SIMO de una única entrada y múltiples salidas. • Sistemas SISO de una única entrada y una única salida. De igual manera, los valores que toman las variables, tanto las de entrada como las de salida, pueden clasificarse en dos grandes categorías: cualitativos, cuando los valores de las variables son numéricos, o cuantitativos cuando los valores de las variables no son numéricos, que originan nuevas categorías de sistemas. Un objetivo de la ciencia es la definición de modelos de los sistemas existentes en la realidad. Un modelo es la abstracción y simplificación de un sistema real, que sintetiza de alguna forma las variables y sus relaciones más significativas. Este proceso de abstracción que se produce en un modelo se realiza por dos motivos: el primero de ellos es la comprensión del sistema y de los fenómenos asociados al mismo, el segundo, posibilitar su manipulación para alcanzar algún fin concreto. Las relaciones que unen las variables de salida con las variables de entrada se pueden modelar de muy diversas formas; entre ellas destacan aquéllas que utilizan mecanismos formales para su representación, como pueden ser las funciones matemáticas y lógicas. Cuando un modelo se expresa mediante una función matemática, lo que se trata de describir en términos precisos es la relación existente entre los valores de entrada y salida. Si denotamos por Ψ el modelo que describe el sistema Ξ, éste tendrá una apariencia funcional parecida a Ψ(x1,x2,x3, ... ,xm)=(s1,s2, ... ,sr) donde xi para i=1...m es el conjunto de variables de entrada que se han tomado y sj para j=1 ... r el conjunto de variables de salida en las que estamos interesados. Ψ: X → S (1.1) Estos modelos matemáticos han de estar descritos sobre variables con valores cuantitativos, en cuyo caso su interpretación es inmediata. Sin embargo, cuando los valores de las variables no son numéricos es necesario un proceso de abstracción anterior para trasladar los valores cualitativos a unos valores cuantitativos. 9 Cap. 1 Modelado Difuso de sistemas. Herramientas Otra forma de describir un modelo es mediante relaciones lógicas, donde los elementos que utilizamos son proposiciones lógicas que unimos mediante conectivas, para formar nuevas proposiciones. La interpretación de estos modelos lógicos se enmarca dentro de la aceptación de un sistema de deducción definido mediante un conjunto de axiomas . Este tipo de modelo ha tenido un gran auge en los últimos 50 años, años en que ha proliferado la representación lógica fundamentada en el concepto de regla lógica, que tiene la forma "Si A entonces B", basada en la interpretación de una implicación que permite una fácil identificación de una relación causa-efecto de los valores de entrada sobre los valores de salida del sistema. En este capítulo, en la sección 1.2, veremos como la idea de regla difusa ha sido utilizada para la modelización de sistemas así como la problemática de la identificación de modelos difusos. En la mayoría de los mecanismos utilizados para la identificación de modelos existe un proceso de agrupamiento de los datos conocidos en grupos o clases; es este proceso el que nos lleva a estudiar en la sección 1.3 el problema de la clasificación, fundamentado en la obtención de agrupamientos de datos pertenecientes a una determinada clase, centrándonos en uno de los métodos que más éxito ha tenido en el ámbito no difuso, como son los árboles de identificación, mostrando su mecanismo de inducción, así como su generalización como aproximadores de funciones. Finalmente en la sección 1.4 indicaremos cómo han sido utilizadas estas herramientas para la inducción de la estructura de modelos difusos. 1.2 Sistemas Descritos Mediante Reglas 1.2.1 La Idea de Regla Difusa Mamdani[68][67][51], utilizando los conceptos que aporta la teoría de los conjuntos difusos de Zadeh[105] y la idea de representar las reglas condicionales como relaciones difusas del espacio de definición entrada-salida[111], modelizó mediante un conjunto de reglas difusas las acciones que un experto humano realizaba para controlar un sistema. Mamdani considera que la función de control que rige el sistema puede ser interpretada como una aplicación de los valores de entrada (puntos de definición de la función) con los valores que ha de tener la variable de salida (valor de la función). En la teoría de 10 Cap. 1 Modelado Difuso de sistemas. Herramientas control clásica esta aplicación se describe mediante una función matemática, que normalmente se obtiene como resolución de complejos sistemas de ecuaciones diferenciales. Este enfoque funcional es trasladado al entorno del razonamiento aproximado, planteando la interpretación de las reglas difusas de forma distinta al concepto de implicación que poseen en la lógica difusa. En esta interpretación, una regla establecerá el valor que ha de tener la función en un determinado punto del dominio de entrada, realizándose una identificación entre el consecuente de la regla y el valor de la función, así como entre el antecedente de dicha regla con el punto del dominio de entrada asociado a dicho valor. Esto nos proporciona la visión de una regla de la forma "Si x es β entonces s es ~ α", siendo x ∈ X=X1xX2x...Xm y s ∈ S, como f (β ) = α , donde β y α ya son conjuntos difusos definidos sobre el referencial X y en el dominio S de la variable de salida respectivamente. Un conjunto de reglas definen una aplicación entre X e S, es decir, ~ ~ ~ ~ f : X → S , donde X representa la totalidad de los conjuntos difusos que se pueden de~ finir sobre el referencial X y S la totalidad de los conjuntos difusos que pueden ser definidos sobre el referencial S. Sea el conjunto de N reglas siguientes: r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s es B1 r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s es B2 ....................................................................................... rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s es BN Conjunto de reglas difusas donde xi ∈ Xi para i=1 ... m, Aij y Bj son conjuntos difusos definidos respectiva~ mente sobre los referenciales Xi y S. Este conjunto de reglas define la aplicación f ,que tiene una valor de salida αj=Bj para el punto difuso βj cuya función de pertenencia m es β j ( x) = ⊗ Aij ( x i ) , siendo ⊗ una t-norma. i =1 11 Cap. 1 Modelado Difuso de sistemas. Herramientas Zadeh[107],[108],[109],[21] observó que las descripciones de términos imprecisos se establecen normalmente de forma lingüística. Esto quiere decir que, cuando se trata con un término , como puede ser la altura de una persona, la forma más normal de expresar dicha característica no es mediante el valor en metros o centímetros de la misma; sino que, es más habitual expresarla mediante términos lingüísticos. Así se diría: la altura es baja, la altura es mediana o la altura es alta. Esto lleva al establecimiento de lo que se denomina variable lingüística, variable que podríamos caracterizar de manera informal como aquélla que toma valores dentro de un conjunto de etiquetas lingüísticas. Formalmente podemos definir una variable lingüística como una quíntupla (H, T(H), V, G, M) donde : • H es el nombre de la variable lingüística. • T(H) es el llamado “conjunto de términos de H” o colección de etiquetas lingüísticas de la variable H. • V es el dominio de definición de la variable. • G es una regla sintáctica para asociar los elementos t de T(H). • M es una regla semántica para asociar a cada elemento t de T(H) un conjunto difuso M(t) definido sobre el referencial V. Cabe distinguir entre términos primarios y términos compuestos que son construidos de acuerdo con la regla sintáctica G. Estos términos compuestos se generan habitualmente a partir de los términos primarios mediante modificadores lingüísticos y conectivas. Semánticamente los términos primarios son distinguibles de los términos compuestos. La diferencia estriba en que éstos poseen un valor semántico propio dependiendo del contexto donde se definan, mientras que los modificadores poseen un significado independiente del contexto. Ejemplos de términos primarios, si estamos hablando de la altura, serían {baja, alta}, mientras que posibles modificadores podrían ser {muy, más o menos, extremadamente...}. 12 Cap. 1 Modelado Difuso de sistemas. Herramientas 1 A más o menos A aproximadamente A 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 Modificadores lingüísticos (1.2) Cualquier expresión de la forma x es A puede ser considerada como la asignación de una variable lingüística - cuyo dominio de definición es el de x- al valor de la etiqueta A. Es de este modo como se obtiene un enfoque lingüístico de los sistemas de reglas difusos. Desde este enfoque lingüístico podremos hablar de funciones lingüísticas, como aquellas aplicaciones difusas que están definidas sobre un dominio compuesto de variables lingüísticas. Presentados los conceptos de aplicación difusa y el caso particular de las funciones lingüísticas, nos centraremos a continuación en los mecanismos utilizados para inferir, mediante un conjunto de reglas difusas, el valor de salida de una aplicación difusa asocia a un determinado valor de entrada. Abordaremos este proceso de inferencia partiendo del mecanismo de implicación que poseen las reglas en la lógica difusa y llegaremos de esta forma a los modelos de razonamiento difuso donde se presenta abiertamente el carácter funcional de un conjunto de reglas difusas. 1.2.2 Inferencia en Sistemas descritos mediante Reglas Difusas. El mecanismo general de inferencia utilizado en la lógica difusa es denominado Modus Ponens Generalizado (MPG)[21]. Este mecanismo traslada la regla básica de deducción del cálculo de predicados del mismo nombre al entorno de predicados vagos o difusos. 13 Cap. 1 Modelado Difuso de sistemas. Herramientas El Modus Ponens se establece en los siguientes términos: supuesto que la implicación A→B es cierta y dado que ocurre A, entonces se ha de concluir que la proposición B también es cierta. Esquemáticamente el Modus Ponens se representa como A → A B (1.2) B En términos de predicados difusos 1.2 se puede expresar como Si x es A entonces s es B x es A* (1.3) s es B* donde A y A* son propiedades difusas definidas sobre el referencial X, y B y B* son propiedades difusas definidas sobre el referencial S. Para construir B* Zadeh introdujo la denomina Regla Composicional de Inferencia. Esta regla resuelve el problema anterior mediante la introducción de una relación difusa R en el producto cartesiano XxS, estableciendo una función de pertenencia para la misma µR:XxS→[0,1], que queda definida mediante una función F:XxS→[0,1]. El conjunto difuso B* estará generado por A* sobre el referencial S, a través de R. Por tanto, podremos considerar B*=A*°F, con lo cual el problema de construir B* se transforma en determinar F y °. Zadeh propone una definición del B* con una función de pertenencia { } B* ( s) = max ⊗ A* ( x ), R( x , s) x ∈X (1.4) donde la ⊗ es una t-norma y F es una función de implicación. Así pues podemos particularizar considerando la t-norma del mínimo y la función de implicación de Lukasiewicz B* ( s) = max min( A* ( x ), min(11 , − A( x ) + B( s))) . x 14 (1.5) Cap. 1 Modelado Difuso de sistemas. Herramientas Dependiendo de la t-norma y función de implicación que elijamos, quedará establecida una versión para el MPG que reflejará distintos modos de razonar. Cuando Mamdani afrontó la utilización de los sistemas de reglas difusas, como representación de la función de control de una planta dinámica[68], se encontró que, aunque las variables lógicas del control podían ser descritas mediante conjuntos difusos, las variables sobre las que tenía que actuar y aquéllas que tenía que dirigir eran en realidad representación de magnitudes físicas que toman valores reales. Esto obliga a introducir unas transformaciones de los valores de las variables que trasladen un valor de X a un ~ ~ valor de X y un valor de S a uno de S. El esquema de inferencia seguido [61][62], denominado modelo Mamdani, podría reflejarse en tres etapas : I. Hacer difusas las entradas mediante un mecanismo de fuzzificación. II. Mediante un conjunto de reglas difusas que definen la función difusa inferir un valor de salida difuso. III.Obtener un valor no difuso de la cantidad difusa de salida mediante un mecanismo de desfuzzificación. De esta forma se construye una aplicación Ψ mediante la composición de la función ~ ~ ~ ~ de fuzzificación Ff: X→ X , una aplicación difusa f : X → S y una función de desfuzzi~ ficación Df: S →S, como modelo para el sistema Ξ : X→S. Este tipo de modelo, que incorpora en su estructura una aplicación difusa descrita mediante un conjunto de reglas difusas, se denomina modelo difuso Ψ del sistema Ξ. ~ Ψ ≡ Df $ f $ Ff En la figura 1.3 se ilustra gráficamente un modelo difuso Ψ tal como el anterior. 15 Cap. 1 Modelado Difuso de sistemas. Herramientas Á M B IT O D IF U S O Á M B IT O N O D IF U S O ~ X X Ff x β Ξ ~ f Df s α ~ S S Modelo difuso Ψ de un sistema Ξ Figura (1.3) La etapa I normalmente se solventa asociando un “ singleton” (conjunto difuso puntual) al valor no difuso de entrada. Supongamos que el valor es x’ ∈ X, entonces definiremos un conjunto difuso asociado con función de pertenencia 1 x = x ' µx ' ( x ) = 0 x ≠ x ' (1.6) La etapa III se resuelve de distintas formas, si bien y como es lógico en todos los casos se busca es encontrar un único valor que pueda resumir la información contenida en dicho conjunto difuso. La solución más extendida es considerar ese valor como el centro gravedad (COA) del conjunto difuso µ, que vendría expresado ∫ µ (s) sds ∫ µ (s) ds (1.7) que en caso de una representación discreta de µ(s) toma la forma: ∑ µ ( s) s . ∑ µ ( s) s∈S s∈S 16 (1.8) Cap. 1 Modelado Difuso de sistemas. Herramientas Otras posibles alternativas son: • Criterio del máximo consistente en el valor s’∈S tal que µ(s’) es máximo. • Criterio de la media de los máximos ∑s s∈W w tal que W={ s / µ(s) es máximo} En la etapa II, dado un conjunto de valores concreto de entrada (x1’, x2’, ... , xm’), el conjunto difuso B’ obtenido por Mamdani vendrá definido por la función de pertenencia: { { }}} . { B' ( s) = max min B j (s), min Aij ( x 'i ) j =1..N i =1..m (1.9) Aplicando a este conjunto la etapa III, según hemos visto anteriormente, tendremos que el sistema para una entrada (x1’, x2’, ... , xm’) obtendremos una salida s’ que viene expresada como ∑ B ' ( s) * s s' = ∑ B ' ( s) s∈S (1.10) s∈S Gráficamente la figura 1.4 muestra este mecanismo de inferencia. A11 B1 A21 A22 A12 x1 x2 B2 B’ Inferencia de tipo Mamdani (1.4) Si consideramos la regla j, tendremos que el conjunto de entradas pertenecerá al antecedente de dicha regla en el mismo grado que la conjunción de los grados de pertenencia de cada variable al conjunto difuso asociado a dicha variable en el antecedente. En 17 Cap. 1 Modelado Difuso de sistemas. Herramientas términos generales, esta conjunción vendrá expresada mediante una t-norma. Si llamamos γj al grado de pertenencia de la entrada al antecedente de la regla j tendremos que m γ j = ⊗ Ai j ( xi ') (1.11) i =1 Considerando que el antecedente de dicha regla no puede pertenecer en grado superior a γj a la salida del sistema, tendremos un conjunto difuso B’j que vendrá caracterizado por la siguiente función de pertenencia { B' j ( s) = min B j ( s), s j } (1.12) obteniendo así finalmente una salida expresada como la disyunción de todos los resultados parciales de las N reglas, que puede calcularse mediante la aplicación de una tconorma a los valores de pertenencia de los conjuntos difusos B’j ,obtenidos como las salidas parciales de cada regla j. N B' (s) = ⊕ B' j ( s) j =1 (1.13) Con la misma interpretación de un conjunto de reglas como una función difusa y considerando al igual Mamdani que la salida ha de ser un valor no difuso, Takagi, Sugeno y Kang introducen el denominado modelo TSK[91], que se diferencia del modelo de Mamdani en la forma de las reglas utilizadas, al cambiar la forma de los valores de los consecuentes de las reglas. En este modelo los consecuentes, en lugar de estar expresados mediante un conjunto difuso constante, son definidos como una función lineal de los valores de entrada. El conjunto de reglas en el modelo TSK tendrá una forma como : 18 Cap. 1 Modelado Difuso de sistemas. Herramientas r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=b01+x1b11+ x2b21+ ... +xmbm1 r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=b02+x1b12+ x2b22+ ... +xmbm2 ....................................................................................... rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=b0N+x1b1N+ x2b2N+ ... +xmbmN Conjunto de reglas de modelo TSK (1.5) a partir del cual se inferirá un valor de salida que vendrá expresado por : N s' = { } m ∑ min Aij ( x i ) (b0j + ∑ x i bij ) j =1 m i =1 i =1 ∑ min{A N j =1 m i i =1 j } . (1.14) (xi ) Un modelo de inferencia que puede ser considerado entre los modelos de Mamdani y TSK es el utilizado en el denominado Método Simplificado de Razonamiento Aproximado. Introducido por Mizumoto[72][71], en el se consideran las reglas formadas por consecuentes puntuales no difusos o, lo que es lo mismo, con funciones constantes; por este motivo se denomina modelo de consecuente puntual. Sea un conjunto de reglas del tipo de consecuente puntual como las siguientes r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=s1 r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=s2 ....................................................................................... rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=sN Conjunto de reglas del modelo de consecuente puntual (1.6) donde los valores sj pueden ser considerados como la desfuzzificación mediante el valor de su centro de gravedad (COA) de los conjuntos difusos Bj del consecuente de la j-ésima regla en el modelo Mamdani. ∫ B (s) sds = ∫ B (s) ds j s j j 19 (1.15) Cap. 1 Modelado Difuso de sistemas. Herramientas Siguiendo el modelo utilizado por Mamdani, y sustituyendo la t-norma del mínimo por la t-norma del producto en la obtención del valor de la salida de cada regla, así como la t-conorma de la suma como mecanismo de agregación de las salidas de cada regla, tendremos que la salida para un punto x viene dada por: N s' = m { } ∑ min Aij ( xi ) s j j =1 N i =1 ∑ min{A ( x )} j =1 m i =1 (1.16) j i i que es una expresión obtenida a partir del modelo de inferencia de Mamdani, análoga del modelo TSK. Una generalización del modelo TSK consiste en considerar como salida una función no lineal. Este tipo de modelos se denominan modelos cuasi-lineales y tienen un conjunto de reglas como el siguiente r1 : Si x1 es A11 y x2 es A21 y ... y xm es Am1 entonces s=f1(x1,x2, ... ,xm) r2 : Si x1 es A12 y x2 es A22 y ... y xm es Am2 entonces s=f2(x1,x2, ... ,xm) ....................................................................................... rN : Si x1 es A1N y x2 es A2N y ... y xm es AmN entonces s=fN(x1,x2, ... ,xm) Conjunto de reglas del modelo de cuasi-lineal (1.7) donde fj son funciones definidas sobre el dominio de las variables de entrada X1xX2x ... xXN. Considerando el valor de los consecuentes como conjuntos difusos puntuales, tendremos que el mecanismo de inferencia es el mismo MPG que el del modelo Mamdani.1 N B'(s) = ∑ γ j / f j ( x1 ', x 2 ',, x m ') . (1.17) j =1 1 Utilizamos la representación discreta de la función de pertenencia µ(x)=µ(x1)/x1 + ... + µ(xs)/xs , que muestra el valor de pertenencia asociado a cada punto. 20 Cap. 1 Modelado Difuso de sistemas. Herramientas Aplicando a este conjunto la etapa III del modelo Mamdani, tendremos que el modelo para una entrada (x1’, x2’, ... , xm’) dará una salida s’ que viene expresada como N s' = ∑γ j =1 j f j ( x1 ', x 2 ', x m ') . N ∑γ (1.18) j j =1 Una vez fijados los modelos difusos que mayor desarrollo han tenido (sobre todo dentro del control de sistemas, dando lugar a lo que se denomina control inteligente o control difuso) nos centraremos en el proceso de crear o descubrir modelos difusos que puedan describir los sistemas reales Ξ. 1.2.3 Identificación de Reglas Difusas para el Modelado de Sistemas. Para la definición de un modelo difuso, como para cualquier otro modelo que es una abstracción de un sistema real, tendremos que definir el mecanismo para establecer su estructura y poder luego ajustar sus parámetros[89]. Generalmente, la identificación de la estructura de un sistema lleva consigo dos procesos: el primero de ellos consiste en la determinación de las variables de entrada y de salida que son relevantes al sistema, mientras que el segundo proceso consiste en fijar el conjunto de relaciones existentes entre las variables de entrada y las variables de salida. En un sistema existen habitualmente un número elevado de posibles variables que pueden ser consideradas como candidatas para variables de entrada. De entre todas, nos hemos de restringir a un conjunto manejable de ellas. Este proceso de restricción en la selección de las variables de entrada no puede ser resuelto de forma general. Tal como ya dijo Newton en su principio del movimiento cinético no existe un proceso sistemático para encontrar las causas de un fenómeno desconocido. Este tipo de identificación está basado normalmente en métodos heurísticos , en la experiencia o en el propio sentido común, y suele quedar fuera de las especificaciones de los mecanismos de identificación de sistemas. 21 Cap. 1 Modelado Difuso de sistemas. Herramientas Determinado el conjunto de variables de entrada y salida que van a definir nuestro sistema, hemos de establecer, fijada una variable de salida, qué variables de entrada interactúan o afectan a dicha variable de salida. En definitiva, tendremos que emparejar las variables de entrada con aquellas de salida que se vean afectadas por las mismas. Existen distintos mecanismos sistemáticos para realizar este proceso, destacando entre ellos el análisis multivariante que es ampliamente utilizado. En la definición de los sistemas como cajas negras, esta identificación no existe explícitamente, prefijándose de antemano qué variables de entrada afectan a las distintas variables de salida. Hasta este momento, el proceso de identificación establece qué variables actúan en el sistema, así como la existencia de relaciones entre las variables de entrada y las de salida; pero no son fijadas dichas relaciones. El siguiente paso o etapa para la definición de la estructura del modelo difuso consiste en detectar el tipo de relación que une las entradas con las salidas, que en estos modelos quedan fijadas mediante el conjunto de reglas difusas que definen el modelo. Para la creación de este conjunto de reglas es necesario establecer su número (lo que equivaldría en la teoría clásica de sistemas a determinar el orden el mismo) y, por otro lado, determinar el aspecto de cada una de ellas, estableciendo la forma que han de tener los antecedentes, así como sus consecuentes. Por último, se impone un proceso de ajuste de todos los parámetros que interviene en la estructura del sistema, tanto de los antecedentes como de los consecuentes. En resumen, la identificación de un sistema podría venir expresada en el siguiente algoritmo: 22 Cap. 1 Modelado Difuso de sistemas. Herramientas Identificación de un sistema 1) Establecer la estructura del sistema Algoritmo 1.1 I) Determinar las variables involucradas Ia) ¿ Que variables interviene en el sistema ? Ib) ¿ Que variables de entrada actúan sobre una determinada salida ? II) Determinar que tipo de relación existe entre las variables de entrada y salida IIa) ¿ Cuantas reglas componen la BCD ? IIb) ¿ Que forma tiene los antecedentes y consecuentes de las reglas? 2) Ajustar todos los parámetros del sistema. Para realizar los procesos que involucran el algoritmo anterior hay dos enfoques distintos. Un primer enfoque, que denominaremos enfoque deductivo, consistiría en deducir el comportamiento de un sistema conocido, por ejemplo, un operador humano, mediante una descripción lingüística del mismo que será transformada en un conjunto de reglas difusas, mientras que el ajuste, tanto de los conjuntos difusos de salida como de los conjuntos difusos de las etiquetas lingüísticas de las variables de entrada, se realiza mediante el mecanismo de prueba y error. El segundo de los enfoques, que denominaremos enfoque inductivo, es un proceso que emplea una colección de valores de entradas y salidas conocidas del sistema que se va a modelar, a partir y mediante procedimientos inductivos[40], extrae el conjunto de reglas que configuran el modelo (Aprendizaje Automático). Sobre la base de ese conjunto de datos conocidos se establecen los conjuntos difusos que formarán los antecedentes, así como los conjuntos difusos de los consecuentes de cada regla, para finalmente, mediante el conjunto de valores conocidos de entradas y salidas del sistema, establecer un refinamiento de los conjuntos difusos presentes en las reglas, determinando de esta manera el ajuste del modelo. El enfoque deductivo es el mecanismo más clásico para la creación de modelos difusos. En él se supone la existencia de un experto que conoce perfectamente el sistema 23 Cap. 1 Modelado Difuso de sistemas. Herramientas que se va a modelar. Este puede ser interrogado para extraer el conjunto de reglas que utiliza para definir el sistema. Estas reglas vendrán expresadas generalmente en términos lingüísticos, que posteriormente se trasladan a sus correspondientes variables lingüísticas para configurar el conjunto de reglas que definen un modelo difuso. El proceso de ajuste se realiza mediante el mecanismo de prueba y error. Establecido el modelo se prueba; si el resultado no es el deseado, se pasa a modificar la definición de los antecedentes, consecuentes o a introducir o eliminar alguna regla , tras lo cual se vuelve a probar el modelo manteniendo esta dinámica hasta que los resultados sean los deseados. El enfoque empleo del deductivo impone varios requisitos que no siempre se cumplen o son viables. La suposición de la existencia del experto y de que éste sepa trasladar sus conocimientos del sistema en forma de reglas no siempre es cierta; pero más dura aún es la necesidad de comprobar el modelo para su ajuste. Son estos los motivos que propician el enfoque inductivo, cuya única necesidad es que haya la posibilidad de observar o monitorizar el sistema que se va a modelar, con lo que ya no tendrá que producirse una extracción de las reglas al experto, eliminando la dificultad que esto conlleva. Del proceso de observación se extraerá el conjunto de valores de entrada y salida del sistema que nos servirán posteriormente para establecer y ajustar el conjunto de reglas que definan el modelo difuso. Estos dos enfoques no tienen porque ser excluyentes ya que podemos utilizar el enfoque deductivo para el establecimiento de la estructura del modelo y el inductivo para el ajuste del mismo. La inducción de la estructura de modelos difusos ha sido tratada desde distintos enfoques o técnicas, A.F. Gomez-Skarmeta[33] realiza una clasificación de estos métodos en dos grandes categorías : 1. Métodos orientados a la interpolación de Puntos Difusos, denominación con la que caracteriza el modelo original de Mamdani y Zadeh original con sus distintas variantes. En éstos se establecen unas relaciones difusas entre las particiones difusas de los datos de entrada y las particiones difusas de los datos de salida, con los que describir una función difusa. Dentro de este grupo se pueden considerar dos enfoques : 24 Cap. 1 Modelado Difuso de sistemas. Herramientas a) Métodos orientados a la interpolación de grano grueso (ecuaciones relacionales difusas[78][79][77][25][26], ponderación de reglas lingüísticas y método de Sugeno-Yasukawa[85][89][88]) en los que se intenta agrupar conjuntos de valores con un comportamiento común mediante etiquetas lingüísticas o subconjuntos difusos que representan conceptos. b) Métodos orientados a la interpolación de grano fino, mediante indistinguibilidad (métodos basados en relaciones de desigualdad e interpolación mediante semejanzas y ejemplos paradigmáticos) en los que se intentan establecer los mecanismos de interpolación utilizando cada ejemplo en particular. 2. Modelos orientados a la aproximación de funciones parciales, denominación que corresponde al modelo TSK y sus derivados. En ellos se busca una descripción funcional del comportamiento de las particiones difusas detectadas en los datos de muestra. Sobre la base de la función utilizada para la descripción del modelo, se pueden encontrar dos subcategorias : a) Métodos con funciones constantes en el consecuente[72][71] (mediante técnicas de agrupamientos y/o gradiente descendente, agrupamiento y redes neuronales[47][48]), llamadas también métodos de consecuente puntual. b) Métodos con consecuentes en forma de función lineal o no lineal[89][91]. En la mayoría de los métodos de inducción anteriores se pueden distinguir claramente las dos etapas de todo proceso de identificación de un modelo difuso (algoritmo 1.1), por una parte la estructura es identificada mediante un proceso de partición del espacio de definición de la entradas, que es abordado de distintas maneras según el método utilizado. Por otra parte, una vez fijada la estructura de la cual se extraen las reglas que formaran el modelo, se produce un proceso de ajuste de todos los parámetros que intervienen. 25 Cap. 1 Modelado Difuso de sistemas. Herramientas Es esta coincidencia la que nos lleva a fijarnos en las técnicas clásicas para resolver el problema de la inducción de un clasificador, técnicas que han sido utilizadas con gran éxito. Uno de estos modelos de clasificadores son los árboles de identificación o clasificación[9]. Estos árboles, estableciendo una partición del dominio de las características que definen a un objeto, son capaces de realizar la clasificación. Este paralelismo nos lleva a fijarnos de forma especial en este modelo de clasificadores y sus extensiones con el fin de utilizarlas como mecanismo de identificación de la estructura y, si es posible, en el ajuste de un modelo difuso. En la siguiente sección presentaremos los conceptos básicos sobre clasificación, árboles de identificación y árboles de regresión así como los métodos de inducción de éstos. 1.3 Identificación y Modelado mediante Árboles de Regresión. Sea una colección de objetos O={o1, o2, ..., on} de los cuales destacamos un conjunto de características observables X={x1, x2, ..., xm} y un grupo de categorías o clases C={c1, c2, ..., ck}. Se define un clasificador [9]como una función definida sobre X que tiene como codominio el conjunto C. CLAS: X → C (1.19) Así pues puede caracterizarse la clasificación en términos de la utilización de un clasificador predeterminado en el cual introducimos los valores de (x1, x2, ..., xm) de un objeto oi devolviéndonos una clase cj. CLAS( x1 , x m ) = c j Otro enfoque utilizado en los clasificadores consiste en estructurar el conjunto X mediante una colección de conjuntos A={A1, A2, ..., Ak} donde cada conjunto Aj agrupa todos los objetos de O que pertenecen a una misma clase c. Podemos definir de nuevo la función CLAS mediante la composición de dos nuevas funciones. 26 Cap. 1 Modelado Difuso de sistemas. Herramientas Sea A={A1, A2, ..., Ak} tal que ∀i,j ∈{1,…,k} Ai ∩ Aj =∅ es una k-partición del conjunto X. Definimos las funciones IDENT y ASIG como IDENT: X → A (1.20) ASIG: A → C (1.21) y así un clasificador estaría definido mediante la composición de las funciones IDENT y ASIG CLAS ( x ) = ASIG ( IDENT ( x )) 2 (1.22) C LAS C X ID E N T A S IG A Figura (1.8) En el caso ideal podemos suponer que todos los objetos que pertenecen a un subconjunto Aj pertenecen a única clase cj , con lo que la función ASIG para cualquier conjunto Aj sería cj. Con esta premisa el clasificador CLAS quedaría reducido a la función IDENT. 1.3.1 Árboles de identificación. Las características que definen un objeto, según los valores que puedan tomar, pueden ser clasificadas en dos grandes categorías: • Con valores sin orden establecido. • Con valores con un orden establecido. Sea xj una característica que puede tomar valores sobre un conjunto Xj, si éste no posee un orden establecido como por ejemplo, los valores lógicos de {verdad, falsedad}, los colores de un semáforo {rojo, ámbar, verde}, etc., diremos que la característica xj es 27 Cap. 1 Modelado Difuso de sistemas. Herramientas no ordenada; pero, si los valores que componen Xj son valores de un subconjunto ordenado como el de la recta real, como, por ejemplo, la temperatura, altura, distancia, velocidad y, en general, cualquier magnitud medible, diremos que se trata de una característica ordenada. Una de las formas para definir los conjuntos que componen la k-partición A de X es establecer colecciones de subconjuntos sobre cada uno de los dominios de definición de los elementos de X. Esto es, x ∈ Aj si y solamente si { (x1 ∈ SX1) y … y (xm ∈ SXm)} donde SXi ⊆ Xi para i=1,…,m. La manera más habitual de definir los subconjuntos SXi es mediante alguna pregunta sobre el valor de xi. Estas preguntas han de depender del tipo de característica que sea xi, pudiendo establecerse dos clases según sean características ordenadas o no ordenadas. • ¿ xi ≤ c ? • ¿ xi es igual a c ? siendo c una constante perteneciente a Xi y las posibles respuestas exclusivamente SI o NO. Por lo tanto, podemos establecer un elemento Aj de A mediante una secuencia de preguntas Q={q1, q2, ..., qm} y decir que xi pertenece a Aj si es afirmativa la contestación a todas las preguntas que definen Aj. Construyendo los conjuntos de preguntas Qj para j=1,…,k estableceremos la función IDENT y, en consecuencia, tendremos un clasificador CLAS. Se pueden estructurar los conjuntos de preguntas mediante una estructura de árbol binario, donde cada nodo está etiquetado con una pregunta, los arcos que de él parten con las posibles respuestas SI o NO y los nodos hoja o terminales con un conjunto Aj o, lo que es lo mismo, con una clase cj. Se denomina árbol de identificación o clasificación a una estructura de árbol como la descrita. 2 El término x representa el vector (x1, …, xm) de todas características de un objeto 28 Cap. 1 Modelado Difuso de sistemas. Herramientas q0 SI NO q1 SI C1 q2 NO SI C2 C3 NO C1 Árbol de identificación o clasificación (1.9) En la figura 1.9 podemos observar gráficamente la estructura de un árbol de identificación, que refleja un clasificador donde los qi son preguntas realizadas sobre alguna característica concreta de un objeto observado y los cj son las posibles clases a las que cualquier objeto puede pertenecer. La clasificación se realiza mediante un árbol de identificación comenzando a contestar a la pregunta situada en el nodo raíz del árbol y, dependiendo de la respuesta, se volverá a contestar a la pregunta que corresponda al nodo al que nos lleve el arco etiquetado con la mencionada respuesta. Este proceso se repite hasta llegar a un nodo hoja donde obtendremos la clase asignada al objeto. El mecanismo de clasificación por medio de un árbol de clasificación T queda reflejado en el siguiente algoritmo. 29 Cap. 1 Modelado Difuso de sistemas. Herramientas ÁrbolCLAS Algoritmo 1.2 Entrada : una árbol de identificación T y un objeto o a clasificar Salida : la clase a la que pertenece o Sea n un nodo n := nodo raíz de T Mientras n no sea un nodo hoja hacer Contestar a la pregunta del nodo n referente a o Sea r la respuesta n := nodo al que apunta el arco de n etiquetado con r FinMientras Devolver la clase asociada al nodo n 1.3.2 Calidad de los clasificadores. Nosotros estamos interesados en construir clasificadores mediante técnicas inductivas, esto es, dado un conjunto de objetos que conocemos, pretendemos definir un clasificador que los clasifique correctamente. Está claro que con estas premisas no existe un único clasificador. Esto nos obliga a graduar su calidad para poder tener un criterio de selección. Este criterio no sólo va a permitir rechazar aquellos que no sean lo suficientemente buenos, sino que también servirá de guía para su determinación. Partamos de una colección de n objetos conocidos o conjunto observado LO={ (x1, y1), ... ,(xn, cn) } donde cada par (xi, ci) representa un objeto , siendo xi el vector con los valores de las características relevantes al objeto y ci la clase conocida a la que dicho objeto pertenece. Para construir el clasificador CLAS utilizaremos un subconjunto L de LO que denominaremos conjunto de aprendizaje. Una vez construido CLAS, definamos la función VERDAD de la proposición P como 30 Cap. 1 Modelado Difuso de sistemas. Herramientas 1 Si P es cierto VERDAD( P) = 0 Si P es falso (1.23) Por tanto, podremos estimar la calidad de nuestro clasificador calculando el promedio de fallos que comete al clasificar los objetos de LO. Llamaremos estimador de resustitución R a n R(CLAS) = ∑ VERDAD(CLAS( x j ) ≠ cj) j =1 . n (1.24) En este caso hemos considerado que el conjunto de aprendizaje coincide con el observado; pero la utilización del mismo conjunto de datos para la creación del clasificador y para su evaluación puede influir entre si. Para evitar en lo posible esta influencia, podemos considerar el conjunto de aprendizaje L como un subconjunto propio de LO sin ser el mismo LO, y dedicar el resto de los objetos observados L’=LO-L como conjunto de prueba o test. Al estimador formado de esta manera se denomina estimador por un conjunto de test Rst. st R (CLAS ( L) )= ∑ VERDAD(CLAS ( x ,c )∈L ' L' ( L) ( x) ≠ c) . (1.25) Donde CLAS(L) refleja que el clasificador ha sido construido mediante el conjunto L. El estimador mediante conjunto de test es correcto mientras la cantidad de objetos observados sea grande. En el caso de tener pocos objetos, necesitamos tomar gran parte de ellos para la construcción del clasificador, por lo que el conjunto test que quede será demasiado pequeño para proporcionar un contraste significativo. Ante este tipo de situaciones hay otra estrategia consistente en dividir el conjunto observado LO en una serie de v subconjuntos con aproximadamente igual número de elementos cada uno, sea {L1, L2, ..., Lv} y tomar como conjunto de aprendizaje LO-Li y como conjunto de test Li con lo que tendremos el estimador Rst 31 Cap. 1 Modelado Difuso de sistemas. Herramientas st R (CLAS ( LO − Li ) )= ∑ VERDAD(CLAS ( LO − Li ) ( x) ≠ c) ( x , y )∈Li . Li (1.26) A Rcv, que considera la media de los estimadores de conjunto de test para los v subconjunto se denomina estimador de v validaciones cruzadas3. v R (CLAS ) = CV ∑R st (CLAS ( LO − L j ) j =1 v ) . (1.27) 1.3.3 Inducción de un árbol de clasificación. Hemos visto cómo podemos medir la calidad de un clasificador por medio de los errores cometidos al utilizarlo; por lo tanto, podemos decir que un clasificador es mejor que otro cuando al elegir un estimador obtenemos menores errores frente al mismo conjunto de aprendizaje. Esto nos lleva a centrarnos en construir (inducir) clasificadores, como los árboles de identificación, que en su proceso de generación contemplen el valor del estimador que se utilizará para evaluar su calidad. Supongamos pues que tenemos un conjunto de objetos observado LO. Para que éste sea representativo de la totalidad de los objetos deberá verificar que la distribución probabilística de las clases existente en la muestra considerada (LO) ha de reflejar la que se tiene en el universo total de los objetos. Si consideramos X como el dominio de definición de todas las características observables para nuestros objetos podemos decir : P(CLAS ( x ∈ X ) = c) = P(CLAS ( x ∈ LO) = c) . (1.28) La ecuación 1.28 establece que la probabilidad de que un objeto que tiene las características x pertenezca a la clase c es la misma en el conjunto global de todos los objetos posibles y en el conjunto de los observados. Como el clasificador se va a construir con un conjunto de aprendizaje L, éste ha de cumplir también esta suposición, obteniéndolo mediante una extracción aleatoria de LO que permita afirmar que dichas distribuciones 3 Este estimador en la literatura anglosajona se denomina V-Fold Cross-Validation 32 Cap. 1 Modelado Difuso de sistemas. Herramientas se mantienen. Esto facilita la estimación de las probabilidades de cada una de las clases c en el conjunto global de objetos a partir de las observadas en L P(CLAS ( x ∈ L) = c) = ∑VERDAD( y = c) ( x ,c )∈L L = P(c / L) (1.29) A esta probabilidad de que un elemento de L sea clasificado en la clase c la notarek ∑ P(c mos como P(c/L) verificándose j / L) = 1 para las k clases posibles. j =1 Fijadas las probabilidades de las distintas clases dentro del conjunto L, si tenemos que asignar el conjunto completo a una única clase, es decir, establecer la función ASIG para el conjunto L, la elección más natural será elegir la clase que menor valor nos dé para el estimador utilizado en la evaluación del clasificador4. Utilizando el estimador R tendremos que la clase que nos hace menor su valor es la clase mayoritaria en el conjunto, por lo que la función ASIG queda establecida como ASIG ( L) = c tal que P(c / L) ≥ P(c j / L) i = 1,, k (1.30) la clase con mayor probabilidad dentro del conjunto L. En el peor de los casos, cuando las clases estén uniformemente distribuidas dentro del conjunto L, es decir, P(cj/L)=P(ci/L) para cualquier i,j ∈ {1, … , k}, el estimador dará el mayor valor posible R(CLAS ) = L− L 1 K (1.31) Por contra en el caso en que esta distribución de probabilidad de las clases estuviese sesgada totalmente hacia una determinada clase, P(cj/L)=1 y P(ci/L)=0 para toda i≠j , el estimador tendría valor mínimo 4 En este trabajo consideraremos el estimador de resustitución R, aunque todo lo aquí expuesto es trasladable a cualquier otro estimador como Rst y Rcv. 33 Cap. 1 Modelado Difuso de sistemas. Herramientas R(CLASS ) = L− L 0 = =0 L L (1.32) Nota: Algunos autores plantean de modo general una función de evaluación de la uniformidad de la distribución de las clases dentro del conjunto L, que valore lo “desordenado” que está el conjunto L, mediante i:[0,1]k→ℜ , que debe cumplir las siguientes propiedades sobre sus valores máximos y mínimos. 1 1 max (i ) = i ( , , ) k k min(i ) = i (0, ,1,0) (1.33) Una de las funciones muy utilizadas como función i( a partir de los trabajos de Quinlan[81] sobre su algoritmos ID3) es la función de la entropía o cantidad de información k − ∑ log( P(ci / L)) * P(ci / L) . (1.34) i =1 No obstante también se emplea la función de estimación R que como ya vimos anteriormente (ecuaciones 1.31 y 1.32) verifica las características de i. El clasificador descrito hasta este momento es bastante deficiente puesto que no se aprovecha de ningún metaconocimiento de los datos de entrenamiento. Una forma directa de mejorarlo es ordenando el conjunto L, esto es, dividiendo L en dos subconjuntos disjuntos LD y LI de tal forma que R(CLAS), aplicado al conjunto LD que notaremos R(LD), y R(CLAS), aplicado al nodo LI, que llamaremos R(LI) sean menores que R(L). Esta división quedará establecida mediante una pregunta sobre alguna de las característica de los objetos de L. En otras palabras, estamos creando un nodo de un árbol de identificación. Dado un conjunto de aprendizaje L, consideraremos como nodo raíz de un árbol de identificación T, el nodo que posee la primera pregunta que realizamos sobre alguna característica de los objetos. Notaremos como Lt al subconjunto de L sobre el que se rea- 34 Cap. 1 Modelado Difuso de sistemas. Herramientas liza la pregunta del nodo t y qit a la pregunta sobre la característica i-ésima realizada en el nodo t. Gráficamente se puede mostrar como en la figura 1.10 L q Ti pD SI NO LD pI LI División de un nodo (1.10) siendo pD y pI las proporciones de elementos de L que pertenecen a LD y LI respectivamente, y si notamos i(L) a la función i aplicada sobre la distribución de las clases del conjunto L, tendremos que, tras la aplicación de la división de L mediante la pregunta qTi , el valor del estimador R(L) será el máximo entre R(LD) y R(LI), y como estos son menores que R(L), habremos obtenido una mejora de nuestro clasificador. Utilizando como el estimador R como función i , esta mejora la podemos formular en términos de la variación de la función R sobre L, producida como consecuencia de la división de L, que definimos como ∆R( Lt , qti ) = R( Lt ) − ( p D * R( LD ) + p I * R( LI )) . (1.35) El valor de nuestro estimador mejorará más cuanto mayor sea el incremento ∆R(Lt,qti) obtenido tras la división. Esto nos proporciona un mecanismo de selección de la pregunta más adecuada en cada nodo. Sea Qit={q1, q2, ..., qs} el conjunto de todas las posibles preguntas que podemos realizar sobre la característica i en un nodo t. Dependiendo del tipo de característica y considerando que para Xi se ha observado en L el siguiente conjunto de valores {v1, v2, ..., vh}, tendremos que Qit estará formado por las h-1 preguntas de la forma ¿xi ≤ (vj+vj+1)/2 ? para j=1, ... , h-1, si es una característica ordenada ( vi≤vj si i≤j ). En el caso de que ésta no fuese ordenada tendríamos h preguntas del tipo ¿xi es vj ? para j=1 , ... , h. 35 Cap. 1 Modelado Difuso de sistemas. Herramientas Del conjunto Qit la pregunta a realizar sobre la característica i, según el criterio anterior, tendría que ser aquella qit* que verificase qti = maxi {∆R( Lt , q)} = min{ p D * R( LD ) + p I * R( LI )} * q∈Qt (1.36) q∈Qti para finalmente tomar como pregunta a realizar en el nodo t qt aquella sobre la característica que mayor cambio origine en el estimador. { * } ∆R( Lt , qti ) i = 1,, m qt = max * qti (1.37) Una vez seleccionada la pregunta y establecida la división del nodo t, podremos aplicar el mismo proceso a cada uno de los subnodos (subconjuntos) obtenidos hasta terminar el proceso cuando no consigamos ninguna mejora del estimador, es decir, que el valor para los subconjuntos sea menor que un valor que fijemos como suficiente pudiendo llegando al extremo de R(L)=0. Esta forma de actuar proporciona un algoritmo para la inducción de un clasificador mediante la construcción sistemática de un árbol de clasificación. 36 Cap. 1 Modelado Difuso de sistemas. Herramientas Inducción de un árbol de clasificación Algoritmo 1.3 Entrada : Un conjunto de aprendizaje L Salida : Un árbol de clasificación T Sea P ={L} Crear el nodo raíz de T y denominarlo tL Mientras P≠∅ hacer Sea C=e e∈P P=P-e Si R(C)≠0 entonces Construir el conjunto Q de todas las preguntas realizables al conjunto de objetos C Mediante las ecuaciones 1.36 y 1.37 seleccionar la pregunta qC Etiquetar al nodo tC con la pregunta qC Dividir C mediante la pregunta qC en los subconjuntos CD y CI Crear sendos nodos tCD y tCI Crear enlaces etiquetados con SI y NO desde el nodo tC a los nodos tCD y tCI P=P∪{CD,CI} sino Marcar el nodo tC como terminar o nodo hoja. Asignar la clase ASIG(C) según la ecuación 11.3030 al nodo tC finSi FinMientras 37 Cap. 1 Modelado Difuso de sistemas. Herramientas Quinlan [81][80], con sus trabajos sobre los árboles de clasificación, popularizó la inducción y usó de éstos como mecanismo de clasificación. En su versión más elemental, el problema que este algoritmo resuelve es la inducción de un árbol de clasificación donde todas las características asociadas a un objeto son cualitativas. Esto significa que son no ordenadas y que los posibles valores que pueden tener constituyen un conjunto finito Xi={x1, x2, ..., xs}. Ante este tipo especial de características, las preguntas que se han de realizar en un nodo determinado son reformuladas como: ¿ Qué valor tiene la característica Xi ?. A esta cuestión cabe contestar con s posibles respuestas, una por cada valor de la característica. Esto origina un cambio en la estructura vista hasta ahora del árbol de clasificación, que consiste en la existencia de S subnodos que cuelgan del nodo donde se produce la pregunta, etiquetando con un valor de Xi el arco que une este nodo con el subnodo correspondiente al conjunto de objetos que posee dicho valor. En definitiva, el árbol de clasificación obtenido no tiene por qué ser un árbol binario, sino un árbol donde el número de descendientes de cada nodo es el número de valores posibles para la característica cuestionada. ¿Xi ? xs x1 x2 xs-1 Figura (1.11) Otra de las propiedades de este algoritmo es que fija como medida de desorden de los subconjuntos obtenidos la cantidad de información (ecuación 1.34), al mismo tiempo que “ventanas” como conjuntos de aprendizaje. Esto consiste en tomar un subconjunto o “ventana” L de LO como conjunto de aprendizaje e inducir de él un árbol de decisión. 38 Cap. 1 Modelado Difuso de sistemas. Herramientas Una vez construido el árbol se van clasificando con él los elementos de LO-L. Si todos han sido bien clasificados, el proceso termina y el árbol de clasificación en curso se da como definitivo; pero, si hay alguno que está mal clasificado, se introduce en L, aumentando el tamaño de la ventana y comenzado de nuevo a inducir el árbol de clasificación. Experimentalmente se ha observado que con ventanas relativamente pequeñas se acelera el proceso de inducción del árbol de clasificación y, tras pocos aumentos de las mismas, se consigue clasificar la totalidad de los objetos observados de LO. ID3 Entrada : LO conjunto de objetos observados Algoritmo 1.4 Salida : T árbol de clasificación. L= subconjunto de LO Repetir Obtener T mediante el algoritmo 1.3 a partir de L Éxito=verdad R=LO-L Mientras (R≠∅) y (no Éxito) hacer tomamos e∈R R=R-e Éxito=(T(e)=ye)5 FinMientras Si no Éxito entonces L=L∪{e} FinSi Hasta Éxito 1.3.4 Caracterización de las clases. Mediante los procesos anteriores hemos construido los árboles de clasificación T para el conjunto de objetos observados LO, lo que nos permite utilizar T como clasificador 5 Notaremos T() a la función CLAS cuando realicemos la clasificación con el árbol de clasificación T. ye representa la clase del elemento e. 39 Cap. 1 Modelado Difuso de sistemas. Herramientas para objetos desconocidos que no pertenecen a LO. Dado un nuevo objeto o, podremos establecer la clase a la que pertenece mediante T(o)=c; pero, si nos preguntamos por las características que definen a la clase c, el árbol de clasificación como simple clasificador no aportará nada, mientras que, si nos fijamos en su estructura, veremos cómo podemos extraer esta información. Estamos interesados en caracterizar la clase c∈C que aparece en algunos nodos hoja del árbol de clasificación T; nombremos Hc={h1, h2, ..., hr} al conjunto de nodos hoja que son asignados a la clase c. Para asignar cualquier objeto a la clase c, se ha de llegar desde el nodo raíz de T hasta algún nodo hoja de Hc . Esto quiere decir que el objeto que ha llegado al nodo h∈Hc verifica que los valores de las características sobre las que han sido realizadas las preguntas por cada nodo que ha pasado han de coincidir con los valores de las etiquetas de los arcos por donde ha pasado, por lo cual el camino desde el nodo raíz de T hasta el nodo hoja h, caracteriza a la clase c. Sea el {t0,t1 ...,tr, h} los nodos que componen el camino desde el nodo raíz t0 al nodo hoja h, qt la cuestión realizada en el nodo t y ru,v la respuesta que etiqueta el arco del nodo u al nodo v. Para que un objeto pase del nodo tj al nodo al nodo tj+1 se ha de verificar que “ qtj es rtj,tj+1” para j desde 0 hasta r, con lo que finalmente podremos afirmar que se ha llegado al nodo h y que, por tanto, pertenece a la clase c. Esto lo podemos expresar mediante una regla de clasificación que tiene la forma : Si qt0 es rt0,t1 y qt1 es rt1,t2 y ... y qtr es rtr,h entonces o pertenece a la clase c Parece obvio establecer que el antecedente identifica un camino que ha de seguir un objeto por el árbol de clasificación para que el consecuente sea verdadero. Ahora bien, generalmente hay un conjunto de nodos en Hc que muestran distintos caminos para identificar una misma clase. Esto obliga a realizar una disyunción de los distintos caminos en la parte del antecedente. Si (qt0 es ... es rt,h1) o ... o (qt0 es ... es rt,hr) entonces o pertenece a la clase c La regla obtenida caracteriza totalmente a la clase c. Normalmente la forma disyuntiva del antecedentes es eliminada mediante la introducción de nuevas reglas cuyos ante- 40 Cap. 1 Modelado Difuso de sistemas. Herramientas cedentes están todos en forma conjuntiva, originando varias reglas para definir una misma clase. Si qt0 es rt0,s1 y qs1 es rs1,s2 y ... y qsr es rsr,h1 entonces o pertenece a la clase c Si qt0 es rt0,r1 y qr1 es rr1,r2 y ... y qrr es rrr,h2 entonces o pertenece a la clase c ................................................................ Si qt0 es rt0,v1 y qv1 es rv1,v2 y ... y qvr es rvr,hr entonces o pertenece a la clase c Para caracterizar todas las clases posibles tendremos conjuntos de reglas para cada una de ella. Una colección de reglas de clasificación que verifican que para un cierto objeto o sólo hay un antecedente válido que origina el disparo de una única regla es también un clasificador. 1.3.5 Árboles de identificación como mecanismo de aproximación de funciones. Partamos de un sistema desconocido Ξ que tiene definidas sus entradas en un conjunto de X ∈ ℜm y sus salidas en S∈ ℜ, de tal forma que pueda considerarse que existe una relación funcional Ξ:X→S, que estamos interesados en definir mediante un modelo Ψ:X→S. Al considerar que todo elemento de S representa una clase, estaremos trasladando el problema inicial de una aproximación a la función Ξ a un problema de clasificación que nos permite identificar al modelo buscado Ψ como un clasificador de los objetos de X en las clases de S[9][59]. En definitiva, se puede plantear que la clasificación es un caso concreto del problema de la aproximación de funciones cuando los valores de la misma están restringidos a un conjunto finito[99]. Esta generalización nos permite utilizar métodos de clasificación tales como los árboles de identificación o clasificación como mecanismos de aproximación de funciones, con la peculiaridad de sustituir la clase asignada en sus nodos hoja por el valor de salida para el modelo Ψ. Los árboles de identificación modificados en este sentido se denominan árboles de clasificación y regresión6[9]. Un ejemplo de un árbol de regresión lo tenemos en la figura 1.12 41 Cap. 1 Modelado Difuso de sistemas. Herramientas x1≤ 9 NO SI x2≤ 7 SI y=15 y=5 NO y=7 Árbol de regresión y clasificación (1.12) Mediante el cual la salida asignada a un nuevo dato (7,9) es 7. El árbol de regresión refleja modeliza el sistema Ξ como la superficie de la figura 1.13 Modelo de Ξ (1.13) 1.3.6 Inducción de un árbol de regresión. Antes de plantearnos la inducción propia de un árbol de regresión, hemos de cambiar algunos de los conceptos utilizados por los árboles de clasificación. El primero que tenemos que abordar es el de la especificación de los estimadores de bondad de los árboles de clasificación. Como ya vimos, básicamente podemos considerar tres estimadores : 6 En la literatura anglosajona son denominados CART. 42 Cap. 1 Modelado Difuso de sistemas. Herramientas resustitución (ecuación 1.24), conjunto de test (ecuación 1.25) y v-validaciones cruzadas (ecuación 1.27). Todos ellos reflejaban el nivel de fallo que posee nuestro clasificador frente al conjunto de objetos observados. Éstos se basaban en la función VERDAD (1.23) que medía el acierto de la clasificación. En la aproximación de funciones para medir lo acertado de un modelo es necesario utilizar alguna medida de distancia entre los valores que origina el modelo y los reales ; si llamamos d a esta función, los estimadores anteriores quedarán definidos como: R(T ) = st R (T ( L) ∑ d(T ( x), s) ( x , s )∈LO )= R cv (T ) = . LO (1.38) ∑ d (T ( x), s) ( x , s )∈LO − L . LO − L (1.39) ( ) 1 v st ( Li ) ∑R T v i =1 (1.40) Considerando la función distancia como (s'-s)2 , siendo s' el valor que produce el árbol de regresión y s el que realmente origina el sistema ante una misma entrada x , y tomando R como el criterio para la estimación de la calidad de nuestro árbol de regresión T, fijaremos la función ASIG de tal forma que haga mínimo el valor de R dentro de LO ∑ (s'− s) ASIG ( LO) = s * = min ( x , s )∈LO s∈R LO 2 , (1.41) valor que corresponde al valor medio de las salidas dentro del conjunto L∈LO, ASIG ( LO) = ∑s ( x , s )∈L L 43 . (1.42) Cap. 1 Modelado Difuso de sistemas. Herramientas Debido al carácter real de la variables de salida, evitaremos la disparidad de valores máximos que podemos obtener para el estimador normalizando sus valores sobre la base del valor que toma el estimador ante la aproximación más básica que podemos hacer del conjunto observado LO, es decir, la media de sus salidas. Con esta medida tendremos la siguiente forma para nuestro estimador normalizado, que denominaremos RN s= R( s ) = ∑s ( x , s )∈LO LO . ∑ (s − s ) 2 ( x , s )∈LO RN (T ) = LO . R(T ) . R( s ) (1.43) Esta normalización permite considerar los valores de RN indiferentemente del rango de valores de S y así calificar la bondad del ajuste. < 1 Bueno RN (T ) = = 1 Normal > 1 Malo Si el valor de RN(T) es igual a 1, el ajuste será igual al conseguido mediante la aproximación básica de la media de las salidas. Este es el primer ajuste que realizamos en nuestro esquema y que intentaremos mejorar. Que el valor de RN(T) sea mayor de 1, quiere decir que R(T)>R( s ), lo que indica que estamos ante una aproximación más pobre que la obtenida inicialmente, mientras que si RN(T)<1 implica que R(T)<R( s ) o lo que es lo mismo, que mejoramos la primera aproximación. En términos generales cuanto menor sea el valor de RN(T) tanto mejor será la aproximación. Una vez establecido el nuevo estimador normalizado construiremos, de igual forma que en los árboles de identificación, el conjunto de preguntas que divide el espacio de definición X del sistema. Supongamos que en un nodo t del árbol realizamos la pregunta qij , siendo esta la pregunta i-ésima para la característica j-ésima de entrada, esto produ44 Cap. 1 Modelado Difuso de sistemas. Herramientas ce una división del conjunto de datos Lt asociado al nodo t en dos nuevos subconjuntos LI y LD correspondientes a los elementos de Lt que tienen una respuesta positivas o negativa ante la pregunta qij, asociándolos a sendos nodos I y D. Esta división actúa variando el estimador sobre el nodo t de la siguiente forma: I D RN ( D) . ∆RN (t , qij ) = RN (t ) − RN ( I ) + L L (1.44) Al igual que en la clasificación tomaremos aquella pregunta q*, entre todas las posibles para cada una de las variables de entrada, que produzca una mayor variación en la estimación y se le asignará al nodo t, q * = max ∆RN (t , qij ) , i, j (1.45) obteniendo un algoritmo análogo al 1.3 de la inducción de un árbol de clasificación. 45 Cap. 1 Modelado Difuso de sistemas. Herramientas Inducción de un árbol de regresión Algoritmo 1.5 Entrada : Un conjunto de aprendizaje L y un nivel de error ε Salida : Un árbol de regresión T Sea P ={L} Crear el nodo raíz de T y denominarlo tL RE(T)=ASIG(L) Mientras (P≠∅) y (RN(T)>ε) hacer Sea C=e e∈P P=P-e Construir el conjunto Q de todas las preguntas realizables al conjunto de objetos C Mediante la ecuación 1.45 seleccionar la pregunta qC Etiquetar al nodo tC con la pregunta qC Dividir C mediante la pregunta qC en los subconjuntos CD y CI Crear sendos nodos tCD y tCI Crear enlaces etiquetados con SI y NO desde el nodo tC a los nodos tCD y tCI P=P∪{CD,CI} RN(T)=RN(T)-RN(C)*(|C|/|L|)+(|CD|/|L|)*RN(CD)+(|CI|/|L|)*RN(CI) finSi FinMientras Este algoritmo puede ser modificado introduciendo como salida para cada subconjunto determinado, no un valor constante, como es el caso que nos ha centrado, sino una función dependiente de las variables de entrada. Utilizando las técnicas clásicas de regresión ceñidas a los elementos que componen un subconjunto concreto se origina un mayor ajuste de la aproximación. 1.4 Empleo de Árboles para la Identificación de Modelos Difusos. Los árboles de decisión son extendidos por Yuan y Sham[104] al ámbito de los conjuntos difusos como mecanismos de clasificación vaga, pero no son utilizados para el 46 Cap. 1 Modelado Difuso de sistemas. Herramientas establecimiento de modelos generales de sistemas MISO en el sentido de Mamdani o TSK. Como hemos visto en la sección referente a los árboles de regresión, estos pueden ser considerados como modelos de sistemas del tipo Ξ, cuya inducción origina una partición del espacio X de entradas. Esto define, en términos del algoritmo 1.1, la estructura del sistema, lo cual ha sido utilizado por Roger Jang para establecer un mecanismo de inducción de la estructura de modelo difuso, que posteriormente es ajustado mediante su método de ajuste ANFIS[47]. El método de ajuste ANFIS( Artificial Neuronal Fuzzy Inference System) se basa en los modelos difusos tipo TSK. Consideremos el sistema de reglas TSK de la figura 1.5 y realicemos las siguientes transformaciones β = j γ j . N ∑γ (1.46) j i =1 El valor de s’ será según 1.14 y 1.46 N m j =1 i =1 s' = ∑ β j (b0j + ∑ x i bij ) . N ( ) s'= ∑ β j b0j + β j b1j x j ++ β j bmj x m . j =1 (1.47) Según 1.14 el método ANFIS crear la siguiente red neuronal con cinco etapas 47 Cap. 1 Modelado Difuso de sistemas. Herramientas Parámetros de los antecedentes Parámetros de las consecuentes A11 ∏ x1 A2 β1 Ν 1 A12 x2 γ1 β 1 f1 ∏ Ν γ2 A22 Nivel 1 Σ β 2 f2 Nivel 2 s’ β2 Nivel 4 Nivel 3 Nivel 5 Red ANFIS (1.14) El primer nivel es el encargado de obtener el grado de pertenecía de cada uno de los valores de entrada. En esta etapa los valores de las funciones de pertenecía están parametrizados {a, b, c} mediante alguna de las siguientes funciones µ( x ) = 1 x − c 2 1 + a b . (1.48) o µ( x ) = e x −c − a 2 . (1.49) El segundo nivel calcula el grado de pertenencia de la entrada a cada uno de los antecedentes de las reglas mediante la t-norma del producto. El tercer nivel implementa la ecuación 1.46, mientras que el cuarto nivel calcula los productos entre el grado de pertenencia de cada regla y los valores de salida en dicha regla para agregarlos todos mediante su suma en el quinto nivel, obteniendo así finalmente el valor de salida del sistema. La configuración del sistema de reglas mediante una red neuronal posibilita que se realicen dos procesos de ajuste: un primer proceso de ajuste que se realiza en el camino hacia adelante de los datos por la red, donde mediante el algoritmo del filtro de Kalman se ajustan los parámetros de los consecuentes, y otro proceso de ajuste propio de las 48 Cap. 1 Modelado Difuso de sistemas. Herramientas redes neuronales, que se realiza mediante el algoritmo de back-propagation, con lo que se ajustan los parámetros de los antecedentes. El funcionamiento de una red ANFIS se podría expresar mediante el siguiente algoritmo. ANFIS Algoritmo 1.6 Entrada : Red y conjunto de ejemplos (x,y) Mientras queden ejemplos por analizar hacer Tomar un ejemplo y aplicar un ajuste mediante el filtro de Kalman Ajustar la red mediante el algoritmo back-propagation FinMientras Salida : La red ajustada. ANFIS es un método de ajuste de los parámetros ya que no tiene capacidad inicial de definir la estructura del sistema que se va a modelar; es por eso por lo que toma el algoritmo 1.5 de inducción de un árbol de regresión, con lo que obtiene una partición no difusa en el espacio de las entradas. Estas particiones están formadas mediante preguntas del tipo ¿x>c?, que a su vez establecen una partición en el dominio de definición de una variable de entrada. Roger Jang [48], toma esas preguntas y las traslada a conjuntos difusos que tienen la forma: 0 1 x − (c − a) 2b a 2 µ x >c ( x) = 2b 1 − 1 c + a − x 2 a 1 49 x ≤c−a c−a< x ≤c (1.50) c< x ≤c+a c+a< x Cap. 1 Modelado Difuso de sistemas. Herramientas Función de pertenencia de µx>2 (1.15) y considerando que el valor de un nodo hoja del árbol de regresión inducido se fija mediante una combinación lineal de los valores de entrada, puede establecer el conjunto de reglas que define un modelo TSK y ajustarlo posteriormente mediante ANFIS. Lo que pretende esta modelización es suavizar las zonas que limitan las regiones no difusas mediante la fuzzificación de las mismas. Consideremos el árbol de regresión de la figura 1.16, que modela una función definida sobre las variables de entrada x e y, cuyos nodos hojas proporcionan una salida como combinación lineal de las entradas del tipo fi=b0i+b1ix+b2iy x>a1 S N y>a2 S N S f1 f2 f3 y>a3 N f4 Árbol de regresión (1.16) El conjunto de reglas difusas que se extraen del árbol según Roger Jang serán: 50 Cap. 1 Modelado Difuso de sistemas. Herramientas Si x es µx>a1 y y es µy>a2 entonces f1=b01+b11x+b21y Si x es µx>a1 y y no es µy>a2 entonces f2=b02+b12x+b22y Si x no es µx>a1 y y es µy>a3 entonces f3=b03+b13x+b23y Si x no es µx>a1 y y es no µy>a3 entonces f4=b04+b14x+b24y. Estas reglas tendrán asociada la red neuronal de la figura 1.17 x µx>a1 Π f1 Π f1 inv µy>a2 y inv Π f1 inv Π f1 µy>a3 Σ s Red ANFIS (1.17) donde inv representa la negación del conjunto difuso y se sustituye la t-norma del mínimo del modelo TSK por la t-norma del producto. En la siguiente sección planteamos un modelo difuso fundamentado en la partición del espacio de definición de las variables de salida y aportamos como mecanismo de definición del mismo una generalización de los árboles de regresión y clasificación que establezca regiones difusas directamente de manera que puedan ser trasladadas a un conjunto de reglas difusas del tipo de consecuente puntual, TSK o su generalización. 51 &DStWXOR Árboles Difusos de Regresión e Identificación. 2.1 Introducción. En este capítulo estableceremos nuestra aportación para la identificación de modelos difusos de sistemas, mediante técnicas inductivas. En la sección 2.2 definiremos el tipo sistema que queremos modelar, fijando el modelo difuso desde el punto de vista de las técnicas de agrupamiento, es decir, definiendo un conjunto de grupos o clases sobre el dominio de las variables de entrada a las que le asignaremos unos valores de salida, y fijando un criterio para la estimación del modelo construido. En la sección 2.3 mostraremos como construir nuestro modelo, mediante técnicas inductivas sobre los datos conocidos del sistema a estudiar. Seguiremos la misma filosofía empleada en la construcción de los árboles de regresión y clasificación, obteniendo un mecanismo de jerárquico para la construcción del modelo. Para poder llevar acabo este objetivo fijaremos la representación de las regiones difusas del modelo, como conjunción de clases establecidas sobre cada una de las variables de entrada obligándonos a definir en la subsección 2.3.3 un nuevo mecanismo de agrupamiento difuso de un conjunto difuso. Fijado el modelo y un mecanismo para su construcción, en la sección 2.4 extrapolaremos el modelo a una estructura de árbol. En base a los árboles difusos de decisión construiremos uno con las características para la inducción de nuestro modelo, que al estar fundamentado en la metodología de los árboles de regresión y clasificación nos originará un árbol difuso de regresión e identificación (ADRI), que nos servirá no sólo para poder representar nuestro modelo, sino también para construir un conjunto de reglas difusas de consecuente puntual como modelo del sistema como mostramos en la sección 2.5. Finalizaremos el capítulo aplicando ,a un ejemplo de una función no lineal, lo expuesto en él. Cap. 2 Árboles Difusos de Regresión e Identificación. 2.2 Caracterización del modelo difuso. Consideremos un sistema MISO desconocido que llamaremos Ξ, que tiene un conjunto de m variables reales de entrada definidas sobre el dominio X=X1× ... ×Xm ⊂ ℜm, y una variable real de salida definida el dominio S⊂ℜ,luego el sistema Ξ puede ser descrito como Ξ : X → S. Del sistema Ξ es conocido su comportamiento sólo en un conjunto LO de n puntos de X , de tal forma que consideraremos LO={(x1,s1), ... , (xn,sn)} donde si=Ξ(xi) para i=1, ... , n. Nuestro objetivo será definir un modelo Ψ del sistema desconocido Ξ que nos permita generalizar el comportamiento del sistema Ξ lo más fielmente posible, en el sentido de cometer el menor error posible en dicha generalización. La estructura que adoptaremos para el modelo Ψ será una análoga a la que posee un clasificador. El modelo constará de un conjunto de regiones difusas, definidas sobre el dominio de la entrada del sistemas, a las cuales se le asignará el valor que tomará la variable de salida cuando los valores de entrada queden "dentro" de ellas. En términos generales el modelo Ψ quedará definido como Ψ≡ {(µ ( x), s' ) / j = 1 k} j j (2.1) donde µj(x) es la función de pertenencia de un conjunto difuso definido sobre el referencial X, mientras s’j es el valor asignado como salida para dicha región difusa. La forma general que puede adoptar s’j es una función gj de la región donde está definida y de los valores de entrada del sistema s' j = g j ( µ j , x ) (2.2) En este trabajo consideraremos la función gj como una función constante, con lo que la salida de cada región es considerado como un único valor real . Para asegurarnos que el modelo definido es completo, no puede quedar valores de entrada sin una respuesta, hemos de fijar la condición de que la colección de conjuntos difusos que definen las regiones es una partición difusa del dominio de entrada X, por lo que han de verificar 53 Cap. 2 Árboles Difusos de Regresión e Identificación. k ∑ µ ( x) = 1 j (2.3) j =1 La salida inferida para un valor x de entrada vendrá dada en el modelo Ψ por la relación k Ψ( x) = ∑ µ j ( x) s' j (2.4) j =1 Quedando definido el siguiente algoritmo de inferencia para nuestro modelo. Inferencia Entrada : Un modelo F’ y una valor de entrada x∈X Algoritmo 2.1 Salida : Un valor real para la salida del sistema F’(x)=s’ s’=0 Para i desde 1 hasta k hacer s’=s’+µj(x)*s’j FinPara Observando la ecuación 2.4 podemos comprobar que Ψ se trata de un modelo difuso de consecuente puntual, y en el caso de considerar las salidas de cada región no como valores puntuales s'j sino como funciones gj, nos encontraríamos ante un modelo cuasilineal generalización del modelo TSK. En el caso concreto donde los conjuntos difusos {µj(x)/ i=1 ... k}, que definen las regiones en que se dividen el dominio de entrada X, tomaran como únicos valores {0,1} ; estaremos ante una división de X en conjuntos disjuntos no difusos, y el algoritmo 2.1 se comportaría como un mecanismo de clasificación tal como vimos en el capítulo anterior. Por este motivo podemos afirmar que el modelo Ψ adoptado puede ser considerado como una generalización de un clasificador clásico, al permitir la existencia de regiones, µj, cuyos límites no están claramente definidos. Abordado el paralelismo existente entre los clasificadores y la modelización mediante Ψ del sistema Ξ, la primera acción que realicemos será fijar el valor si que tomará 54 Cap. 2 Árboles Difusos de Regresión e Identificación. Ψ en cada región µi. Tomemos como criterio a seguir el de minimizar el error dentro de la región considerada. Sea Ej el error cometido al asignar sj' como valor de salida para la región definida por medio de µj n Ej = ∑µ ( x i ) d ( s i , s j ') j i =1 (2.5) n ∑µ i =1 i j (x ) Tomando como función distancia el cuadrado de la diferencia de valores, el valor de si que hace mínimo el error según la ecuación 2.5 ha de verificar n ∑ µ (x ) i ∂E j = ∂s j ' ( ∂s j ' j i =1 ) ∂ si − s j ' n ∑ µ (x ) 2 =0 (2.6) i i =1 j Operando en la ecuación el valor sj' es n s j '= ∑µ i =1 n j ∑µ i =1 (x i )si (2.7) i j (x ) Como podemos observar cada punto de la región contribuye a la salida global de dicha región, de forma directamente proporcional a su pertenencia a dicha región. Sea la cardinalidad M de un conjunto difuso µj definida por Zadeh[109] co- n mo M ( µ j ) = ∑ µ j ( x i ) . Reescribiendo la ecuación 2.7 tendremos i =1 n ∑ i =1 µ j (x i ) i s M (µ j ) teniendo en cuenta que se verifica que 55 (2.8) Cap. 2 Árboles Difusos de Regresión e Identificación. n ∑µ (x i ) µ j ( x ) i =1 j M (µ j ) = = =1 ∑ M (µ j ) M (µ j ) i =1 M ( µ j ) n i podemos considerar que los valores µ j (x i ) M (µ j ) (2.9) representan una distribución de proba- bilidad sobre la variable aleatoria xi , que refleja la probabilidad de que xi pertenezca a la región µj. Nombrando esa distribución de probabilidad como p(xi,µj) tendremos la siguiente expresión para el valor de salida sj de dicha región n s j ' = ∑ p( x i , µ j ) s i (2.10) i =1 Cometiéndose un error local en cada región del modelo Ψ n E j = ∑ p( x i , µ j )( s i − s j ') 2 (2.11) i =1 2.2.1 Bondad del modelo. Necesitamos ahora un criterio que mida la bondad de nuestro modelo Ψ, es decir su capacidad para reflejar el sistema Ξ. Ya que Ξ es un sistema MISO con variables de entrada y salida reales, fijaremos los mismos mecanismo de error que en un proceso de regresión funcional, quedando definido el error cometido por el modelo Ψ como E * = ∫ d (Ξ( x) − Ψ ( x)) dx (2.12) Para la estimación del error sólo disponemos de los datos del conjunto de puntos conocidos LO, esto nos da la posibilidad de considerar alguno de los tres estimadores como veíamos en el capítulo anterior al estimar la bondad de los árboles de regresión. Tomando el criterio de resustitución, donde se asume que el conjunto de datos de aprendizaje L del modelo es el propio LO, el error queda expresado como 56 Cap. 2 Árboles Difusos de Regresión e Identificación. ∑ (s n E= i − Ψ( x i ) i =1 ) 2 n (2.13) Nuestro objetivo es tratar de utilizar el conocimiento de los errores parciales que hemos cometido en la asignación de la salida de cada región, para determinar un estimador del error global obtenido en el modelo Ψ. Consideremos R definida como k M (µ j ) j =1 L R=∑ k E j = ∑ p( µ j ) E j (2.14) j =1 donde p(µj) refleja la probabilidad de aparición de la región definida mediante µj en el conjunto de datos L, como estimador del error del modelo. Proposición 2.1: El valor de R es una cota superior del error E cometido por el modelo Ψ. Demostración: ( ) ) = k n Sea R = ∑ p(µ j ) ∑ p ( x i , µ j ) s i − s j ' j =1 i =1 ( 2 k k 1 n k 2 i i2 i i ( x ) s ' s ( x ) 2 s + − µ µ µ j ( x i ) s j ' ∑ ∑ ∑ ∑ j j j n i =1 j =1 j =1 j =1 k teniendo en cuenta que ∑ µ j (x i ) = 1 y j =1 k ∑µ j =1 j (2.15) ( x i ) s j ' = Ψ( x i ) la ecuación 2.15 se transforma en 2 1 n k ∑ µ j ( x i ) s j ' 2 + s i − 2 s i Ψ ( x i ) ∑ n i =1 j =1 (2.16) Sea cada punto (xi,si) ∈ L una variable aleatoria que puede tomar los valores {s1', s2', ..., sk'} con probabilidades {µ1(xi), µ2(xi), ..., µk(xi)} tendremos las siguientes ecuaciones para su esperanza E[(xi,si)] y su varianza Var[(xi,si)] 57 Cap. 2 Árboles Difusos de Regresión e Identificación. [ ] k E ( x i , s i ) = ∑ µ j ( x i ) s j ' = Ψ( x i ) [ ] ( k Var ( x i , s i ) = ∑ µ j ( x i ) s i − Ψ ( x i ) j =1 k ∑µ j =1 (2.17) j =1 j ) 2 = ( x i ) s j '2 − Ψ( x i ) 2 (2.18) Tomando la igualdad de la ecuación 2.18 y operando en la ecuación 2.16 tendremos que R= ( [( )] [( )] ) 1 n 2 Var x i , s i + Ψ ( x i ) 2 + s i − 2s i Ψ ( x i ) = ∑ n i =1 ( 1 n 1 n i i i Var x , s s − Ψ( x i ) + ∑ ∑ n i =1 n i =1 [ ) 2 = ] 1 n Var ( x i , s i ) + E = R ∑ n i =1 (2.19) Dado que Var[(xi,si)] es siempre mayor que 0, como queríamos demostrar nuestro estimador R es una cota superior del error global E que comete el modelo Ψ. La ecuación 2.19 nos pone de manifiesto que el estimador R, así definido, reúne en un único valor, dos aspectos importantes del modelo. En primer lugar, como ya hemos demostrado es una cota superior del error de Ψ, lo que nos va a permitir trabajar con él en lugar de con el error global E del modelo. Este hecho nos proporciona la ventaja de centrarnos en los errores locales Ej, cuyo cálculo es menos complejo. El segundo aspecto que integra R, es la valoración del nivel de agrupamiento que tiene el modelo en las distintas regiones que lo forman. Esta característica viene expresada mediante los términos Var[(xi,si)], los cuales muestran como de compactas o lo bien que agrupan nuestras regiones a los datos de L. 58 Cap. 2 Árboles Difusos de Regresión e Identificación. El valor mínimo de R es 0, que correspondería cuando los dos sumandos que lo configuran sean 0. Esto supondría, ya que todas los términos Var[(xi,si)] han de tener el valor 0, que nos encontrásemos con un modelo donde existen tantas regiones como puntos conocidos, o que los puntos de cada región tuviesen un único valor de salida común. Si a este hecho, le añadimos que el error E también ha de ser 0 estaremos presentes ante una división no difusa y perfecta del espacio de entradas. En términos generales esta situación no se dará, lo que nos lleva a considerar un valor mínimo de R mayor que 0. Definido el modelo difuso a utilizar y un criterio de bondad para el mismo, en lo que resta de capítulo estudiaremos el mecanismo inductivo de identificación de este modelo. 2.3 Inducción del modelo. 2.3.1 Introducción. Como ya hemos presentado en la sección anterior, el modelo propuesto Ψ, que aproxima el sistema desconocido Ξ, viene definido por: una partición difusa {µ1, µ2, ..., µk} del dominio de entrada X, un mecanismo de asignación del valor de salida en cada una de las regiones y un criterio de bondad del modelo. Una vez establecida la partición del dominio de entrada el resto de los componentes quedan totalmente fijados mediante las ecuaciones 2.7 y 2.14, esto pone de manifiesto la necesidad del modelo Ψ de poseer un mecanismo que sea capaz de construir la partición {µ1, µ2, ..., µk} que lo defina. Varias son las técnicas que podemos utilizar para este propósito, destacando entre ellas las técnicas de agrupamiento difuso1[33][7], y técnicas basadas en particiones recurrentes mediante estructuras arbóreas2. Centrándonos en éstas últimas, consideraremos las técnicas utilizadas en la construcción de árboles de regresión, las cuales extenderemos para trabajar con regiones difusas y así poder para poder inducir Ψ. En términos generales nosotros buscaremos una sucesión de modelos {Ψ1, Ψ2, ..., Ψw} verificándose que R(Ψi) >R(Ψi+1)3 para i=1, ... , w-1. Esta sucesión de modelos 1 Fuzzy clustering Árboles de decisión y regresión en el caso de particiones no difusas. 3 R(Ψi) Representa el valor del criterio de bondad para el modelo Ψi. 2 59 Cap. 2 Árboles Difusos de Regresión e Identificación. vendrá asociada a una sucesión de particiones {P1, P2, ..., Pw} del dominio de entrada, de tal forma que |Pi|< |Pi+1|. Es por este motivo que el eje central de la identificación del modelo, sea la obtención de cada una de las particiones Pi. En la literatura existen distintos enfoques para la obtención de la sucesión {P1, P2, ..., Pw}. Uno de estos, consiste en fijar k cantidad de regiones que van a componer la partición, y a partir de este número fijo de regiones procesar el conjunto de datos conocidos para obtener una partición Pi={µ1, µ2, ..., µk}, que nos identificará al modelo Ψi para evaluar su criterio de bondad. La partición Pi+1 se obtendrá aumentando el número de regiones que la compongan, k=k+1, y volviendo a realizar los mismo cálculos sobre el conjunto de valores conocidos del sistema. En términos generales el objetivo que se persiguen mediante este tipo de técnicas es determinar y fijar el número de regiones que mejor identifican al conjunto de valores conocidos. Otro enfoque distinto es el denominado agrupamiento jerárquico, con sus dos vertientes posibles : ascendente o descendente. En un agrupamiento jerárquico ascendente, se parte de la última partición Pw de P, que en términos generales queda definida considerando que cada valor conocido del sistema es en si una región, se establece una medida de distancia o una medida de similitud entre regiones y estas se van agrupando, atendiendo a dicha medida, para formar nuevas regiones como unión de regiones antiguas. Este proceso concluye cuando se ha obtenido una única región P0={µ}, que englobará a la totalidad de los valores conocidos del sistema. El agrupamiento jerárquico descendente, parte de una primera partición P0 con una única región que engloba a la totalidad de los datos conocidos, entonces se fija un número de regiones en que se ha de dividir la región µ0, mediante un mecanismo de agrupamiento no jerárquico, y se divide ésta obteniendo una primera partición real del dominio de entrada. Una vez conseguidas las regiones que componen la primera partición P1, se selecciona mediante algún tipo de criterio una de ellas, y ésta se vuelve a dividir en varias regiones obteniendo una nueva partición P2, la cual está formada por las regiones que componían la partición P1, excepto aquella que se ha vuelto ha dividir, más el conjunto de las nuevas que se han creado. El proceso anterior de división, llevado al extre- 60 Cap. 2 Árboles Difusos de Regresión e Identificación. mo, conseguirá una partición final Pw formada por tantas regiones como elementos conocidos se tengan del sistema Ξ. El agrupamiento jerárquico puede mostrarse como una estructura arbórea donde el nodo raíz correspondería al conjunto completo de los datos conocidos, mientras que sus nodos hoja, en proceso de división descendente llevado a su extremo o en procesos jerárquicos ascendentes, a cada una de los datos conocidos. En este trabajo estableceremos un método de agrupamiento jerárquico descendente para construir la sucesión de particiones {P1, P2, ..., Pw} con lo que los sucesivos modelos serán obtenidos mediante el siguiente algoritmo general. NuevoModelo Algoritmo 2.2 Entrada : Un modelo Ψi y el conjunto de puntos conocidos L Salida : Un nuevo modelo Ψi+1 Paso 1 : Seleccionar de Ψi una región µc(x) ∈ {µ1, ... , µk} mediante algún criterio. Paso 2 : Dividir µc(x) en {µc,1 , ... , µc,r} . Paso 3 : Ψi+1={(µ1,s1), ... , (µc-1,sc-1), (µc,1,sc,1), ..., (µc,r,sc,r), ... , (µk,sk)} En el resto del capítulo trataremos de fijar • Una caracterización de los conjuntos difusos µi(x) que componen la partición difusa del dominio de la entrada al sistema F. • Un mecanismo de división de dichos conjuntos. • Una estructura de árbol que sostenga a nuestro modelo difuso Ψ 2.3.2 Caracterización y división de regiones difusas. Como ya hemos dicho anteriormente la pieza fundamental del modelo difuso Ψ que planteamos, es la partición difusa {µi(x) / i=1, ... ,k} de X, que caracterizaremos como una conjunción de conjuntos difusos definidos sobre cada una de la variables de entrada, formalizando esta conjunción mediante una t-norma ⊗. Sea el conjunto difuso βj definido sobre el referencial Xj, estableceremos una región difusa mediante el conjunto difuso µi sobre el referencial X con una función de pertenencia como 61 Cap. 2 Árboles Difusos de Regresión e Identificación. m µi ( x ) = ⊗ β j ( x j ) (2.20) j =1 Tomando la t-norma del mínimo tendremos la función de pertenencia quedará fijada mediante la siguiente ecuación µ i ( x1 , x 2 ,, x m ) = min{β1 ( x1 ), β 2 ( x 2 ),, β m ( x m )} (2.21) Con esta caracterización de las regiones difusas, el primer modelo Ψ0 que nosotros creamos a partir de un conjunto de datos conocidos L estará formado por una única región que debe de englobar totalmente al dominio de definición X conocido en L. 1 k Ψ0 ≡ (1, ∑ s j ) n j =1 (2.22) Los conjuntos definidos sobre cada una de dominios de las variables de entrada son en este caso conjuntos no difusos, que contienen todos los valores del conjunto L para las variables de entrada, esto es β0,j(xj)=1 para j=1, ..., m. Este primer modelo Ψ0 tiene un único valor de salida que corresponde a la media de los valores de salida de L y un error asociado a el igual a la varianza de los valores de salida de L. 1 n 1 n R(Ψ0 ) = ∑ s j − ∑ s j n j =1 n j =1 2 (2.23) Si tenemos en cuenta que este primer modelo Ψ0 es el más pobre de la sucesión de modelos difusos que vamos a obtener; y para eliminar la dependencia del valor de R de la magnitud de la variable de salida definiremos un nuevo criterio RN de bondad normalizado del sistema difuso inferido como RN (Ψ) = R ( Ψ) R(Ψ0 ) (2.24) Gráficamente podemos ver un regiones establecidas en un modelo difuso con dos variables de entrada como en la figura 2.1 62 Cap. 2 Árboles Difusos de Regresión e Identificación. X1 µ β1 β2 X2 Región difusa (2.1) Fijando una región difusa µi de esta forma, nos obliga a establecer una serie de restricciones sobre los conjuntos difuso definidos en cada una de las variables, para lo cual vamos a considerar los conceptos de colección disjunta de conjuntos difusos y partición difusa de un conjunto difuso. Sea C={A1, A2, ..., Ar} una colección de r conjuntos difusos definidos sobre un mismo referencial X. Diremos que C es una colección de conjuntos difusos disjunta si verifica para todo x de X, y k=1, …, r-1 que k A x A x ( ) ⊗ k +1 ( ) < 1 ⊕ i =1 i (2.25) Siendo ⊗ una t-norma y ⊕ una t-conorma. Sea B un conjunto difuso definido sobre el referencial X, y sea {B1, B2, ..., Br} una colección disjunta de conjuntos difusos definidos también sobre el mismo referencial X. Diremos que C es una partición difusa de un conjunto difuso B si verifica que r B( x) = ∑ Bi ( x) (2.26) i =1 Definiremos el conjunto difuso µi que representa una región difusa dentro del dominio de entrada X del sistema como ya lo hicimos en la ecuación 2.20 donde cada uno de los conjuntos difusos βj son elementos de una partición difusa definida sobre el referencial Xj. 63 Cap. 2 Árboles Difusos de Regresión e Identificación. Estableceremos una partición difusa de una región µi, con una función de pertenencia definida mediante µi(x)=β1(x1) ⊗ β2(x2) ⊗ … ⊗ βm(xm), en r nuevas regiones {µ1,i, µ2,i, ..., µr,i}, por medio de una partición difusa del conjunto difuso βl que la define. Quedando definidas las funciones de pertenencia de los miembros como µ j ,i ( x) = β1 ( x1 )⊗⊗ β l −1 ( x l −1 ) ⊗ β l , j ( x l ) ⊗ β l +1 ( x l +1 )⊗⊗ β m ( x m ) (2.27) Tal que {βl,1, βl,2, ..., βl,r} es una partición difusa del conjunto difuso βl definido sobre el referencial Xl, esto nos obliga ha establecer un mecanismo para obtener una partición difusa de un conjunto difuso. 2.3.3 Generación de particiones difusa de conjuntos difusos. Consideremos una partición difusa P={A1, A2, ..., Ak} de un conjunto difuso A definido sobre un referencial X del cual conocemos un conjunto de puntos {x1, x2, ..., xp}, y establezcamos que cada conjunto Ar al que se asocia un valor, que llamaremos vr, prototipo del conjunto Ar, que caracteriza a dicho conjunto. Fijada una medida d de distancia entre un elemento x de X y el valor del prototipo del conjunto Ar, que notaremos d(x,vr), Dimitrescu[27] propone un método, que denomina GFI (Generalized Fuzzy ISODATA), para la generalización del conocido método ISODATA difuso. El algoritmo GFI está basado en considerar una medida de distancia di(x,x’) local a cada una de las regiones Ai(x) definida como min( Ai ( x ), Ai ( x')) d 2 ( x, x') si Ai ( x ), Ai ( x ') > 0 d 2i ( x, x') = Ai ( x ) d 2 ( x, x') si Ai ( x ) > 0 d 2 ( x, x') si Ai ( x ), Ai ( x ') = 0 (2.28) Estableciendo la distancia entre x y el prototipo vi local al conjunto Ai como d i2 ( x, vi ) = ( Ai ( x )) 2 d 2 ( x, vi ) (2.29) La medida de lo inapropiado de tomar como prototipo el valor vi en el conjunto difuso Ai vendrá expresada como p ∑d j =1 p 2 i ( x j , vi ) = ∑ ( Ai ( x j )) 2 d 2 ( x j , vi ) j =1 64 (2.30) Cap. 2 Árboles Difusos de Regresión e Identificación. Que proporciona un mecanismo para medir lo no adecuado que resulta dividir el conjunto difuso A mediante la k-partición fijada, que se expresa como p s ∑ ∑ ( A ( x )) i 2 j d 2(x j ,v j ) (2.31) i =1 j = 1 Minimizando la anterior ecuación se obtienen las siguientes relaciones Ai ( x j ) = A( x j ) s d 2 ( x j , vi ) ∑ 2 t = 1 d ( x j , vt ) (2.32) p ∑ ( A ( x )) i vi = 2 j xj j =1 p ∑ ( A ( x )) i (2.33) 2 j j =1 Considerando una función distancia d ( x j , vr ) = (x j − vr ) 2 (2.34) En este trabajo proponemos otro mecanismo que denominaremos FCMD (FCM de conjuntos Difusos) mediante la generalización del conocido algoritmo FCM que extenderemos para considerar a la partición difusa de conjuntos difusos. Proposición 2.2: Dado un conjunto {x1, x2, ..., xp} de p elementos de X, la partición difusa {A1, A2, ..., Ak} de un conjunto difuso A que minimize el valor p ( k ∑ ∑ A (x j =1 r =1 r j ) m d 2 x j , vr k s.t ∑ A ( x) = A( x) r r =1 donde 65 ) ∀x ∈ X (2.35) (2.36) Cap. 2 Árboles Difusos de Regresión e Identificación. p vi = ∑ ( A ( x )) i j =1 p m xj j ∑ ( A ( x )) i (2.37) m j j =1 Si Ixj={i/1≤ i ≤k y (xj-vrl)2=0}=∅ esta formada por los conjuntos difuso cuya función de pertenencia es Ac ( x j ) = A( x j ) x j − vc v − r =1 j r s ∑ x 2 m −1 (2.38) o en otro caso Ac(xj)=A(xj)/|Ixj| si Ixj≠∅ Donde m un número real mayor o igual a 1. Demostración: Para demostrar la proposición, utilizaremos los multiplicadores de Lagrange para minimizar la ecuación 2.35 sujeta a 2.36, tendremos que hacer mínima k k W (λ , Ar ( x j )) = ∑ Ar ( x j ) m ( x j − vr ) 2 + λ ∑ Ar ( x j ) − A( x j ) r =1 r =1 (2.39) Derivado e igualando a 0 se tiene ∂W (λ , Ar ( x j )) = mAr ( x j ) m−1 ( x j − vr ) 2 + λ = 0 ∂Ar ( x j ) k ∂W (λ , Ar ( x j )) Ar ( x j ) − A( x j ) = 0 = ∑ ∂λ r =1 (2.40) operando tendremos finalmente , como queríamos demostrar, que Ac ( x j ) = A( x j ) x j − vc v − r =1 j r s ∑ x 66 2 m −1 (2.41) Cap. 2 Árboles Difusos de Regresión e Identificación. Obteniendo una actualización del valor de pertenencia asignado al elemento xj en el conjunto Ac , proceso iterativo que una vez concluido nos proporciona la partición buscada del conjunto difuso A. Como se puede observar la ecuación 2.32 es un caso particular de la ecuación 2.41 obtenida por FCMD que también generaliza la fijada por el método FCM[7] (ecuación 2.42 ) que puede ser considerada como el resultado de aplicar el algoritmo FCMD sobre un conjunto difuso con una función de pertenencia constante e igual a 1. 1 Ac ( x j ) = x j − vc r =1 j − vr s ∑ x 2 m−1 (2.42) Quedando establecido de esta forma el algoritmo FCMD como la generalización del FCM. FCMD Algoritmo 2.3 Entrada : Un conjunto difuso A(x) , una colección de puntos C={x1, x2, ..., xp} Salida : Una partición difusa del conjunto A(x) Construir P0 como una primera k-partición difusa de A(x) l=-1 Repetir l=l+1 Calcular los prototipos vrl mediante la k-partición Pl Actualizar Pl obteniendo Pl+1 según Para j desde 1 hasta p hacer Calcular Ix={i/1≤ i ≤s y (xj-vrl)2=0} Para r desde 1 hasta s hacer Si Ix=∅ entonces Actualizar Ar(xj) según 2.41 r ∈{1,, s} − I x 0 A( x ) SiNo Ar ( x j ) = j r ∈Ix I x FinSi FinPara FinPara Hasta || Pl+1-Pl ||<ε P=Pl+1 Donde ||.|| es una norma que indica la diferencia entre una s-partición Pl y la nueva spartición Pl+1 siguiente. Un ejemplo de norma que se puede ser utilizada 67 Cap. 2 Árboles Difusos de Regresión e Identificación. P l +1 − P l = max max Ar ( x j )l +1 − Ar ( x j ) l j = 1,, p r = 1,, s (2.43) Un ejemplo de la aplicación del algoritmo FCMD se puede ver en la figura 2.2, donde se muestra las distintas 2-particiones que se obtienen para el conjunto difuso A(x) definido sobre el referencial de los números reales (ecuación 2.44), considerando un conjunto C de 100 números reales unifórmente distribuidos entre 0 y 20. Sobre la misma figura se puede observar el efecto que ocasiona en la definición de la partición difusa el valor de la constante m observando como crece el carácter difuso de las fronteras de las particiones a medida que aumenta su valor. x≤0 0 x 0< x <5 5 A( x ) = 1 5 ≤ x ≤ 15 20 − x 15 < x < 20 5 0 x ≥ 20 (2.44) 1 m=1 m=1.5 m=1.75 m=2 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 12 14 16 18 20 2-partición mediante FCMD (2.2) En este punto han quedado establecidos ya el mecanismo de división del dominio de entrada en sucesivas particiones difusas, esta sucesión podría mostrarse en el caso de un dominio de dos variables de entrada según la figura 2.3. Donde podemos ver una posible evolución de las regiones que definen el modelo. Tras una partición inicial del conjunto total de datos de entrada se obtiene (b) con dos regiones, de la partición (b) se selecciona la región R2 que se vuelve a partir obteniendo las regiones de (c), de (c) se divide la re- 68 Cap. 2 Árboles Difusos de Regresión e Identificación. gión R1 obteniendo (d), en (d) se divide la región R1 obteniendo (e), de (e) se divide la región R5 para finalmente conseguir una partición (f) del espacio de entrada. R1 R1 R1 R2 R2 R3 R1 (c) (b) (a) R2 R1 R2 R3 R3 R4 R4 R4 R5 (d) R3 R2 R1 R5 (e) R6 (f) Ejemplo de una sucesión de particiones difusas (2.3) Como se pone de manifiesto en el algoritmo 2.2 en su primer paso, es necesario establecer un criterio de selección para la región que se ha de dividir. Fijada ésta, se ha de tener en cuenta todas las formas posibles de particionarla, para finalmente optar por una concreta y realizar la división definitiva. 2.3.4 Selección de la región a dividir y su partición. Tomemos un modelo Ψi de la sucesión de modelos que hemos de construir, y sea Pi={µ1, µ2, ..., µz} la partición difusa que lo define. El valor del error del modelo Ψi según la ecuación 2.14 es la suma de los errores locales a cada una de las regiones, al considerar el valor de prototipo como representante, ponderado por la probabilidad de existencia de dicha región. Si nuestro objetivo es obtener un nuevo modelo Ψi+1 con un menor error, tomaremos para dividir aquella región µc∈Pi que más disminuya el valor del estimador R(Ψi) del modelo actual. Consideremos µc aquella que verifica la ecuación µc = maxi ( p( µ j ) E J ) µ j ∈P 69 (2.45) Cap. 2 Árboles Difusos de Regresión e Identificación. Con esta elección, lo que pretendemos es disminuir el error que se comete en la región del modelo que peor se comporta. Una vez concretada µc como la región a dividir, determinaremos todas las posibles divisiones de dicha región. Estas vendrán formadas por todas las particiones posibles que puedan realizarse en cada uno de los conjuntos difusos definidos sobre las variables de entrada que configuran la región seleccionada. Fijemos r como el número de regiones en las que vamos a dividir a µc , y teniendo en cuenta que el número de divisiones posibles |Qc| coincide con el número de variables de entrada del sistema Xm. Es decir { } Q c = Pjc j = 1 m (2.46) donde Pcj representa la r-partición del conjunto difuso βj(xj) sobre el referencial Xj, que definen a la región µc(x). { Pjc = β j ,1 , β j , r } (2.47) Si seleccionamos realizar la partición sobre la variable de entrada e, tendremos que el nuevo valor para el estimador RN(Ψi+1) normalizado será r p(µc ) Ec + RN (Ψi +1 ) = RN (Ψi ) − R(Ψ0 ) ∑ p(β e,l l =1 ) Ec , l R(Ψ0 ) (2.48) Luego la variación que sufre RN mediante la partición de la variable e vendrá dada por r p ( µc ) E c ∆RN (Ψi , e) = − R(Ψ0 ) ∑ p(β c,l l =1 ) Ec , l R(Ψ0 ) (2.49) Expresión que nos servirá para seleccionar la variable que la haga mínima, luego la variable elegida e para realizar la partición de la región, será aquella que verifique ∆RN (Ψi , e) = max ∆RN (Ψi , j ) j =1 m 70 (2.50) Cap. 2 Árboles Difusos de Regresión e Identificación. Como p(µ c ) Ec >= 0 y RN(Ψ0) es una constante positiva, la anterior condición tamR(Ψ0 ) bién se puede formular como r ∆RN (Ψi , e) = min ∑ p(β c ,l ) Ec , l j =1 m (2.51) l =1 La ecuación 2.51 junto con el algoritmo FCMD, ya nos permite podemos definir un algoritmo para inducir un sistema difuso a partir de un conjunto de valores conocidos. Inducción de un sistema difuso Algoritmo 2.4 Entrada : L={(x1,s1), ... ,(xm,sm)} Conjuntos de valores conocidos del sistema Ξ Salida : Ψ sistema difuso que modela a Ξ Ψ0={(µ :X→1),v0} siendo v0 el valor de la ecuación 2.7 i=0; Mientras (RN(Ψi)≥ε) o (no se pueda dividir ninguna región de Ψi) hacer mediante 2.45 seleccionamos µc como región a dividir utilizando el algoritmo FCMD 2.3 y el criterio 2.51 realizamos la partición de µc según 2.27 obtenemos una nueva partición P’ de X con esta nueva partición P’ definimos el modelo Ψi+1 i=i+1 FinMientras Ψ=Ψi El algoritmo 2.4 es un algoritmo de agrupamiento difuso (clustering) jerárquico descendente, en el cual se pueden utilizar cualquiera de los criterios de validación usados en la literatura como condición de parada del mismo. Ya que el estimador RN considerado, incluye en su formulación aspectos referentes al error del modelo, así como al número de regiones y su distribución de las regiones (clusters) obtenidas, optaremos por fijar un valor máximo que ha de tener para que podamos considerar terminado el proceso de inducción del modelo. 71 Cap. 2 Árboles Difusos de Regresión e Identificación. En la siguiente sección, siguiendo la misma idea que en el algoritmo 2.4, construiremos un árbol de regresión donde se considere la existencia de regiones difusas, generalizando de esta forma los árboles de regresión clásicos (CART). Estos árboles difusos de regresión e identificación representarán al modelo Ψ. 2.4 Árboles difusos de decisión y regresión. ADRI. 2.4.1 Árboles difusos de decisión. Sea un árbol T, y una función ft : X→[0,1]k definida sobre el conjunto de variables de entrada X y k≥2, que denominaremos función difusa de decisión del nodo t. Un árbol difuso de decisión[16], se define como al árbol T cuyos nodos interiores tienen asociada una función difusa de decisión y los nodos hoja una clase que los representa. t 0.3 0.5 0.2 t1 t2 t3 C1 C2 C1 Figura (2.4) En la figura 2.4 se muestra un árbol difuso de decisión cuyo nodo raíz posee una función difusa de decisión ft(x)=[0.3,0.5,0.2] y sus nodos hojas son etiquetados con las clases C1 y C2. Notaremos Valor(t) la clase asignada al nodo hoja t, en el ejemplo tendremos que Valor (t1 ) = C1 Valor (t2 ) = C2 Valor (t3 ) = C1 Nombraremos como ftt’(x) como la proyección sobre el valor j-ésimo de la función de decisión ft que etiqueta al arco que une el nodo t con su nodo hijo t’, en el ejemplo anterior 72 Cap. 2 Árboles Difusos de Regresión e Identificación. f t t1 ( x ) = 0.3 ft t 2 ( x ) = 0.5 f t t 3 ( x ) = 0.2 Se define el valor de decisión v de un nodo t’ de forma recursiva mediante el uso de una t-norma como 1 t ' es el nodo raiz de T v(t ') = t' v(t ) ⊗ f t ( x ) t es nodo padre de t' (2.52) Sea un árbol de decisión difusa ,dado un valor x∈X y suponiendo que este puede ser clasificado en un conjunto de clases {C1, C2, ..., Cr} la función de clasificación que implementa este tipo de clasificadores deja de ser determinista, para mostrarnos una distribución de posibilidad sobre las clases donde el valor x puede ser clasificado. Esto es, que la posibilidad de que x sea clasificado en la clase Cj Pos( x , C j ) = ⊕ Valor ( t ) = C j (2.53) v (t ) Luego un árbol difuso de decisión nos presenta una salida para un valor x de X { T ( x ) = Pos( x, C j ) / j = 1 r } (2.54) Como se puede observar los árboles difusos de decisión son una generalización de los árboles de decisión y clasificación clásicos, ya que estos son una caso particular de los árboles difusos de decisión donde las únicas funciones difusas de decisión consideradas en sus nodos interiores tiene la forma f t : X → {0,1} 2 que vienen a representar la posible contestación afirmativa con valor 1, o negativa con valor 0, a la pregunta realiza en el nodo t. 73 Cap. 2 Árboles Difusos de Regresión e Identificación. 2.4.2 Árboles difusos de regresión. Consideremos T un árbol de decisión difusa, donde cada uno de sus nodos interiores viene definido por un conjunto Pt={β1, ... , βm} de conjuntos difusos, establecidos en los dominios de las variables de entrada, que concretan una región difusa µt sobre la entrada con una función de pertenencia m µt ( x ) = ⊗ βi ( xi ) (2.55) i =1 Definamos como valor del nodo t n ∑ µ (x j t Valor (t ) = )s j j =1 n ∑ µ (x (2.56) j t ) j =1 Tomando Praíz={β1 :X1→1, ... , β :Xm→1} como la colección de conjuntos difusos asociada al nodo raíz de un árbol difuso de regresión, vemos que las ecuaciones que definen dicho nodo (2.55 y 2.56) corresponden con las ecuaciones (2.20 y 2.7) que identifican el primer modelo difuso Ψ0 (2.22) de nuestra sucesión de modelos, ya que se verifica que n Valor ( raiz ) = ∑s j j =1 n (2.57) Luego podemos decir que nuestra primera aproximación al sistema Ξ es el modelo Ψ0, que coincide con un árbol difuso de decisión T con un único nodo. El mecanismo de división de las regiones difusas utilizado en el algoritmo 2.4 es el proceso que utilizaremos para expandir un nodo t del árbol. Para especificarlo más concretamente, tendremos que definir una función difusa de decisión que asociaremos a dicho nodo. Sea ft(x)=[β1,r(xr), ... , βk,r(xr)] la función difusa de decisión asociada al nodo t, tal que βj,r(xr) para j desde 1 hasta k es una k-partición del conjunto difuso βr(xr)∈Pt. Esta 74 Cap. 2 Árboles Difusos de Regresión e Identificación. función difusa de decisión origina una expansión del nodo t creando k nodos hijos {t1, t2, ..., tk}, estableciéndose las siguientes colecciones de conjuntos difusos para cada uno de ellos Pt i = {β1 ( x1 ),, βr −1 ( xr −1 ), βi , r ( xr ), βr −1 ( xr −1 ),, βm ( xm )} i = 1,, k t β1,r(xr) t1 (2.58) βk,r(xr) βj,r(xr) ... ... tj tk Árbol difuso de decisión (2.5) En la figura 2.5 podemos ver un árbol difuso de decisión donde se ha utilizado una función difusa de decisión como la expuesta. Como podemos observar, cada expansión de un nodo t del árbol T cambia el número de nodos hoja de t |Hojas(T)| a |Hojas(T)|+k-1, y considerando que cada nodo hoja de t define una región difusa µt(x), podremos pensar que nos encontramos ante un nuevo modelo Ψi que aproxima al sistema Ξ. Para que esto ocurra sólo hemos de elegir entre las m funciones difusas de decisión ft , una por cada conjunto difuso definido sobre los referenciales de entrada, siendo ésta aquella que verifique la condición 2.51 tras efectuar el algoritmo 2.3 FCMD. El árbol difuso de decisión T construido de esta forma, lo denominaremos Árbol difuso de regresión e Identificación (ADRI), asociando éste un valor de salida asociado a un valor de entrada x mediante la expresión T ( x) = ∑ µ ( x )Valor (t ) ∑ µ ( x) t t ∈Hojas ( T ) t t ∈Hojas ( T ) 75 (2.59) Cap. 2 Árboles Difusos de Regresión e Identificación. ADRI es una generalización de los árboles de regresión CART, ya que estos son árboles ADRI donde las únicas funciones difusas de decisión que son permitidas en cada nodo son del tipo f t : X → {0,1}2 (2.60) Como podemos observar nuestra sucesión de modelos {Ψ0, Ψ1, ... , Ψw} es equivalente a la fase de construcción de ADRI, con lo que podemos establecer como modelo difuso Ψ del sistema desconocido Ξ, al árbol ADRI T obtenido mediante w expansiones de sus nodos interiores con los datos conocidos L del sistema Ξ. El proceso de construcción de ADRI nos puede ayudar a identificar algunas características adicionales, a la propia partición del dominio de entrada del sistema Ξ aproximado. Una cuestión de intereses cuando se ha de aproximar, mediante un modelo, un sistema que se desconoce, es calificar la importancia de las variables de entrada que vamos a considerar para modelizar el sistema. Esta importancia puede ser vista como la contestación a la pregunta ¿ hasta que punto esta variable influye en la salida del sistema ?. Para contestar a la pregunta anterior hemos de fijar que la influencia de una variable dentro de nuestro modelo será mayor, cuanto mayor sea el decremento del estimador, que posee nuestra modelo al incorporarla. Viendo la estructura arbórea que define ADRI, la incorporación de una variable al modelo básicamente viene expresada por la división realizada mediante dicha variable de un nodo del árbol, cuestión que refleja la expresión 2.51 donde se selecciona aquella variable de entrada cuya partición va a originar un mayor decremento del estimador del modelo. Si notamos como Imp(e,t) al beneficio que ocasionaría la división del nodo t de T mediante la partición del conjunto difuso definido sobre la variable de entrada e, y le asignamos el valor k Imp( e, t ) = ∑ p( β j , e ) E j , e i =1 76 (2.61) Cap. 2 Árboles Difusos de Regresión e Identificación. Siendo {βj,e(xe) /j=1,..., k} la partición del conjunto difuso βe(xe) ∈Pt y Ej,e los errores locales para cada nuevo nodo que origina la expansión del nodo t mediante la variable e. Podemos establecer que la importancia que una variable e tiene en el global del árbol difuso de regresión e identificación es la suma de las importancias relativas a cada nodo del árbol Imp(e) = ∑ Imp(e,t) (2.62) t ∈T-Hojas(T) Cuanto mayor se el valor de Imp(e) más beneficios habremos obtenido al incorporar la variable e al modelo Ψ. Normalizando estos valores podemos establecer un ranking de la importancia que cada variable de entrada tiene en el modelo Ψ para aproximar la salida del sistema Ξ Rank ( e) = Imp(e) max Imp( j ) (2.63) j =1.. m Este un ranking de variables nos puede servir para comenzar fijando la estructura del modelo sin ninguna suposición sobre que variables de entrada han de ser la que más afecten a la salida, ya que podemos considerar un conjunto más amplio que las que realmente son y mediante el propio mecanismo de inducción de ADRI establecer cuales de ellas definen realmente a la salida y en que medida. 2.5 Base de Reglas difusas asociada a ADRI. 2.5.1 Construcción de un modelo de consecuente puntual. Dado un árbol ADRI T, que ha sido inducido a partir de un conjunto de datos conocidos L de un sistema desconocido Ξ, podemos establecer la equivalencia que existe entre las regiones difusas definidas en el algoritmo 2.4 y las representadas en los nodos hoja de T mediante los conjuntos difusos µt(x) asociados a dichos nodos. En definitiva los dos mecanismos establecen una partición difusa del dominio de las entradas, asignando a cada una de las regiones el valor que ha de tomar la salida en dicha región. Gráficamente este planteamiento se puede ver en siguiente figura 2.6 77 Cap. 2 Árboles Difusos de Regresión e Identificación. β1 s1 s2 β1,2 R1 s3 β2 β2,2 R2 β1,1 R3 β2,1 Regiones difusas y salidas asociadas (2.6) Que correspondería al ADRI T siguiente t β2,2 β1,2 t1 s1 t’ β1,1 β2,1 t2 t3 s2 s3 ADRI asociado (2.7) Si tomamos como ejemplo la región R2 y tuviésemos que describirla, ésta vendrá definida por µ2(x)=β2,2(x2)⊗β1,1(x1), expresión que trasladada a términos de lógica difusa en la siguiente proposición difusa "x2 es β2,2 y x1 es β1,1" , donde los conjuntos difusos β1,1 y β2,2 son considerados como cualidades difusas definidas sobre los referenciales X1 y X2. En términos generales si consideramos una región difusa µi definida mediante el conjunto difuso con una función de pertenencia µi(x)=β1,i(x1)⊗...⊗βm,i(xm) podemos construir la siguiente proposición de lógica difusa 78 Cap. 2 Árboles Difusos de Regresión e Identificación. x1 es β1,i y x2 es β2,i y ... y xm es βm,i (2.64) La asignación del valor de salida que toma el modelo Ψ depende de la región µi , situación que podremos representar mediante la regla "Si estamos en la región µi entonces el valor de salida es si" , regla que es descrita de la forma Si x1 es β1,i y x2 es β2,i y ... y xm es βm,i entonces s es si (2.65) Esta representación tanto de los árboles ADRI, como del modelo difuso de aproximación planteados, nos proporciona una un conjunto de reglas difusas formado por tantas reglas como regiones existan en el modelo o nodos hojas en el árbol ADRI ,que nos va a modelizar al sistema desconocido Ξ. Como podemos ver el modelo así considerado del conjunto de reglas difusas que obtenemos es del tipo de consecuente puntual. Luego el valor inferido que se obtiene para un valor determinado x del dominio de entrada es m ∑ ⊗i=1 β i,l ( x i ) sl l =1 h s= m ∑ ⊗i=1 β i,l ( x i ) l =1 h h = ∑ µ ( x) s l =1 h l ∑ µ ( x) l =1 l h = ∑ µ l ( x) sl (2.66) l =1 l considerando h regiones definidas mediante sus correspondientes conjuntos difusos µ(x) y sabiendo que dichas regiones forman una partición difusa del dominio de la enh trada X, esto es ∑ µ ( x) = 1 . l =1 l En las figuras 2.6 y 2.7 también podemos observar que la definición de cada región, puede llevar la consideración de distintas granularidades o cardinalidad en las particiones de las variables de entrada. Por ejemplo podemos ver como la región R1 (nodo t1) viene expresada por medio del conjunto difuso µ1(x)=β1,2(x2)⊗β1(x1) lo que supone la existencia de las siguientes particiones difusas para la variable X1 es {β1(x1)} y para la variable X2 es {β1,2(x2), β2,2(x2)}; mientras que en la región R2 las particiones de X1 es {β1,1(x1), β1,2(x1)} y de X2 es {β1,2(x2), β2,2(x2)} que nos define la región µ2(x)=β2,2(x2)⊗β1,1(x1). 79 Cap. 2 Árboles Difusos de Regresión e Identificación. Sabemos ,por construcción, que cuando existe distintas granularidades en las regiones, esto se debe a la partición difusa de alguno de los conjuntos que las forman, esto es, si consideramos P={β1(xc), ... , βk(xc)} y P'={β1(xc), ... , βr,1(xc),...,βr,n(xc), ... , βk(xc)} como dos particiones difusas de distinta granularidad |P|=|P'|-n+1,esto se debe a que {βr,1(xc), ... , βr,n(xc)} sea una partición difusa del conjunto difuso βr(xc)∈P o lo que es lo mismo n βr ( xc ) = ∑ βr , j ( xc ) (2.67) j =1 Expresión que trasladada como una proposición de la lógica difusa será xc es βr ≡ xc es βr,1 o ... o xc es βr,n (2.68) Proposición que nos permite trabajar en conjunto de reglas difusas con las particiones más finas de cada variable de entrada, transformando los antecedentes de aquellas reglas donde aparezcan conjuntos difusos, que posteriormente se han dividido, por la conjunción de disyunciones de los conjuntos de la partición. La configuración de la estructura de nuestro modelo Ψ inducido, como un conjunto de reglas nos permite la utilización de los métodos para el refinamiento o ajuste de modelos difusos del tipo TSK o de consecuente puntual , procedimientos que mejorarán la aproximación realizada. Otra alternativa que podemos plantear al definir el modelo Ψ, es construir el conjunto de reglas difusas al mismo tiempo lo inducimos mediante la generación de un árbol ADRI. Esto nos originará una sucesión B0 , B1, ... , Bw de conjuntos de reglas donde en cada uno de ellos podremos aplicar las técnicas de ajuste de modelos difusos, con la única restricción de que las regiones definidas por las reglas obtenidas sigan siendo una partición difusa del dominio de la entrada. La obtención de Bi+1 a partir de Bi consistiría en seleccionar una regla de Bi mediante el criterio 2.45, tomar aquel conjunto difuso que verificase 2.51 y establecer su partición difusa, construyendo Bi+1 con las reglas de Bi menos la que hemos seleccionado para la división, y añadiendo aquellas nuevas reglas que se han formado para las regiones obtenidas tras la división del conjunto difuso. 80 Cap. 2 Árboles Difusos de Regresión e Identificación. Como hemos podido ver el mecanismo de inducción del modelo difuso Ψ puede ser visto desde distintas perspectivas, subdivisión de conjuntos difusos, árboles difusos de regresión e identificación y directamente desde el conjuntos de reglas que lo forman. Todos ellos establecen nuestro modelo difusoΨ inducido en base a particiones difusas de las variables de entrada, estas particiones difusas están formadas por conjuntos difusos que en un principio no tienen asociada ninguna semántica, con lo que nuestro modelo es eficaz como aproximador del sistema, esto es, no nos preocupamos de una descripción semántica del funcionamiento del sistema si no que estamos interesados en obtener buenas aproximaciones del mismo considerándolo como una caja negra. Otro enfoque distinto sería cuando nosotros quisiéramos describir el sistema y no tanto construir un aproximador del mismo. Este enfoque nos obligaría a dotar de semántica las relaciones existentes entre las variables de entrada con las de salida, cuestión que podríamos llevar acabo estableciendo que las variables que interviniesen en su descripción fueran variables lingüísticas, aspecto que quizás nos obligue a sacrificar la capacidad de aproximación del modelo inducido por una mayor capacidad de explicación del sistema desconocido a estudiar. 2.5.2 Antecedentes con variables lingüísticas. Descripción del sistema. Partamos de un conjunto de variables lingüísticas XLi como las m variables de entrada del sistema Xi para i=1 ... m. Sean {e1,i, ... , ek,i} el conjunto de k etiquetas lingüísticas definidas mediante los conjuntos difusos {β1,i(xi), ... , βk,i(xi)} establecidos sobre el referencial Xi. Sea B un conjunto de reglas difusas construida a partir del modelo difuso inducido Ψ, nuestro objetivo será obtener a partir de B un nuevo conjunto de reglas difusas B' donde las reglas que lo compongan este formadas por antecedentes constituidos exclusivamente por etiquetas lingüísticas de las variables de entrada. Una primera aproximación del conjunto de reglas difusas B' que buscamos consistirá en sustituir los conjuntos difusos que forman los antecedentes de las reglas, por la etiquetas que mejor se adecuen a ellos. Esa medida de adecuación puede establecerse mediante la fijación de una medida de similitud[84][102] entre conjuntos difusos. Por lo tanto una regla como 81 Cap. 2 Árboles Difusos de Regresión e Identificación. Si x1 es A1 y x2 es A2 y ... y xm es Am entonces s es s' (2.69) puede ser sustituida por la regla de B' Si XL1 es ej,1 y XL2 es ej,2 y ... y XLm es ej,m entonces s es s'' (2.70) tal que verifique e j ,i = max sim(β r ,i ( x i ), Ai ( x i )) r =1..k (2.71) considerando una nueva salida correspondiente a la nueva región definida como n s' = m ∑ (⊗ β l =1 n i =1 j ,i (2.72) m ∑ (⊗ β l =1 ( x il )) s l i =1 j ,i l i ( x )) Realizando esta sustitución en todas las reglas de B, obtenemos un nuevo conjunto de reglas difusas B' donde los antecedentes de las reglas están formados exclusivamente por etiquetas lingüísticas que nos proporcionan un mayor nivel descriptivo del sistema estudiado que el primitivo B, inducido mediante alguno de los métodos vistos anteriormente en este capítulo. Esta forma de actuar se podría ver como un ajuste lingüístico del modelo aproximativo que hemos inducido. Las ventaja que incorpora frente a otros mecanismos que estudiaremos posteriormente, es la nula restricción sobre la estructura de etiquetas lingüísticas que definen cada una de las variables de entrada del sistema, aunque posee el inconveniente que es realizada fuera del mecanismo de inducción del propio modelo, con lo que este puede que no sea el más adecuado para la descripción del mismo, ya que fue construido para su aproximación. Otra alternativa para obtener un conjunto de reglas difusas que describa el sistema es utilizar las variables lingüísticas en el proceso de inducción del modelo, sirviéndonos los conjuntos de las etiquetas de cada variable para la construcción de las regiones difusas que establezca el modelo. 82 Cap. 2 Árboles Difusos de Regresión e Identificación. Sea el conjunto de variables lingüísticas consideradas anteriormente, a las cuales añadimos la restricción de que sus conjuntos de etiquetas han de ser una partición difusa del dominio de entrada sobre las que están definidas. Tomemos L como el conjunto de n datos conocidos del sistema desconocido Ξ. Utilizando la misma filosofía que hemos adoptado para la inducción de nuestro modelo difuso mediante ADRI , nuestro objetivo es obtener una división del dominio de entrada en regiones difusas, que son creadas a su vez mediante la partición difusa de una de las variables de entrada. Definamos una función difusa de decisión asociada al nodo raíz de un árbol ADRI T de la forma [ f raiz ( x) = β1,i ( x i ),, β k ,i ( x i ) ] (2.73) de tal forma que se verifique que k min ∑ p(β j ,i ) E j ,i i =1..m E j ,i = (2.74) j =1 n l l ∑ β j ,i ( x i ) s − l =1 ∑ β j ,i ( x ) s h=1 n ∑ β j ,i ( xil ) h =1 n l i n ∑β l =1 j ,i 2 l (2.75) l i (x ) Fijados los dos criterios anteriores estamos optando por dividir el espacio de definición del sistema mediante la variable lingüística cuyo conjunto de etiquetas verifique la característica anterior. Este proceso nos origina un árbol ADRI T donde los arcos estarán etiquetados con las etiquetas de las variables lingüísticas utilizadas para expandir los nodos. Otra de las características que posee el método anterior, es que los nuevos nodos obtenidos no podrán ser expandidos mediante una nueva división de la misma variable lingüística que los originó, al estar las regiones ,que las definen, constituidas ya por los conjuntos difusos más pequeños que podemos considerar. Esto origina una estructura del árbol ADRI 83 Cap. 2 Árboles Difusos de Regresión e Identificación. parecida a los árboles de decisión de Quinlan[81] donde una vez realizada la pregunta sobre una variable concreta, no se vuelve a preguntar sobre los valores de la misma en el camino hacia un nodo hoja. Este proceso nos dirige hacia las regiones difusa más pequeñas que podemos definir en nuestro modelo, fijando el nivel máximo del árbol obtenido igual al número de variables lingüística que hemos considerado en la entrada. Esto nos impide poder establecer regiones de mayor tamaño aunque estas se comporten correctamente en nuestro modelo. Para solucionar este problema hemos de plantear un método que nos permita agrupar etiquetas lingüísticas de las variables, para así de esta forma poder considerar regiones más amplias. Tomemos una variable lingüística XLi que posee un conjunto de etiquetas {e1, e2, ..., ek}, fijamos dos grupos de etiquetas G1 y G2 como G1={e1, e2, ..., ej} (2.76) G2={ej+1, ... , ek} (2.77) que dependen el valor de j que puede tomar los valores desde 1 hasta k-1. Esto nos proporciona k-1 forma de agrupar las etiquetas lingüísticas en dos conjuntos difusos definidos a partir de G1 y G2 como {βj,αj} j β j ( xi ) = ∑ βl , i ( xi ) (2.78) l =1 α j ( xi ) = k ∑β l ,i ( xi ) (2.79) l = j +1 A los cuales le podríamos asignar la disyunción de etiquetas lingüísticas que engloban, como una nueva etiqueta lingüística propia a la variable. e1j= e1 o e2 o ... o ej e2j= ej+1 o ej+2 o ... o ek 84 Cap. 2 Árboles Difusos de Regresión e Identificación. Este agrupamiento hace que la partición difusa de la variable lingüística Xli sea en lugar del conjunto de etiquetas que definen sus posibles valores, sea el par {e1j,e2j} y que transformemos la función difusa de decisión ft de un nodo t a la siguiente ft (x)=[βij,αij] (2.80) donde los subíndices indican la variable lingüística considerada. De las m*(k-1) posibles funciones difusas de decisión que podemos definir, consideraremos aquella que cumpla el criterio ( f t ( x ) = [βch ,α ch ] = min p( βi j ) E ( βi j ) + p(α ij ) E (α ij ) j =1 k − 1 i =1 m ) (2.81) Donde E(βij) representa el error local de la región que viene definida por el conjunto difuso βij. El proceso anterior nos produce un árbol ADRI donde los arcos están etiquetados bien con una etiqueta de una variables lingüística o con una disyunción de las mismas, pudiéndose preguntar por una misma variable durante el recorrido de un camino del nodo raíz a un nodo hoja, ya que el proceso aplicado al conjunto de etiquetas global de una variable, se puede volver a aplicar cualquiera de los grupos de etiquetas obtenidos. Los dos mecanismos anteriores nos proporcionan un árbol difuso de regresión e identificación a partir de un conjunto de datos L, con la característica común que las funciones difusas de decisión de los nodos que lo integran, quedan definidos totalmente en función de las etiquetas de las variables lingüísticas de entrada del sistema, luego al extraer de ellos el conjunto de reglas que represente estos árboles, éstas estará constituida por reglas cuyos antecedentes están formados exclusivamente por etiquetas, con lo cual inducimos un modelo Ψ descriptivo del sistema desconocido Ξ. 85 Cap. 2 Árboles Difusos de Regresión e Identificación. 2.6 Un ejemplo de empleo de ADRI. Para ilustrar el funcionamiento de la inducción de un modelo difuso Ψ mediante la construcción de un árbol difuso ADRI, tomaremos como ejemplo el sistema no lineal expresado mediante la ecuación ( −2 s = 1 + x1 + x 2 ) −1, 5 2 (2.82) estudiado por Sugeno y Yasukawa[89], del que extraemos como conjunto de datos 100 puntos uniformemente distribuidos en el dominio de entrada [1,5]2. Para comprobar la capacidad de ADRI para identificar variables relevantes, vamos a perturbar nuestros datos de entrada suponiendo que se tienen observaciones correspondientes a dos variables x3 y x4 también uniformemente distribuidas en [1,5]. En definitiva utilizaremos ADRI para el problema de inducir un modelo difuso conociendo 100 muestras de quíntuplas entrada-salida con cuatro variables de entrada, dos de ellas irrelevantes y que por tanto de deberán afectar al modelo definitivo. Comenzamos suministrando al algoritmo 2.4 como conjunto de datos de entrada las cien quíntuplas de la tabla 1. El primer modelo que es generado es Ψ0≡{µ0:[1,5]4→1, 2.1711} según la ecuación 2.22. Este modelo inicial establece el nodo raíz del árbol difuso de regresión e identificación con un valor para el estimador de su bondad RN=1=0.815038/0.81538 como indica la ecuación 2.24. Este modelo inicial Ψ0, representado en el nodo raíz nos origina un segundo modelo Ψ1 que delimita dos regiones en el dominio de las entradas. Estas regiones son construidas y seleccionadas de la forma siguiente: Considerando la definición de la región que se quiere dividir, en este caso como es el dominio completo de las entradas dicha región vendrá expresada como µ0(x)=min{β1(x1), β2(x2), β3(x3), β4(x4)} siendo βi(xi)=1 para todo xi∈[1,5], y para dividirla utilizamos el algoritmo FCMD (2.3) aplicado a cada uno de los conjuntos difuso de las variables de entrada, dividiéndolos en dos conjuntos difusos originado las siguientes particiones: el conjunto β1(x) lo divide en los conjuntos difusos trapezoidales cuya fun- 86 Cap. 2 Árboles Difusos de Regresión e Identificación. ción de pertenencia expresaremos mediante las cuádruplas β1,1(1.12,1.12,2.74,3.32) y β1,2(2.74,3.32,4.99,4.99) como se muestra en la figura 2.8. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1,12 2,74 3,32 4,99 Partición del conjunto difuso µ1 (2.8) Con los conjuntos difusos de las restantes variables de entrada las divisiones que se obtienen son las siguientes: β2 se divide en β2,1(1.1,1.1,2.62,3.29) y β2,2(2.62,3.29,4.96,4.96). β3 se divide en β3,1(1.02,1.02,2.61,3.28) y β3,2(2.61,3.28,4.96,4.96). β4 se divide en β4,1(1.01,1.01,2.63,3.32) y β4,2(2.63,3.32,4.94,4.94). Cada una de la divisiones de los conjuntos difusos de las variables de entrada originan una división de la región original establecida por µ0 en dos regiones nuevas que dependiendo de la variable que se divida tendremos el valor para ∆RN(Ψ0,xi) según la ecuación 2.51 tendremos que :∆RN(Ψ0,x1)=0.6432, ∆RN(Ψ0,x2)=0.5960, ∆RN(Ψ0,x3)=0.8140 y ∆RN(Ψ0,x3)=0.8146. Estos valores nos hacen seleccionar la variable x2 como aquella con la que dividir la región del nodo raíz por la de menor valor. Una vez seleccionada la variable por la que se ha de dividir la región, se expande el nodo raíz con dos nuevos hijos (nodos 1 y 2 de la figura 2.9),esto nos configura el nuevo modelo Ψ1≡{(µ1,2.688),(µ2,1.774)} siendo la definición de µ1 y µ2 según (2.27) : µ1(x)=min{β1(x1), β2,1(x2), β3(x3), β4(x4)}=β2,1(x2) µ2(x)=min{β1(x1), β2,2(x2), β3(x3), β4(x4)}=β2,2(x2) Ahora el modelo Ψ1 tiene establecidas dos regiones difusas, que corresponden a cada uno de los nodos hoja creados, siguiendo el criterio que nos expone la ecuación 2.45 tomaremos el nodo 2 para expandirlo como ya hemos visto anteriormente con el nodo 87 Cap. 2 Árboles Difusos de Regresión e Identificación. raíz. Este proceso es repetido hasta alcanzar un valor de RN inferior a 0.25 generándose una sucesión de 5 modelos que originan el árbol de la figura 2.9 donde en cada nodo reflejamos la siguiente información : Número de Nodo: Variable que lo originó Error local Porcentaje de ejemplos cubierto Datos parciales de ADRI Figura (2.9) Este árbol difuso de regresión e identificación también lo podemos representar como en la figura 2.10, donde se muestra cada conjunto difuso que origina la división del nodo correspondiente, el tanto por ciento de ejemplos que cubre cada nodo hoja y su salida asignada (el número que acompaña a cada conjunto difuso corresponde al de nodo). 88 Cap. 2 Árboles Difusos de Regresión e Identificación. ( −2 ADRI para la función s = 1 + x1 + x 2 ) Figura (2.10) −1, 5 2 Observamos como el árbol obtenido realiza todas las decisiones sobre las variables x1 y x2 para obtener el valor de la ecuación 2.82, despreciando las variables x3 y x4 que utilizamos para perturbarlo, lo que nos muestra como ADRI se comporta adecuadamente para la identificación de variables relevantes como pretendíamos. Una vez obtenido el árbol difuso de regresión e identificación ADRI podremos deducir nuevos valores de para la función no lineal. En la figura 2.11 se muestra el proceso para la obtención del valor de la función en el punto (x1=2,x2=2). Para inferir el valor lo primero que tendremos que hacer es comprobar el grado de pertenencia que tiene el punto a los conjuntos difusos que establecen los nodos 1 y 2. Como podemos observar el valor de x2=2 pertenece completamente al conjunto difuso del nodo 2 (valor de pertenencia igual a 1), esto descarta al nodo 1 (valor de pertenencia igual 0) y a todos sus descendientes (nodos 7 y 8). Situados sobre el nodo 2 tendremos que el punto pertenece al nodo 3 en un grado de 0,2413 y al nodo 4 en un grado de 0,7587. En el nodo 4 el valor de la variable x1=2 nos discrimina al nodo 6 con un valor de pertenencia igual a 0 89 Cap. 2 Árboles Difusos de Regresión e Identificación. frente a un valor de pertenencia de 1 en el nodo 5. Este hecho nos ofrece un valor de pertenencia al nodo 5 del punto (2,2) igual a min(0.7587,1)=0.7587. Para finalizar los valores de pertenencia a los nodos 9 y 10 son respectivamente min(0.7587,0.5172)=0.5172 y min(0.7587,0.4828)=0.4828. Inferencia para el punto (x1=2,x2=2) Figura (2.11) Mediante el proceso anterior establecemos una distribución de valores de pertenencia del punto (2,2) a cada uno de los nodos hoja 3, 6, 7, 8, 9 y 10 con los siguientes valores 0.2413, 0, 0, 0, 0.5172 y 0.4828. Esta distribución origina una salida para el modelo según la ecuación 2.59 igual a 0.2413 × 1,96108 + 0.5172 × 2.65357 + 0.4828 × 4.04929 = 3,06181 0.2413 + 0.5172 + 0.4828 Construido el árbol podemos extraer como se dice en la sección 2.5 el conjunto de reglas de consecuente puntual que nos configuraran el modelo difuso inducido. Este 90 Cap. 2 Árboles Difusos de Regresión e Identificación. conjunto de reglas se muestran en la figura 2.12 donde se encuentra entre paréntesis el nodo hoja que origina cada regla. Conjunto de reglas difusas. Figura (2.12) Como los conjuntos difusos obtenidos para cada una de las variables son trapezoidales el conjunto de reglas anteriores se puede mostrar como una tabla con tres columnas, donde las dos primeras etiquetan las variables de entrada y la tercera al valor de la función, situando una regla por cada fila de la tabla como se muestra en la figura 2.13 x1 x2 s (2.74,3.32,4.99,4.99) (2.62,3.29,4.96,4.96) 1.45011 (1.12,1.12,2.74,3.32) (2.62,3.39,4.96,4.96) 2.14527 (1.12,1.12,4.99,4.99) (1.93,2.22,2.62,3.29) 1.966108 (1.85,2.14,2.74,3.3) (1.1,1.1,1.93,2.22) 2.65537 (1.12,1.12,1.85,2.14) (1.1,1.1,1.93,2.22) 4.04929 (2.74,3.32,4.99,4.99) (1.1,1.1,1.93,2.22) 2.6342 Figura (2.13) 91 Cap. 2 Árboles Difusos de Regresión e Identificación. Para observar la evolución que sufren los distintos modelos Ψ0 hasta el modelo definitivo Ψ5 compuesto por las seis reglas difusas, en la figura 2.14 mostramos las distintas salidas que nos proporcionan los modelos para el conjunto de datos proporcionado. Para mostrar gráficamente de estas salidas realizamos una ordenación secuencialmente del conjunto de los 100 puntos muestra que aparecen en la en la tabla 1, representando mediante unos ejes cartesianos colocando en abscisas el número de orden que ocupa un punto de la muestra y en ordenadas el valor de la función obtenido para dicho punto. Salida para el modelo Ψ1 Salida para el modelo Ψ0 Salida para el modelo Ψ3 Salida para el modelo Ψ2 Salida para el modelo Ψ5 Salida para el modelo Ψ4 92 Cap. 2 Árboles Difusos de Regresión e Identificación. Datos de la tabla 1 versus modelo Ψ5 Evolución del modelo (2.14) La evolución de los errores, así como las estimaciones de la bondad del modelo se muestran en las figuras 2.15 y 2.16. 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 100 Evolución del error ∑ (s − Ψ ( x )) (2.15) 2 i 5 i i =1 100 1 0,5 0 1 2 3 4 5 Evolución del estimador RN (2.16) Nº Reglas 1 2 3 4 5 6 Error 0,815038 0,570549 0,418789 0,360702 0,279557 0,208361 Estimación 1 0,731306 0,543546 0,481516 0,401243 0,315849 93 6 Cap. 2 Árboles Difusos de Regresión e Identificación. Como hemos podido ver el modelo inducido Ψ5 posee 6 reglas al igual que el modelo de Sugeno y Yasukawa[89] para la misma función y con un valor del estimador RN igual a 0,315849 que nos proporciona un error con valor 0,208361 inferior al error obtenido en el modelo de Sugeno y Yasukawa que era de 0,318. Para finalizar tomaremos volveremos a tomar los datos de la tabla 1para volver a inducir dos nuevos modelos difusos. Si consideramos ahora un conjunto de etiquetas definidas sobre las variables x1, x2, x3 y x4 , tal como muestra la figura 2.17 1 0,8 0,6 0,4 0,2 0 Aprox 1 Aprox 2 Aprox 3 Aprox 4 Aprox 5 1 2 3 4 5 Etiquetas (2.17) Tendremos, según no permitamos o permitamos agrupar etiquetas los modelos siguientes: 17 reglas y un error de 0,151809 o 5 reglas con un error de 0,137176, para unos valores de los estimadores RN de 0,376321 y 0,.308704 respectivamente. Los modelos obtenidos son los siguientes : Modelo con 17 reglas: X1\X2 1 2 3 4 5 1 4,500 3,661 2,657 2,812 3,044 2 4,267 2,890 2,288 2,175 2,199 3 1,778 4 2,960 2,066 1,536 1,445 1,3824 5 1,666 En la tabla anterior presentamos el valor de la regla “si x1 es aproximadamente 1 y x2 es aproximadamente 2” en la casilla (1,2). Modelo con 5 reglas: Si x1 es aproximadamente 1 y x2 es aproximadamente 1 o 2 entonces s=4.39153 Si x1 es aproximadamente 2 o 3 o 4 o 5 y x2 es aproximadamente 3 o 4 o 5 entonces s=1.63668 Si x1 es aproximadamente 1 y x2 es aproximadamente 3 o 4 o 5 entonces s=2.96548 Si x1 es aproximadamente 2 y x2 es aproximadamente 1 o 2 entonces s=2.93596 Si x1 es aproximadamente 3 o 4 o 5 y x2 es aproximadamente 1 o 2 entonces s=2.41681 94 &DStWXOR Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 3.1 Introducción. La demanda de toda clase de recursos por parte de los individuos o grupos que componen la sociedad es ilimitada. Por contra, los recursos que pueden ser generados o producidos por esta misma sociedad son escasos y limitados y esto produce una insatisfacción en los individuos que no pueden ver cubiertas sus demandas por los bienes producidos. Para intentar paliar esta insuficiencia y ante la imposibilidad de eliminarla, la sociedad se ve abocada a la necesidad de optar por intensificar la producción de unos determinados recursos en decremento de otros[63]. Esta elección se realiza valorando el grado de satisfacción que producirán en el conjunto de la sociedad, intensificando la producción de aquellos recursos que sean mayoritariamente demandados, y disminuyendo o eliminado totalmente la producción de los recursos menos demandados. Los problemas derivados de esta elección originada por la escasez de recursos son los que trata la economía, que en términos generales se define como la ciencia[63] que se ocupa de: 1) La asignación de los recursos de una sociedad entre sus usos alternativos y la distribución de su producción entre los individuos y grupos que la integran. 2) El modo como la producción y la distribución cambian a lo largo del tiempo. 3) La eficacia o ineficacia del sistema económico. Estos objetivos obligan a explicar y modelar el comportamiento de la sociedad mediante teorías económicas. El comportamiento de las personas , que en definitiva configuran el comportamiento de una sociedad, es extremadamente complejo e imprevisible. Delimitar las condiciones que afectan a las decisiones que una persona puede tomar ante una circunstancia concreta es una tarea muy compleja. Existen multitud de condicio- Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. nantes mentales y socioeconómicos que llevan a que distintas personas ante circunstancias similares actúen de forma distinta estableciendo la imposibilidad de predecir una actuación concreta. La necesidad de realizar tratamientos cuantitativos y ante la imposibilidad de realizar experimentos controlados (lo que de algún modo deja a la economía fuera de las ciencias experimentales), ha obligado a optar por un modelado matemático de sus teorías, permitiendo que éstas puedan ser contrastadas mediante el uso de la gran cantidad de datos que la actividad económica genera. El uso de modelos matemáticos basados en técnicas estadísticas, en los que se intenta reflejar el carácter no determinista del comportamiento humano, determinan el nacimiento de una rama de la economía denominada econometría. Ejemplo de modelos matemáticos que son empleados en algún estudio econométrico pueden ser : la curva logística (ecuación 3.1) que analiza el crecimiento para cada momento del tiempo t de una población Yt que se desarrolla en un espacio finito K. El modelo Input-Output (ecuación 3.2) donde A es una matriz de coeficientes técnicos, X es un vector fila de valores de la producción de cada sector productivo y D es el vector columna de la demanda final de la correspondiente tabla (I-O). El modelo CobbDouglas (ecuación 3.3) que trata de explicar el volumen de producción X mediante la cantidad de trabajo W y el stock de bienes de capital, donde w y c son las elasticidades del trabajo y del capital y T es la tasa anual de crecimiento de la tendencia residual. Y= K 1 + eb − at (3.1) X = ( I − A) −1 D (3.2) X = kW wC c eTt (3.3) En términos generales, cualquier modelo econométrico pueden formularse como una función matemática Ψ que describe la estructura y comportamiento de un sistema real Ξ que tiene una o varias variables económicas S de salida, en las cuales estamos interesados, mediante otras variables económicas X de entrada 96 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Ψ( X , P) = S (3.4) siendo P un conjunto de parámetros que servirán para ajustar el modelo definido al sistema real Ξ. Ξ( X ) = S (3.5) En esta forma de actuar, a la hora de definir un modelo económico, podemos destacar los siguientes aspectos que pueden llegar a ser inconvenientes serios en el proceso de ajuste. • El comportamiento del sistema se ha de presuponer a priori. Esto quiere decir que las características de la función matemática se han de fijar fundamentalmente mediante un proceso deductivo, en el cual pueden influir las distintas percepciones que tengan el investigador que lo realiza. El investigador económico propone una teoría que explica o justifica un problema económico. • Los datos que genera la actividad económica referentes al sistema Ξ, son utilizados básicamente para realizar un ajuste de los parámetros que estructuran el modelo, y no interfieren de manera decisiva en su construcción, salvo en algunas ocasiones para descartar la hipótesis iniciales y obligar a rehacer un nuevo modelo o teoría. • Los funciones matemáticas como modelo son muy precisas pero poco descriptivas del sistema que representan en términos generales. • Las técnicas de ajuste que se han de realizar son muy dependientes del tipo de función elegida como modelo, lo que obliga en algunas ocasiones a optar por el empleo modelos fácilmente ajustables aunque éstos no reflejen con gran fidelidad el sistema real. Si consideramos una función distancia d que mida el error que cometemos en nuestro modelo el ajuste se puede formular en términos de encontrar los valores de los parámetros P que verifiquen: 97 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. ∂d ( Ψ( X , P), Ξ( X )) =0 ∂P (3.6) lo que refleja la dependencia total existente entre la definición del modelo y su mecanismo de ajuste, que dependiendo de Ψ puede llegar a ser muy complejo y costoso. Como alternativa a esta forma clásica de construcción de y validación de las teorías econométricas y para paliar sus inconvenientes, parece razonable pedir métodos de creación y ajuste de modelos que reflejen los las siguientes característica : 1) La estructura del modelo ha de surgir de los datos observado del sistema, mediante un proceso totalmente inductivo. 2) El mecanismo de creación del modelo ha de ser uniforme e independiente de los diferentes sistemas que se quieran modelar. Ha de ser general. 3) El modelo obtenido debe tener una alta capacidad descriptiva. 4) La utilización del modelo ha de ser simple. Para conseguirlo, en primer lugar vamos a cambiar de tipo de modelo. Optaremos por modelos difuso basados en reglas como los expuestos en el primer capítulo de este trabajo. Estos modelos por estar compuestos por reglas, que usualmente tienen una expresión lingüística y por ende semántica en términos reales, son muy descriptivos, generales y con la propiedad de que fijado un mecanismo de inferencia y un tipo de regla, los modelos de diferentes sistemas únicamente sólo se diferencia en la expresión concreta de las reglas que lo componen. Este tipo de modelos difusos basados en un conjunto de reglas han sido estudiados por Castro[10] y otros autores que los proponen como mecanismos universales de aproximación de funciones, por las características que poseen. En segundo lugar como mecanismo de inducción de estos modelos difusos postulan el uso de los árboles difusos de regresión e identificación (ADRI) que describimos en el capítulo segundo, ya como vimos en el capítulo 2 su proceso de construcción está basa- 98 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. do exclusivamente en los datos conocidos del sistema, permitiéndonos inducir la estructura y ajustar el modelo. Para ilustrar nuestros desarrollos y comprobar nuestras afirmaciones nos centraremos en el estudio de series temporales. Este problema ha sido muy estudiado por los economistas debido a la gran dependencia temporal que suelen tener las magnitudes económicas. En la sección siguiente presentaremos los enfoques y modelos básicos que se utilizan en econometría para definir este tipo de modelos, presentando al final del mismo el uso alternativo de los modelos difusos y más concretamente la inducción de estos modelos mediante el uso de ADRI. Para terminar el capítulo tomaremos algunas series macroeconómicas modelizadas mediante las técnicas clásicas en el modelo MOISEES[12] de la economía española y presentaremos los resultados de su modelización alternativa a través de la inducción de modelos difusos . 3.2 Series temporales. 3.2.1 Modelos funcionales. Uno de los modelos matemáticos que se han utilizado para reflejar el comportamiento de series temporales son los modelos de funciones lineales. Dos clases importantes de los modelos lineales para series temporales son : a) el modelo de medias móviles y b) el modelo autorregresivo. Si et es una serie, donde et refleja el valor de la magnitud e en el tiempo t, un ejemplo de un modelo de media móvil será yt = et + c1et −1 + c2 et − 2 (3.7) que se denota como MA(2), donde el índice 2 indica el retardo en el tiempo que es necesario para la explicación del valor serie yt mediante la serie et. Un ejemplo de un modelo autorregresivo será yt = a1 yt −1 + a2 yt − 2 + et (3.8) Este modelo se denota como AR(2) donde el índice refleja de nuevo el retraso necesario para valorar la salida en un tiempo. En este caso esta salida es dependiente de la obtenida en un tiempo anterior, además del de la serie et. 99 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Un modelo general que agrupa los aspectos de las medias móviles, dependencia en otros periodos de tiempo de valores de otra serie, y el autorregresivo, dependencia de su propios valores en otros periodos anteriores, es el denominado ARMA(p,q) que agrupa en un único modelo a AR(p) y MA(q). Un ejemplo de un modelo ARMA(2,3) será yt = a1 yt −1 + a2 yt − 2 + et + c1et −1 + c2 et − 2 + c3et − 3 (3.9) La generalización de este modelo, introduciendo la influencia de otro conjunto de series en distintos momentos de tiempo, se denomina ARMAX será p r q j =1 j =1 j =1 yt = ∑ a j yt − j + ∑ d j xt − j + ∑ c j et − j + et (3.10) donde xt es un vector de otras variables. Si consideramos problemas multidimensionales donde yt y et son vectores de variables , tendremos el modelo denominado VAR que vendrá expresado como p yt = ∑ a j yt − j + et (3.11) j =1 donde yt,et son vectores de n componentes y cada aj es una matriz cuadrada de nxn. La determinación de los parámetros en todos estos modelo lineales se realiza empleando el método de ajuste por mínimos cuadrados que en términos generales consiste en determinar los valores reales de los parámetros bj j=0...1, que determinan los coeficientes del modelo lineal, que verifiquen la ecuación 3.12. 2 m ∂ ∑ y i − (b0 + ∑ b j x ij ) i =1 j =1 =0 ∂v∂b1∂bm N (3.12) Considerando este mismo problema mediante su formulación matricial tendremos que Y=XB, tal que 100 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. b0 1 x11 y1 b 1 Y = B = X = 1 x1N yN bm x1m xmN (3.13) Resolviendo la ecuación matricial tendremos la solución clásica para obtener el vector B de parámetros como ( B = XT X ) −1 Y (3.14) Una solución alternativa consisten en utilizar un proceso iterativo (Filtro de Kalman) para el cálculo del vector de coeficientes. Notemos como xi el vector fila i-ésimo de la matriz X e yi al elemento i-ésimo de Y. El procesamiento de i puntos conocidos nos ofrece un vector de parámetros Bi definido como B i = B i −1 + K i ( y i − x i B i −1 ) Ki = P i −1 x i ( ) 1 + xi P i = P i −1 − P i −1 T P i −1 x i x i ( x i )T P i −1 1 + ( x i )T P i − 1 x i (3.15) (3.16) (3.17) donde B0=0 y P0=Iα siendo α un valor real muy grande. Los modelos anteriores AR(p) y MA(q) se extienden a esquemas no lineales, permitiendo cualquier tipo de función que relacione su variables. Con esta generalización obtenemos los modelos NLAR(p) ,NLMA(q) y NLARMA(p,q) como combinación de ambos. NLAR( p ) ≡ yt = f ( yt − j , j = 1 p ) + et (3.18) NLMA( q) ≡ yt = g ( et − j , j = 1 q ) + et (3.19) NLARMA( p, q) ≡ yt = h( yt − j , et − i , j = 1 p, i = 1 q ) (3.20) 101 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Como ejemplo concreto de un modelo NLARMA podemos considerar (ecuación 3.21) el modelo bilineal BL(p,q,r,s) p q j =1 i =1 r s yt = ∑ a j yt − j + ∑ bi et − i + ∑ ∑ ci , j yt − i et − j + et (3.21) i = 1 j =1 Un grupo importante de modelos intentan reflejar la existencia de una memoria lejana en el comportamiento de las series, en términos de la acumulación de los valores de la serie durante un período de tiempo, denominándose a este tipo de modelos de series integradas. Consideremos un par de series xt y et que sigue un modelo AR(1) como el indicado en la ecuación 3.22 xt = axt −1 + et (3.22) donde -1< a <1. Las series xt que verifican estas condiciones se dice que son estacionarias. Supongamos que una tercera serie yt es generada por la ecuación 3.23 yt − yt −1 = xt (3.23) Entonces la serie yt puede ser reescrita como t −1 yt = ∑ xt − j + y0 (3.24) j =0 Como yt esta formada por una sumatoria de términos de la serie xt se le denomina serie integrada. La serie estacionaria xt es obtenida mediante una diferencia entre dos valores consecutivos de yt, característica que hace que la serie yt se nombre como serie integrada de orden uno y se denota por I(1), mientras la serie xt al no está formada por ninguna acumulación sería una serie no integrada o I(0). La ecuación 3.22 puede ser reescrita como se muestra en la ecuación 3.25 (1 − aL) xt = et (3.25) obteniendo la forma que refleja la ecuación 3.26 para la serie integrada de orden uno yt . (1 − aL)(1 − L) yt = et 102 (3.26) Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Una extensión importante de esta idea ocurre cuando se tiene un par series y1t e y2t que son I(1) y una tercera zt que está formada por una combinación lineal ambas y es I(0) como muestra la ecuación 3.27 zt = y1t − ay2t (3.27) Se dicen que las series y1t e y2t son cointegradas[42] si están representadas por los siguientes modelos y1t = aWt + ~ y 1t y2 t = Wt + ~ y2 t (3.28) donde ~ y1t e ~ y2 t son I(0) y Wt es I(1). El uso de las modelización de series temporales mediante series cointegradas tiene gran difusión entre los econometras debido a los mecanismos de corrección de errores[42], en los cuales se postula un comportamiento de la serie en términos generales o tendencia a largo plazo, que es corregida mediante actuaciones locales o de corto plazo. La exposición de estos modelos no ha pretendido ser exhaustiva y con ella sólo hemos pretendido introducir el problema de la obtención de modelos que reflejen series temporales, así como los métodos de trabajo más elementales que se han utilizado para dicha tarea. La elección de un modelo concreto para un determinado sistema no solamente consiste en adoptar el modelo y pasar a un posterior ajuste, sino que antes es necesario verificar gran cantidad de condiciones, que en algunos casos llegan a ser muy complejas o de difícil comprobación. Esto obliga a un estudio previo para seleccionar el modelo que mejor se adecue y posteriormente ajustarlo a los datos. Cuanto mayor sea el número de modelos que poseamos mayor será el éxito que tengamos ; pero la existencia de multitud de modelos implica una mayor complejidad en estos por lo que serán más difíciles de calcular y comprender. En la siguiente sección planteamos la utilización de un modelo alternativo fundamentado en los modelos difusos de reglas. Este enfoque diferente consistente en la utilización de el método de inducción ADRI, nos va a permitir construir modelos lingüísticos para la representación de series temporales, al mismo tiempo que unificar todos los modelos en único modelo que sea capaz de tratar todos los aspectos que involucran el 103 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. estudio de series temporales. La unificación en un modelo nos proporcionará la ventaja de contar con una forma uniforme de tratar todos los problemas. 3.2.2 Modelo Difuso. Empleo de ADRI. Algunos de estos modelos han sido ampliados permitiendo que los parámetros que lo definan sean conjuntos difusos, en realidad estas técnicas no proponen un modelo difuso, sino que utilizan la capacidad de representar una cierta incertidumbre y vaguedad que poseen los conjuntos difusos para establecer los parámetros de los modelos funcionales clásicos. Por contra, nosotros planteamos la utilización de un modelo difuso, basado en un conjunto de reglas difusas de consecuente puntual como modelo general para la aproximación de series temporales. La estructura y el ajuste del modelo se inducirá mediante ADRI por medio del conjunto de valores conocidos de las series, tras lo que extraeremos el conjunto de reglas difusas que nos configurarán un modelo. El modelo difuso construido de esta forma reflejará el comportamiento de un sistema MISO (serie temporal), donde la salida del mismo son los valores de la serie estudiada y las variables de entrada serán el conjunto de series con las que pretendemos justificar el comportamiento del sistema. Estas variables de entrada pueden ser tanto series contempladas en el mismo tiempo, o en cualquier lapsus de tiempo anterior. Por ejemplo si consideramos un modelo ARIMAX(p,q) tendremos el conjunto de variables x más et-j para j=0...q e yt-i para i=1...p como variables de entrada del modelo. Una de las ventajas que tiene este mecanismo de construcción del modelo mediante la técnica de ADRI, es que no necesitamos conocer a priori cuales son las variables exactas que van intervenir en la definición de la serie, ya que el propio mecanismo de construcción de ADRI nos delimitará cuales son. En este caso sólo nos hemos de preocupar de asegurarnos que éstas estén en el conjunto de variables de entrada. Este modelo funciona como un aproximador universal de la serie estudiada y por ello proporciona un mecanismo de interpolación para valores desconocidos de entrada. Estos valores han de estar comprendidos en los rangos conocidos de las variables de entrada, ya que al ser construido el modelo de forma inductiva mediante un conjunto de valores concreto que delimita un espacio de entrada su conocimiento sobre valores fuera de ese dominio es nulo. Si estamos interesados en construir modelos que no sólo sirvan para la 104 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. interpolación de valores, sino que también puedan actuar con valores fuera de los dominios conocidos, es decir, puedan extrapolar dichos valores, nos hemos de centrar no en los datos de las series a estudiar sino en la evolución de las mismas. En otras palabras, las variables del modelo se han de considerar como los incrementos de las series en lugar del valor de las propias series. Para aplicar y ver el comportamiento de este método de modelado de series temporales hemos tomado varias series macroeconómicas como son el deflactor del PIB a precio de mercado, el consumo nacional privado en España y el salario , descritas en el modelo MOISEES (modelo econométrico de las series representativas de la macroeconomía española), y hemos aplicado el mecanismo de inducción de ARDI obteniendo sus modelos difusos. En la sección siguiente presentamos los resultados obtenidos, con una breve descripción de las series estudiadas y los modelos propuestos por MOISEES, y los modelos difusos inducidos mediante ADRI, así como las similitudes y discrepancias entre los ambos. 3.3 ADRI aplicado a varias series macro económicas. 3.3.1 Deflactor del PIB a precio de mercado. 3.3.1.1 Deflactor del PIB a precio del mercado en MOISEES. El deflactor del PIB a precios de mercado se obtiene a partir del deflactor del PIB al coste de los factores y de los tipos efectivos medios de los impuestos ligados a la producción e importación, así como del correspondiente a las subvenciones de explotación. Se estima una relación como (1 − L) log( pt ) = a 0 + a1 (1 − L) log( pcf t ) + a 2 (1 − L) log(1 + Temtp t ) + a 3 (1 − L) log(1 + Temtmt ) + a 4 (1 − L) log(1 + Temsut ) + U t (3.29) donde p es el deflactor del PIB a precios de mercados, pcf es el deflactor del PIB a coste de los factores y Temtp, Temtm y Temsu son los tipos efectivos medios de los impuestos ligados a la producción, importación y subvenciones de explotación respectivamente. El tipo efectivo medio de los impuestos ligados a la producción se define como 105 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Temtp = TP CPN − TP (3.30) donde TP son los impuestos ligados a la producción y CPN es el consumo privado nacional en precios corrientes de cada año. El tipo efectivo medio de los impuestos ligados a la importación se define igualmente como Temtm = TM M − TM (3.31) donde TM son los impuestos ligados a la importación y M son las importaciones de bienes y servicios (en terminología del Sistema de Contabilidad Nacional SCN) en precios corrientes. Por otra parte se define Temsu = Sub CPN − Sub (3.32) donde Sub son las subvenciones de explotación. En base a la relación expresada mediante la ecuación 3.29 y a la característica de que son series cointegradas[42], se estima un modelo de corrección de error , según los datos de la tabla 4 ,como el siguiente (1− L) 2 log( pt ) = b1 (1 − L) 2 log( pcf t ) + b2 (1− L) 2 log(1+ Temtpt ) + b3 (1− L) 2 log(1+ Temtmt )b4 (1− L) 2 log(1+ Temsut ) + b5 [(1− L)log( pt −1) − a0 − a1 (1− L)log( pcf t −1) − a2 (1 − L)log(1 + Temtpt −1) − a3 (1− L)log(1 + Temtmt −1) − a4 (1− L)log(1+ Temsut −1)] + et con los siguientes valores para los parámetros 106 (3.33) Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Parámetro a0 a1 Valor 0,004 0,985 Estadístico "t" 3,9 103,5 a2 a3 a4 b1 b2 b3 b4 b5 0,141 0,240 -0,927 0,969 0,316 0,202 -0,505 -1,049 2,1 5,0 -4,0 45,1 6,2 7,2 -4,6 -6,3 SEE=0.0023 R = 0,991 Como podemos observar la estimación de las segundas diferencias del logaritmo del deflactor del PIB a precio de mercado (1-L)2log(pt), mediante la técnica de corrección de errores de series cointegradas, nos proporciona una ecuación 3.33 estructurada en dos partes: un primer conjunto de sumandos cuyos coeficientes son b1 hasta b4 que reflejan el comportamiento de la serie a corto plazo, y un segundo conjunto de sumandos con coeficientes a0 hasta a4 que reflejan el comportamiento a largo plazo. En otros términos podríamos pensar que el primer grupo de sumando es el ajuste a corto plazo (o corrección del modelo) que se realiza de la serie, siendo el segundo conjunto una aproximación del comportamiento a largo plazo o tendencia general de dicha serie. En definitiva se modeliza la serie y el error que se comete con dicho modelo. Estos lo podemos ver reflejado en las figuras 3.1 y 3.2 donde la función a aproximar se representa mediante trazo continuo y la aproximación discontinuo. 107 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,02 -0,04 -0,06 Corto plazo Figura(3.1) 0,01 0,008 0,006 0,004 0,002 0 -0,002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,004 -0,006 -0,008 -0,01 Serie original menos el ajuste a corto plazo frente al comportamiento a largo plazo Figura (3.2) Agregando el resultado de las dos aproximaciones, modelo de la serie y modelo del error cometido, se obtiene el modelo final con corrección de errores como representa la figura 3.3. 108 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,02 -0,04 -0,06 Modelo con corrección de errores Figura (3.3) 3.3.1.2 Estimación del deflactor del PIB a precio de mercado mediante ADRI. En este primer caso, donde el modelo propuesto por MOISEES describe la evolución de la tendencia del deflactor del PIB a precios de mercado, utilizaremos la capacidad para la regresión de funciones que ofrece ADRI. Con el objetivo de poder obtener resultados que sean comparables a los expuestos por el modelo de MOISEES, tomaremos como variables las mismas que intervienen en él. Estas variables nos ofrecen el conjunto de datos de la tabla 4, que serán los datos de entrada sobre los que induciremos el modelo difuso. Concretamente en este ejemplo observamos que las series utilizadas por MOISEES son series cointegradas, característica que es utilizada para abordar el problema de su ajuste mediante las técnicas de corrección de errores[42] que proporcionan dichas series. Esta forma de ajuste del modelo nos su la siguiente técnica de actuación: 1. - Inducir un modelo difuso Ψ que exprese el comportamiento de los datos estudiados. 2. - Obtener el error cometido cuando es utilizado el modelo sobre el conjunto de datos. 3. - Inducir un nuevo modelo difuso ΨE que modele el error que cometemos al utilizar el modelo Ψ. 109 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 4. - Construir mediante la agregación de los modelos Ψ y ΨE un modelo general Ψ' donde quede reflejado el comportamiento de Ψ considerando los errores cometidos mediante el uso conjunto del modelo ΨE. Con este método de trabajo, lo primero que hacemos es construir el modelo Ψ mediante la inducción de ADRI. Esto nos proporciona un árbol difuso de regresión e identificación del cual extraemos un conjunto de 12 reglas difusas (tabla 3.4) que configuran dicho modelo. 110 R1 (1-L)2log(1+Temtpt) -0,04458 -0,00862 0,02852 0,02852 (1-L)2log(1+Temsut) -0,01157 -0,01157 0,01058 0,01058 2 (1-L) log(pfct) -0,03639 -0,03639 -0,03429 -0,02237 (1-L)log(pt-1) 0,04296 0,04296 0,20841 0,20841 2 (1-L) log(pt) -0,02939 R2 -0,04458 -0,00862 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 -0,03429 -0,02237 -0,01842 -0,00731 0,04296 0,04296 0,20841 0,20841 -0,02126 R3 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 -0,00029 0,00253 -0,01842 -0,00731 -0,00731 -0,00381 0,04296 0,04296 0,10383 0,13258 -0,02324 R4 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 -0,00029 0,00253 -0,01842 -0,00731 -0,00731 -0,00381 0,10383 0,13258 0,20841 0,20841 -0,00220 R5 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 0,02987 0,05283 0,05283 0,05823 0,04296 0,04296 0,20841 0,20841 0,03781 R6 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 0,05283 0,05823 0,05823 0,05823 0,04296 0,04296 0,20841 0,20841 0,05553 R7 -0,04458 -0,04458 0,02852 0,02852 -0,00029 0,00253 0,01058 0,01058 -0,01842 -0,00731 -0,00731 -0,00381 0,04296 0,04296 0,20841 0,20841 -0,00622 Conjunto de reglas para el modelo Ψ . Figura (3.4) R8 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 0,00100 0,01633 0,01810 0,02248 0,04296 0,04296 0,20841 0,20841 0,01472 R9 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 0,01810 0,02248 0,02987 0,05283 0,04296 0,04296 0,20841 0,20841 0,02669 R10 -0,04458 -0,00862 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 -0,03639 -0,03639 -0,01842 -0,00731 0,04296 0,04296 0,20841 0,20841 -0,00933 R11 -0,04458 -0,04458 0,02852 0,02852 -0,01157 -0,01157 0,01058 0,01058 -0,00731 -0,00381 0,00100 0,01633 0,04296 0,04296 0,20841 0,20841 0,00024 R12 -0,04458 -0,04458 -0,04458 -0,00862 -0,01157 -0,01157 0,01058 0,01058 -0,03639 -0,03639 -0,01842 -0,00731 0,04296 0,04296 0,20841 0,20841 -0,04590 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Utilizando el mismo conjunto de datos podemos ver como se comporta el modelo difuso creado Ψ frente a los valores correctos la tendencia de cambio del deflactor del PIB a precios de mercado. En la figura 3.5 representamos mediante una línea discontinua los valores que el modelo difuso Ψ nos ofrece frente a los valores reales que se han querido modelar. 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,02 -0,04 -0,06 Aproximación de (1-L)2log(pt) mediante el modelo difuso Ψ. Figura (3.5) Esta aproximación produce un SEE=√E=0,003986 (error medio) , que es superior al estimado por el modelo de MOISEES. Considerando que estamos ante un método con corrección del error, en analogía con el utilizado las series cointegradas, podremos interpretar el conjunto de reglas obtenido como el comportamiento del modelo a corto plazo como veíamos en MOISEES (figura 3.1). Si denominamos Ξ a la serie que queremos aproximar, el error que cometeremos será ERROR(t)=Ξ(t)-Ψ(t). El comportamiento de la función ERROR(t) para nuestro modelo Ψ se refleja en la figura 3.6. 112 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 -0,002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,004 -0,006 Error del modelo Ψ Figura. Función ERROR(t) (3.6) Sea ERROR(t) como un nuevo sistema y construyamos para él un modelo difuso ΨE utilizando los mismos datos iniciales. Induciendo un nuevo árbol difuso de regresión e identificación , extraemos el conjunto de 12 reglas (figura 3.7) que configuran el modelo difuso ΨE. Este modelo proporciona una aproximación al comportamiento del error que cometemos con la utilización del modelo Ψ. El modelo ΨE refleja el comportamiento del error cometido (ERROR(t)) con un valor para el error promedio cometido de SEE=0,001655376. En la figura 3.8 mostramos ,mediante una línea discontinua, los valores del modelado del error cometido, modelo ΨE, al utilizar Ψ frente al error real Ξ-Ψ. 113 R1 (1-L) log(1+Temtmt) -0,0474 -0,0474 0,0416 0,0416 2 (1-L) log(1+Temsut) -0,0116 -0,0116 -0,0003 0,0025 (1-L)2log(pcft) -0,0364 -0,0364 0,0010 0,0163 (1-L)log(1+Temsut-1) -0,0020 -0,0002 0,0001 0,0017 (1-L)log(pcft-1) 0,0377 0,0377 0,2110 0,2110 ERROR 0,0011 2 R2 -0,0474 -0,0474 0,0416 0,0416 -0,0116 -0,0116 -0,0003 0,0025 0,0010 0,0163 0,0582 0,0582 -0,0020 -0,0002 0,0001 0,0017 0,0377 0,0377 0,2110 0,2110 0,0032 R3 -0,0019 0,0117 0,0416 0,0416 -0,0116 -0,0116 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 0,0001 0,0017 0,0025 0,0030 0,0377 0,0377 0,1077 0,1329 0,0053 R4 -0,0019 0,0117 0,0416 0,0416 -0,0116 -0,0116 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 0,0001 0,0017 0,0025 0,0030 0,1077 0,1329 0,2110 0,2110 -0,2239 R5 -0,0474 -0,0474 -0,0019 0,0117 -0,0003 0,0025 0,0106 0,0106 -0,0364 -0,0364 0,0582 0,0582 -0,0066 -0,0066 0,0001 0,0017 0,0377 0,0377 0,2110 0,2110 -0,0032 R6 -0,0474 -0,0474 -0,0019 0,0117 -0,0003 0,0025 0,0106 0,0106 -0,0364 -0,0364 0,0582 0,0582 0,0001 0,0017 0,0083 0,0083 0,0377 0,0377 0,2110 0,2110 -0,0002 R7 -0,0474 -0,0474 0,0416 0,0416 -0,0066 -0,0029 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 -0,0066 -0,0066 -0,0020 -0,0002 0,0377 0,0377 0,2110 0,2110 0,0123 R8 -0,0474 -0,0474 0,0416 0,0416 -0,0116 -0,0116 -0,0066 -0,0029 -0,0364 -0,0364 0,0582 0,0582 -0,0066 -0,0066 -0,0020 -0,0002 0,0377 0,0377 0,2110 0,2110 0,0130 R9 -0,0019 0,0117 0,0416 0,0416 -0,0116 -0,0116 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 0,0025 0,0030 0,0030 0,0056 0,0377 0,0377 0,2110 0,2110 -0,0002 Conjunto de reglas difusas del modelo ΨE. Figura (3.7) R10 -0,0474 -0,0474 -0,0019 0,0117 -0,0116 -0,0116 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 0,0001 0,0017 0,0030 0,0056 0,0377 0,0377 0,2110 0,2110 -0,0027 R11 -0,0019 0,0117 0,0416 0,0416 -0,0003 0,0025 0,0106 0,0106 -0,0364 -0,0364 0,0582 0,0582 -0,0066 -0,0066 0,0083 0,0083 0,0377 0,0377 0,2110 0,2110 0,0014 R12 -0,0474 -0,0474 0,0416 0,0416 -0,0116 -0,0116 -0,0003 0,0025 -0,0364 -0,0364 0,0582 0,0582 0,0030 0,0056 0,0083 0,0083 0,0377 0,0377 0,2110 0,2110 0,0012 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,002 -0,004 -0,006 ΨE frente a ERROR Figura (3.8) Para concluir agregaremos la información que nos proporciona el modelo ΨE al modelo inicial Ψ. El sistema Ξ estudiado puede componerse como la aproximación mediante el modelo difuso Ψ más el error cometido, es decir Ξ(x)=Ψ(x)+ERROR(x). Como hemos estimado el error que produce nuestro modelo inicial Ψ mediante un modelo difuso ΨE, podremos incorporar la información de los dos modelos para formar un único modelo Ψ' del sistema Ξ Ψ '(x ) = Ψ (x ) + ΨE (x ) (3.34) que podríamos representar mediante un diagrama de bloques como en la figura 3.9 X Ψ Σ ΨE Modelo Ψ' Figura (3.9) Los resultados de la estimación de (1-L)2log(pt) mediante el modelo difuso Ψ' ofrecen un valor del error promedio cometido de SEE=0,0016537, mejorando sensiblemente 115 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. el valor SEE=0,0023 del modelo de corrección de error (ecuación 3.33) proporcionado por MOISEES. En la figura siguiente (3.10) mostramos el comportamiento del modelo difuso Ψ' obtenido mediante una línea discontinua frente a los datos reales de la tabla 4. 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 -0,02 -0,04 -0,06 Modelo Ψ' de corrección de error .Figura (3.10) Los resultados obtenidos nos permiten afirmar que el modelo obtenido es un buen mecanismo de regresión. También hemos de destacar la incorporación del modelado del error para conseguir un mayor ajuste sin aumentar la complejidad del sistema, ya que los dos modelos Ψ y ΨE son de complejidades similares, considerando la complejidad del modelo difuso en base al número de reglas y variables que lo definen, y la inferencia se realiza de forma independiente (en paralelo) en cada uno de ellos, por lo que la complejidad global del modelo Ψ' vendrá dada por la mayor de las complejidades de los modelos que lo integran. La incorporación de un nuevo modelo difuso que nos permite ajustar mejor el modelo inicial tampoco produce una complicación sobre la creación del modelo inicial, ya que es el mismo método y los mismos datos (salvo los valores de la función que queremos aproximar) los utilizados. Esto nos conduce a afirmar que la inducción mediante ADRI de los modelos Ψ y ΨE nos proporciona un método simple y general de regresión. 116 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. En relación a los modelos obtenidos, destacamos como nuestro modelo de aproximación Ψ de la serie posee como variables de entrada la mayoría de las variables que definían el ajuste a corto plazo del modelo de MOISEES, mientras que en el modelo del error ΨE el conjunto de variables que interviene participa de ambos modelos de MOISEES como son variables que definen el modelo a largo plazo ((1-L)log(1+Temsut-1) y (1-L)log(pcft-1)) como variables de ajuste de corto plazo. Esta diferencia en el tratamiento a largo plazo o tendencia general de la serie viene originada en las distintas concepciones de los modelos, mientras en el modelo MOISEES esta se postula en un principio y es corregida por el comportamiento a corto plazo, en el modelo difuso Ψ' al no cuestionarse un modelo inicial del comportamiento de la tendencia del deflactor del PIB a precios de mercado sólo intenta reflejar lo más fielmente posible los datos referentes a los cambios de esta tendencia. 3.3.2 Consumo Nacional Privado. 3.3.2.1 Consumo nacional privado en MOISEES. En el modelo MOISEES[1] la especificación de la función de consumo privado nacional se realiza mediante el análisis de la relación a largo plazo entre el consumo y sus determinantes y, a partir de ella, modeliza el corto plazo como un mecanismo de corrección del error. En este caso se postula una relación de largo plazo como Ct = f (Yt , WEt , Zt ) (3.35) Donde Ct el consumo privado nacional en precios constantes de 1980, Yt es la renta neta disponible real de las familias, WEt es la riqueza real en manos de los consumidores y Zt es un vector de que incluye otros posibles determinantes del consumo privado nacional. La renta neta disponible real de las familias se obtiene deflactando la serie nominal mediante el deflactor del consumo privado nacional Yt = RNDFt PCt 117 (3.36) Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Definiendo la riqueza real en manos de los consumidores como WEt = ALPt + Bt + Kprt Pt (3.37) donde ALPt son los activos líquidos en manos del público, Bt son los bonos en poder de los consumidores, Pt es el deflactor implícito del PIB a precios de mercado y Kprt es el stock de capital privado en términos reales. El vector Zt se considera formado por una serie de variables cuyos efectos sobre el consumo se consideran a corto plazo: el impuesto inflacionario (ITt), el tipo de interés real (rt) y la tasa de paro (ut). Del análisis de integrabilidad de cada una de las variables consideradas y de las posibles relaciones de cointegración entre las mismas, se concluye que no hay evidencia en contra de que una relación a largo plazo entre el consumo interno nacional, renta neta disponible de las familias y riqueza real como log(Ct ) = a0 + a1 log(Yt ) + a 2 log(WEt ) + ut (3.38) sea de cointegración y por lo tanto una relación donde las desviaciones del equilibrio sean transitorias o de corto plazo. La cointegración entre las variables consideradas en la ecuación 3.38, implica la existencia de un mecanismo de corrección de errores que proporciona el modelo siguiente para el comportamiento de consumo (1 − L) log(Ct ) = b1 (1 − L) log(Yt ) + b2 (1 − L) 2 log(WEt ) + b3 (1 − L) 2 log( ITt ) b4 (1 − L)rt + b5 (1 − L) 2 ut + Γ (log(Ct −1 ) − a0 − a1 log(Yt −1 ) − (3.39) a2 log(WEt −1 )) + ε t El modelo que refleja la ecuación 3.39 es estimada mediante mínimos cuadrados no lineales en tres etapas obteniendo los siguientes valores de coeficientes para los coeficientes y estadísticos (datos de la tabla 2) 118 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Coeficiente a0 a1 a2 b1 b2 b3 b4 b5 Γ Valor Estadístico "t" R 2 = 0,983 0,383 3,1 DW=2,11 0,801 21,6 SEE=0,0035 0,131 5,9 0,494 7,6 0,484 4,6 -0,007 -2,5 -0,151 -5,5 -0,356 -5,9 -0,708 -8,5 3.3.2.2 Modelización del consumo nacional privado mediante ADRI. Nos encontramos de nuevo ante un modelo de corrección de errores de series cointegradas, por lo que actuaremos de forma análoga al caso anterior del deflactor del PIB a precios de mercado. Además intentaremos extraer más información del proceso de construcción de los árboles difusos de regresión e identificación, fijándonos en ellos antes de construir los conjuntos de reglas que definan los modelos difusos inducidos. Como podemos observar en el modelo del MOISEES (ecuación 3.39), la estimación que se busca es la referente a la variación del consumo nacional privado mediante un mecanismo de corrección de errores de la tesis postulada en la ecuación (3.38) sobre el comportamiento del consumo. En esta ocasión en primer lugar utilizaremos la inducción de un modelo difuso Ψ para la variación del consumo, al cual añadiremos otro modelo difuso ΨE que nos refleje el error cometido con Ψ. Tomemos como conjunto de datos los valores de las variables que se aparecen en el ajuste del modelo (3.38) propuesto por MOISEES. Estos datos se extraen de la tabla 2 aplicando sobre dichos valores las transformaciones necesarias para lograr el mismo conjunto de datos utilizados por MOISEES, más concretamente, estas transformaciones consisten en considerar los valores de los logaritmos de las series originales de la tabla, así como sus primeras y segundas diferencias ((1-L) y (1-L)2). Tras realizar las transformaciones anteriores fijamos un valor máximo del estimador RN=0,09 e inducimos el árbol difuso de regresión e inducción (figura 3.11) para la construcción del modelo Ψ de la variación del logaritmo del consumo nacional privado. 119 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. ADRI para la aproximación de DLC Figura (3.11) 120 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. La figura 3.11 representa el árbol ADRI obtenido. En ella representamos los conjuntos difusos que etiquetan cada arco del árbol mostrando en las dos últimas columnas los valores de salida que tiene el incremento del consumo en cada nodo final u hoja, así como el tanto por uno de ejemplos que cubre dicho nodo. La notación utilizada para nombrar las variables tiene el siguiente significado: L significa logaritmo, D significa la primera diferencia y D2 significa la segunda diferencia de la variable concreta, siendo el número que acompaña a cada uno de las variables el que identifica al nodo concreto del árbol. El árbol obtenido nos refleja de forma explícita el orden en el que las distintas variables han sido consideradas para configurar la salida de cada nodo hoja. En primer lugar la variable Dlu nos sirve para delimitar dos grandes grupos, aquellos valores correspondientes al nodo 1 y sus descendientes, así como los del nodo 2. Cada uno de estos grupos cubren respectivamente el 42,5% y 57,5% del conjunto de ejemplos. Estos porcentajes nos ayudan a identificar reglas (nodos hojas), que al ser muy pequeño el porcentaje de datos cubiertos por ellas reflejan aspectos muy particulares que casi podríamos denominar excepciones sobre el comportamiento general. Un ejemplo de este tipo de efecto lo podemos observar en los nodos hojas etiquetados con los números 16 y 18 donde los porcentajes de cubrimiento de ejemplos de cada uno de ellos son respectivamente 0,58% y 0,78%. Estos resultados nos pone de manifiesto que la expansión de los nodos 14 y 13 mediante el uso de nuevo de las variables DLWE y Dlu sólo consiguen identificar pequeñas excepciones no representativas. Por otra parte observamos que los nodos hoja 9 y 10 cubren respectivamente el 21,8% y 21,8% lo que hace que estos dos nodos solo cubran el 43,6% de todos los ejemplos, reflejando que la casi la mitad de los datos pueden ser tratados en base a los valores de las variables Dlu y DLWE respectivamente. Esto pone de manifiesto la gran dependencia de la variación del consumo privado con respecto a los valores de variación de la tasa de paro (u) y la renta real de las familias (WE). Una vez estudiadas las características que nos aporta el propio árbol difuso de regresión e identificación, extraemos el conjunto de 10 reglas (figura 3.10) que configuran nuestro modelo difuso Ψ para la variación del consumo privado nacional. 121 R1 D2LY -0,0499 -0,0499 0,0359 0,0359 DLWE 0,051 0,072 0,1128 0,1128 -0,8122 D2IT -0,8122 -0,1755 0,0387 0,0059 LU 0,0059 0,2194 0,2194 0,0062 DLU 0,0121 0,0133 0,0165 0,04606 DLC R2 -0,0499 -0,0499 0,0359 0,0359 0,013 0,013 0,051 0,072 -0,8122 -0,8122 -0,1755 0,0387 0,0059 0,0059 0,2194 0,2194 0,0062 0,0121 0,0133 0,0165 0,01835 R3 -0,0499 -0,0499 0,0359 0,0359 0,013 0,013 0,1128 0,1128 -0,1755 0,0387 1,0711 1,0711 0,0059 0,0059 0,0706 0,1436 0,0062 0,0121 0,0133 0,0165 0,04976 R4 -0,0499 -0,0499 0,0359 0,0359 0,013 0,013 0,1128 0,1128 -0,1755 0,0387 1,0711 1,0711 0,0706 0,1436 0,2194 0,2194 0,0062 0,0121 0,0133 0,0165 0,01756 R5 -0,0147 0,0025 0,0359 0,0359 0,013 0,013 0,051 0,072 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 -0,0102 -0,0102 0,0062 0,0121 0,04494 R6 -0,0499 -0,0499 -0,0147 0,0025 0,013 0,013 0,051 0,072 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 -0,0102 -0,0102 0,0062 0,0121 0,01684 R7 -0,0499 -0,0499 0,0359 0,0359 0,051 0,072 0,088 0,095 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 -0,0102 -0,0102 0,0062 0,0121 0,05027 R8 -0,0499 -0,0499 0,0359 0,0359 0,088 0,095 0,1128 0,1128 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 -0,0102 -0,0102 0,0062 0,0121 0,06893 R9 -0,0499 -0,0499 0,0359 0,0359 0,013 0,013 0,1128 0,1128 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,0133 0,0165 0,0188 0,0281 0,00735 Conjunto de reglas del aproximador Ψ' (3.12) R10 -0,0499 -0,0499 0,0359 0,0359 0,013 0,013 0,1128 0,1128 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,0188 0,0281 0,0287 0,0287 0,00121 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Este conjunto de reglas configura el modelo Ψ con los valores para el estimador del árbol difuso de regresión e identificación ADRI de RN=0,08852 y con un error promedio de SEE=0,005859. Como se puede observar el SEE obtenido por ADRI es mayor al obtenido por el modelo de MOISEES (0,0035) . Una vez construido el modelo difuso Ψ para el comportamiento de la variación del consumo, induciremos el modelo difuso ΨE que nos proporcione la información del error cometido por Ψ. En la figura 3.11 podemos observar gráficamente el comportamiento del modelo Ψ (línea discontinua) frente a los datos originales (línea continua). Esta confrontación nos origina los datos necesarios para la construcción del modelo del error cometido ERROR(t)=LDC(t)-Ψ(t). Comportamiento de Ψ (3.13) Utilizando los datos de ERROR(t), el modelo ΨE es obtenido mediante ADRI. Del árbol difuso conseguido extraemos el conjunto de 10 reglas, figura 3.14, que definen a ΨE. 123 R1 LY 9,0255 9,1878 9,449 9,449 DLWE 0,013 0,013 0,051 0,072 D2LWE -0,005 0,005 0,008 0,0136 D2IT -0,8122 -0,8122 1,0711 1,0711 DLu 0,0059 0,0059 0,2194 0,2194 ERROR 0,00087881 R2 R3 R4 R5 R6 R7 R8 R9 R10 9,0255 9,1878 9,449 9,449 0,013 0,013 0,051 0,072 -0,005 0,005 0,008 0,0136 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,00301715 9,0255 9,1878 9,449 9,449 0,051 0,072 0,1128 0,1128 -0,005 0,005 0,008 0,0136 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,00534417 8,7672 8,7672 9,449 9,449 0,013 0,013 0,1128 0,1128 -0,021 -0,01 -0,005 0,005 -0,8122 -0,8122 -0,1755 0,0387 0,0059 0,0059 0,0706 0,1436 0,00163222 8,7672 8,7672 9,449 9,449 0,013 0,013 0,1128 0,1128 -0,021 -0,01 -0,005 0,005 -0,1755 0,0387 1,0711 1,0711 0,0059 0,0059 0,0706 0,1436 0,0058899 8,8514 8,9689 9,0255 9,1878 0,013 0,013 0,1128 0,1128 -0,005 0,005 0,021 0,021 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,00135544 8,7672 8,7672 8,8514 8,9689 0,013 0,013 0,1128 0,1128 -0,005 0,005 0,021 0,021 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,00698186 9,0255 9,1878 9,449 9,449 0,013 0,013 0,1128 0,1128 0,008 0,0136 0,021 0,021 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,2194 0,2194 0,00874799 8,7672 8,7672 9,449 9,449 0,013 0,013 0,1128 0,1128 -0,0248 -0,0248 -0,021 -0,01 -0,8122 -0,8122 1,0711 1,0711 0,0059 0,0059 0,0706 0,1436 0,00315406 8,7672 8,7672 9,449 9,449 0,013 0,013 0,1128 0,1128 -0,0248 -0,0248 -0,005 0,005 -0,8122 -0,8122 1,0711 1,0711 0,0706 0,1436 0,2194 0,2194 0,00579119 Modelo ΨE .Figura (3.14) Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. El comportamiento de la aproximación que se consigue mediante el modelo ΨE, así como el error real cometido por el modelo Ψ se muestran gráficamente en la figura 3.16 siguiente. Finalmente el modelo Ψ', compuesto por la agregación de los modelos difusos Ψ y ΨE mediante la suma de sus respectivas salidas, queda reflejado en la figura 3.17. En esta figura representamos los valores que del modelo difuso Ψ inducido nos proporciona con una línea discontinua, frente a la línea continua que nos muestra la evolución de la variación del consumo privado nacional durante el periodo estudiado. El valor del error promedio cometido por el modelo difuso Ψ inducido es de SEE=0,00264 inferior al valor SEE=0,0035 conseguido por el modelo expresado en la ecuación 3.39 de MOISEES. Error frente a ΨE. Figura (3.15) 125 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Modelo Ψ (3.16) Una vez estimada la variación del consumo, construiremos un modelo difuso que nos refleje el propio consumo en lugar de su variación. Para realizar este modelo utilizaremos las variables de la misma tabla 2 utilizada para estimar 3.39 considerando como variables de entrada LY, LWE, Lr, LTI, Lu que representan los logaritmos de la renta neta disponible real de las familias, la riqueza real en manos del público, tipo de interés real, impuesto inflacionario y tasa de paro, en el tiempo t y t-1 (LY1, LWE1, Lr1, LT1, Lu1), así como el logaritmo del consumo en t-1 (LC1). Esto nos proporciona un sistema con 11 variables de entrada y una de salida que es el logaritmo del consumo privado nacional LC. Tras la aplicación de ARDI obtenemos el siguiente árbol difuso de regresión mostrado en la figura 3.17. 126 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Inferencia mediante ADRI para el modelo de LC.Figura (3.17) 127 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. La representación que empleamos para mostrar el árbol, está organizada en tres columnas, en la primera de ellas se muestra la estructura del árbol indicando el número que identifica cada nodo. En la segunda columna mostramos los conjuntos difusos que determinan cada nodo hoja y en la tercera columna los valores de salida (valor del consumo) , así como el porcentaje de ejemplos que cubre cada nodo hoja. La estructura concreta de este árbol nos permite considerar la figura 3.17 como una tabla de decisión. Esto se manifiesta cuando la utilizamos para realizar la inferencia de un valor del logaritmo del consumo para un año concreto. Sobre la misma figura realizamos la inferencia del valor del logaritmo del consumo privado nacional en el año 1980. La primera fila pregunta sobre el valor de Lr de 1980 en el nodo 2, como observamos este valor tiene un grado de pertenencia 0 al conjunto difuso que define el arco que une el nodo raíz 0 con el nodo hoja 2. Esto ocasiona que valor pertenezca completamente al nodo 1, grado de pertenencia 1. En el nodo 1 se nos pregunta por el valor de la variable LY para poder alcanzar el nodo hoja 3, este valor tiene un grado de pertenencia 0 al conjunto difuso que etiqueta dicho nodo, lo que implica que el grado de pertenencia al nodo 4 es total. Continuando de esta forma obtenemos los grados de pertenencia del valor que queremos inferir a cada uno de los nodos del árbol (en la figura 3.17 estos valores están situados debajo del número que identifica el nodo), con lo que podemos realizar la inferencia del logaritmo del consumo para el año 1980 como 9,1922 × 0,6125 + 9,2150 × 0,3855 = 9,182605 0,6125 + 0,3855 (3.40) El árbol de la figura 3.17 es inducido mediante el algoritmo de ADRI con un valor límite de la su estimador de 0,035, obteniendo, en concreto, un valor para el estimador RN= 0.033768, para el promedio de dos errores cuadráticos E=0.00068726 y un error medio SEE=√E=0,02621. Del árbol extraemos el conjunto de 10 reglas difusas (figura 3.18) que definen el modelo difuso Ψ del consumo privado nacional. El comportamiento del modelo Ψ frente a 128 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. los datos reales del consumo se muestra en la figura 3.19 donde los valores aportados por el modelo se representan mediante trazo discontinuo frente al valor real del consumo con trazo continuo. Lu Lr Lr1 LIT1 LY LY1 LC R1 0,1624 0,1949 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 6,4607 7,0665 7,8716 7,8716 8,9689 9,1878 9,4490 9,4490 8,9689 9,1878 9,3997 9,3997 9,2707 R2 0,1624 0,1949 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 6,4607 7,0665 8,9689 9,1878 9,4490 9,4490 8,9689 9,1878 9,3997 9,3997 9,3683 R3 0,0706 0,1436 0,1624 0,1949 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,9689 9,1878 9,4490 9,4490 8,9689 9,1878 9,3997 9,3997 9,2150 R4 0,0234 0,0529 0,0706 0,1436 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,9689 9,1878 9,4490 9,4490 8,9689 9,1878 9,3997 9,3997 9,1922 R5 0,0059 0,0059 0,0234 0,0529 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,9689 9,1878 9,4490 9,4490 8,9689 9,1878 9,3997 9,3997 9,0819 R6 0,0059 0,0059 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,7981 8,9175 8,9689 9,1878 8,5809 8,5809 9,3997 9,3997 8,8570 R7 0,0059 0,0059 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,6864 8,6864 8,7981 8,9175 8,5809 8,5809 9,3997 9,3997 8,7094 Modelo Ψ para el consumo privado nacional. Figura (3.18) 129 R8 0,0059 0,0059 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -0,1175 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,9689 9,1878 9,4490 9,4490 8,5809 8,5809 8,9689 9,1878 8,9796 R9 0,0059 0,0059 0,2194 0,2194 -1,5600 -0,1175 0,0737 0,0737 -1,5600 -1,5600 -1,5600 -0,1175 5,3709 5,3709 7,8716 7,8716 8,6864 8,6864 9,4490 9,4490 8,5809 8,5809 9,3997 9,3997 8,6208 R10 0,0059 0,0059 0,2194 0,2194 -1,5600 -1,5600 -1,5600 -0,1175 -1,5600 -1,5600 0,0737 0,0737 5,3709 5,3709 7,8716 7,8716 8,6864 8,6864 9,4490 9,4490 8,5809 8,5809 9,3997 9,3997 8,5540 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Consumo nacional privado versus modelo Ψ(3.19) Del análisis del modelo Ψ inducido por ARDI podemos establecer la siguiente conclusión: El consumo actual depende de la actual renta neta disponible de las familias (Yt) , así como el tipo de interés existente en el año en curso (rt) y en el año anterior (rt-1) , también ser observa una dependencia en menor medida de la tasa de paro (ut), la renta neta disponible de las familias (Yt-1) y el impuesto inflacionario del año anterior (ITt-1). El modelo obtenido difiere fundamentalmente del presentado por MOISEES en que este presenta el consumo como una función de la renta neta disponible real de las familias y la riqueza real en manos del público (WEt), variable que desaparece en el modelo propuesto mediante ARDI, apareciendo en éste el tipo de interés real como variable clave del modelo, frente a la aceptación de un carácter corrector en MOISEES. 3.3.3 Salarios. 3.3.3.1 Salarios en MOISESS. El salario nominal de la economía es el resultado de un proceso negociador entre empresas y trabajadores anterior a la realización trabajo que afectará a unos y a otros. Puesto que el resultado de una negociación depende fundamentalmente del poder de cada una de las partes la especificación de la ecuación del salarios no debería sobre el poder del mercado de patronos y trabajadores. 130 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. MOISEES propone el siguiente modelo para la ecuación del salario: log(W ) = a0 + ai log( P) + a 2 ( K −1 ) + a3 log(1 + TECS) − a 4U + a5 Z L (3.41) donde el coste laboral nominal (W) depende del precio (P), la productividad del trabajo - aproximada mediante el ratio capital instalado - empleo (K-1/L), la tasa de desempleo, los impuestos sobre el trabajo a cargo de los empleadores (TECS) y un vector de influencias Z que puede afectar a priori bien a la capacidad de presión sindical sobre los salarios, como a la decisión de participar en el mercado de trabajo. Posibles componentes de Z son los impuestos indirectos y otras variables que incidan sobre el salario real de consumo, las prestaciones a los desempleados, el salario mínimo, la protección legal del empleo, etc. Los resultados de realizar la estimación de la ecuación 3.41 mediante el método de mínimos cuadrados en tres etapas nos lo ofrece la ecuación 3.42 log( SAL) = b0 + log(1 + T 3) + b1 log( K PC (1 + T 3)) + b2 log −1 + b3U + b4 D PCF LD (3.42) Siendo las variables: •CL Coste laboral nominal. •PCF Deflactor del PIB al coste de los factores. •TECS Tipo efectivo medio de las cotizaciones sociales a cargo de los empleadores. Tipo efectivo medio de los impuestos indirectos neto de subvenciones. •T3 Stock de capital •K •LD Empleo Tasa de paro •U 0,5 1970 •D= 1 1971 0 resto •SAL=CL/PCF(1+TECS) con valores de los parámetros para el periodo de estimación 1967-1988 (datos de la tabla 3) Parámetro b0 b1 b2 b3 b4 Coeficiente -0,922 -73 0,688 -1,232 -0,0867 Estadístico "t" -85,69 8,04 60 -23,22 -10,651 SEE=0,008 R2=0,999 DW=2,05 131 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. 3.3.3.2 Modelización de los salarios mediante ADRI. En esta ocasión nos encontramos con un mecanismo de regresión simple en el modelo propuesto por MOISEES. Esto no lleva a construir el modelo difuso Ψ de la función de salarios mediante la inducción mediante ADRI, tomando como datos de entrada los correspondientes a la tabla 3 (los valores son logaritmos de las series originales). Tras la ejecución del algoritmo de ADRI, al cual fijamos como valor máximo del estimador RN=0,01, obtenemos (figura 3.20) el siguiente árbol difuso de regresión e identificación Árbol difuso de regresión e identificación para la función de salarios .Figura (3.20) con unos valores de para el estimador RN=0,00987695 y un error promedio SEE=√E=0.00817058. Del árbol de la figura 3.20 extraemos el conjunto de 10 reglas (figura 3.21) que define al modelo Ψ de los salarios. NODO 13 NODO 14 NODO 8 NODO 7 NODO 10 K1 4,09962 4,14689 4,18953 4,31253 4,34364 4,09962 4,18953 4,27449 4,34364 4,45048 4,09962 4,18953 4,31253 4,34364 4,45048 4,14689 4,27449 4,34364 4,45048 4,47849 SAL -0,230239 -0,194816 -0,0156131 -0,0905893 -0,02827 NODO 9 NODO 12 NODO 11 4,45048 4,50269 4,57855 4,47849 4,55521 4,59647 4,50269 4,57855 4,63197 4,55521 4,59647 4,63197 0,024919 0,0756238 0,0963883 Modelo Ψ para los salarios. Figura (3.21) Destacamos como el modelo difuso Ψ depende exclusivamente de una única variable, que es el stock de capital K1 en un periodo de tiempo anterior al considerado. Esta 132 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. dependencia única hace que el modelo Ψ proyecte sobre el conjunto de datos una partición difusa de 11 subconjuntos. Esta partición nos delimita unos conjuntos difusos sobre el periodo de tiempo estudiado como muestra la figura 3.22 Recubrimiento de las reglas de salario (3.22) El comportamiento del modelo difuso Ψ lo podemos ver reflejado en la figura 3.23 donde lo mostramos con línea discontinua frente a los datos reales de salarios con línea continua. 133 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Salida del modelo difuso de salarios (3.23) Esta partición viene origina por la partición difusa inducida por ADRI para la única variable del modelo log(K-1). Gráficamente en la figura 3.24 mostramos los conjuntos difusos inducidos sobre los valores de Log(K1) y el valor del salario asignado como salida en cada uno de ellos. 134 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. PARTICION DE LG(K1) 4,63197 4,59647 4,57855 4,55521 4,50269 4,47849 4,45048 4,34364 4,31253 4,27449 4,18953 4,14689 4,09962 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 LOG(K1) 0,1 0,05 0 -0,05 1 2 3 4 5 6 7 8 -0,1 -0,15 -0,2 -0,25 Partición del Log(K-1) y valor de salario asociado (3.24) A modo de conclusión observando el valor de salida del salario, vemos que este crece al mismo tiempo que crece el valor del stock de capital, excepto en el periodo central (Nodo 7) que se produce una bajada en los salarios. Esta regla que englobaría el periodo desde el año 71 hasta el año 75 se comprueba que el aumento del stock de capital no se refleja en los salarios. Este efecto se intenta representar mediante la variable ficticia D del modelo 3.42. Si estamos interesados en ver como las variables K, T3, U, LD, PCF y CL afectan al modelo de los salarios, tendremos que forzar el algoritmo para un mayor ajuste del modelo. Esto se consigue fácilmente disminuyendo el valor de parada de RN que utilizamos para general el árbol de ADRI. En la tabla 3.25 siguiente se muestra cuando aparecen por primera cada una de las variables, excepto K1 que aparece desde la primera regla, indicando el valor obtenido 135 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. para el estimador RN, el número de reglas que genera el modelo y el número total de nodos que posee cada árbol difuso de regresión e identificación inducido. VAR Nº Reglas K1 8 K 11 T3 13 U 20 LD 22 PCF 27 CL 35 RN Nº Nodos 0,00987 15 0,00624 21 0,00476 25 0,00229 39 0,00208 43 0,00146 53 0,00092 69 Tabla de aparición de variables para el modelo de salarios 3.25 Consideremos la complejidad del modelo dependiente del número total de nodos, y el error cometido por cada modelo reflejado por el valor del estimador RN. Si normalizamos dichos valores entre 0 y 1, observamos (Figura 3.26) como al disminuir el error que comete el modelo mediante la incorporación de nuevas variables va aumentando la complejidad del mismo. Esto nos conduce a considerar el modelo que posea un compromiso entre su complejidad y su corrección, siendo éste aquel modelo formado por un conjunto de reglas mayor que 13 y menor que 20 (lugar de cruce de las dos líneas). Este modelo final incorpora las variables K y T3; pero no llega a considerar la variable U. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 8 11 13 20 22 27 35 Complejidad frente a Error de los modelos. Figura (3.26) Para finalizar este capítulo, comprobaremos la capacidad descriptiva y predictiva de los modelos inducidos mediante ADRI, construyendo un modelo lingüístico de la evolu- 136 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. ción del salario para el periodo 1967-1986 y comprobando los resultados que dicho modelo infiere para los años 1987 y 1988. Tomemos como variables los incrementos que sufren anualmente las variables de la tabla de datos 3. Esto es, consideremos como datos de entrada al algoritmo ADRI los valores DCLt= CLt-CLt-1 para t=1967 ... 1986, DPCF, DK1, DK, DU, DT3, DLD y DSAL. La variable de salida será DSAL que representa el incremento del logaritmo del salario en cada periodo de tiempo. Consideremos las variables lingüísticas con valores sobre el conjunto de etiquetas {muy bajo, bajo, normal, alto, muy alto} definidas como se muestra en la figura 3.27 siguiente : Conjunto difuso muy bajo (a,a,a,b) Función de pertenencia para x 1 (x − a) 1 − (b − a ) 0 x < a a ≤ x ≤ b x > b Representación Gráfica 1 0,5 0 bajo (a,b,b,c) mediano (b,c,c,d) alto (c,d,d,e) muy alto (d,e,e,e) (x (b (x ( c 0 − − − − (x (c (x ( d a) a) b) b) 0 − c) − b) − c) − c) 0 (x − c) (d − c) (x − d ) ( e − d ) ( x (d 0 − d) − e) 1 x < a o x > c a ≤ x ≤ b b< x ≤ c x < b o x > d d ≤ x ≤ e x > e e a b c d e a b c d e a b c d e a b c d e 1 0 x < d d 0 c < x ≤ d d < x ≤ e c 0,5 0,5 c≤ x ≤ d b 1 b≤ x ≤ c x < c o x > e a 1 0,5 0 1 0,5 0 Definición de las etiquetas lingüísticas. Figura (3.27) De los valores obtenidos a partir de la tabla de datos 3 para los años 1967 hasta 1986, definimos las siguientes variables lingüísticas : 137 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. DCL=( MY ALTO(0.0900648,0.10875,0.10875,0.10875), ALTO(0.0713796,0.0900648,0.0900648,0.10875), MEDIO(0.0526943,0.0713796,0.0713796,0.0900648), BAJO(0.0340091,0.0526943,0.0526943,0.0713796), MUY BAJO(0.0340091,0.0340091,0.0340091,0.0526943) ) DPCF=( MY ALTO(0.0728321,0.0916569,0.0916569,0.0916569), ALTO(0.0540073,0.0728321,0.0728321,0.0916569), MEDIO(0.0351825,0.0540073,0.0540073,0.0728321), BAJO(0.0163577,0.0351825,0.0351825,0.0540073), MUY BAJO(0.0163577,0.0163577,0.0163577,0.0351825) ) DT3=( MY ALTO(0.0688396,0.12151,0.12151,0.12151), ALTO(0.0161692,0.0688396,0.0688396,0.12151), MEDIO(-0.0365012,0.0161692,0.0161692,0.0688396), BAJO(-0.0891715,-0.0365012,-0.0365012,0.0161692), MUY BAJO(-0.0891715,-0.0891715,-0.0891715,-0.0365012) ) DK1=( MY ALTO(0.0368394,0.0472704,0.0472704,0.0472704), ALTO(0.0264084,0.0368394,0.0368394,0.0472704), MEDIO(0.0159774,0.0264084,0.0264084,0.0368394), BAJO(0.00554639,0.0159774,0.0159774,0.0264084), MUY BAJO(0.00554639,0.00554639,0.00554639,0.0159774) ) DK=( MY ALTO(0.0337136,0.0431027,0.0431027,0.0431027), ALTO(0.0243245,0.0337136,0.0337136,0.0431027), MEDIO(0.0149355,0.0243245,0.0243245,0.0337136), BAJO(0.00554639,0.0149355,0.0149355,0.0243245), MUY BAJO(0.00554639,0.00554639,0.00554639,0.0149355) ) DLD=( MY ALTO(0.00432018,0.0101351,0.0101351,0.0101351), ALTO(-0.00149477,0.00432018,0.00432018,0.0101351), MEDIO(-0.00730972,-0.00149477,-0.00149477,0.00432018), BAJO(-0.0131247,-0.00730972,-0.00730972,-0.00149477), MUY BAJO(-0.0131247,-0.0131247,-0.0131247,-0.00730972) ) DU=( MY ALTO(0.138004,0.197366,0.197366,0.197366), ALTO(0.0786415,0.138004,0.138004,0.197366), MEDIO(0.0192792,0.0786416,0.0786416,0.138004), BAJO(-0.0400832,0.0192792,0.0192792,0.0786416), MUY BAJO(-0.0400832,-0.0400832,-0.0400832,0.0192792) ) Aplicamos ADRI permitiendo el agrupamiento de etiquetas y fijando como valor máximo del estimador RN=0,023. Tras terminal el algoritmo de ADRI, se tiene que el valor del estimador RN=0,221092 con valor de SEE=0,00497053. 138 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Si nombramos la etiqueta MUY BAJO o BAJO o MEDIANO como ≤MEDIANO , y la etiqueta MEDIANO 0 ALTO o MUY ALTO como ≥MEDIANO, del árbol difuso de regresión e identificación extraemos el conjunto de 9 reglas (figura 3.28) que nos modela el incremento de los logaritmos del salario para el periodo de 1967 hasta 1986. MODELO PARA EL INCREMENTO DEL SALARIO DLC ES ≥MEDIO DPCF ES ≤BAJO DK ES ≥MEDIO DU ES MY ALTO ENTONCES DSAL ES 0,0531867 REGLA 2 : SI DLC ES ≥MEDIO Y DPCF ES ≤BAJO Y DK ES ≥MEDIO Y DU ES ≤ALTO ENTONCES DSAL ES 0,0393312 REGLA 3 : SI DCL ES BAJO Y DK ES ≤BAJO ENTONCES DSAL ES 0,0058479 REGLA 4 : SI DCL ES MY BAJO Y DK ES ≤BAJO ENTONCES DSAL ES 0,000960627 REGLA 5 : SI DCL ES ≥MEDIO Y DK ES ≤BAJO ENTONCES DSAL ES 0,0134329 REGLA 6 : SI DCL ES ≥MEDIO Y DPCF ES MEDIO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0293189 REGLA 7 : SI DLC ES BAJO Y DPCF ES ≤MEDIO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0269954 REGLA 8 : SI DLC ES ≥BAJO Y DPCF ES ≥ALTO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,022897 REGLA 9 : SI DLC ES MUY BAJO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0109986 Modelo lingüístico para el incremento del salario .Figura (3.28) REGLA 1 : SI Y Y Y Una vez construido el modelo lingüístico (figura 3.28), comprobamos que el incremento del logaritmo del salario es modelado exclusivamente mediante las variables DCL, DK, DPCF y DU. En la figura 3.29 mostramos la inferencia de dicho incremento 139 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. para los años 1987 y 1988 mediante una tabla. En la tabla (3.29) reflejamos el conjunto de reglas que componen el modelo, el valor de pertenencia de los datos referentes a los años 1986 y 1987 a cada uno de los antecedentes de cada regla, así como el de cada regla (fila del consecuente) para mostrar en las dos últimas filas el valor inferido y el valor real del incremento del logaritmo del salario. MODELO PARA EL INCREMENTO DEL SALARIO DLC ES ≥MEDIO DPCF ES ≤BAJO DK ES ≥MEDIO DU ES MUY ALTO ENTONCES DSAL ES 0,0531867 REGLA 2 : SI DLC ES ≥MEDIO Y DPCF ES ≤BAJO Y DK ES ≥MEDIO Y DU ES ≤ALTO ENTONCES DSAL ES 0,0393312 REGLA 3 : SI DCL ES BAJO Y DK ES ≤BAJO ENTONCES DSAL ES 0,0058479 REGLA 4 : SI DCL ES MUY BAJO Y DK ES ≤BAJO ENTONCES DSAL ES 0,000960627 REGLA 5 : SI DCL ES ≥MEDIO Y DK ES ≤BAJO ENTONCES DSAL ES 0,0134329 REGLA 6 : SI DCL ES ≥MEDIO Y DPCF ES MEDIO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0293189 REGLA 7 : SI DLC ES BAJO Y DPCF ES ≤MEDIO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0269954 REGLA 8 : SI DLC ES ≥BAJO Y DPCF ES ≥ALTO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,022897 REGLA 9 : SI DLC ES MUY BAJO Y DK ES ≥MEDIO ENTONCES DSAL ES 0,0109986 Agregación de la aportación de cada regla = Suma total de los valores de pertenencia de las reglas = REGLA 1 : SI 1987 1988 0 1 0 0 0 0 1 0 1 0 0 1 0 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0,000960627 1 0 1 0,31766652 0 0,0 0 1 0,31766652 1 0,0 0 0,68233348 0,0 1 0,68233348 0,68233348 0 0,68233348 0,0 0 0 0,31766652 0,0 0 1 0,31766652 0,0 0 0 0,31766652 0,0 1 0,31766652 0,31766652 0,004149355 1 VALOR INFERIDO DEL INCREMENTO DEL SALARIO= 0,000960627 0,004149355 VALOR REAL DE INCREMENTO DEL SALARIO= 0,001172401 0.004444038 Y Y Y Inferencia para los años 1987 y 1988. Figura (3.29) 140 Cap.3 Aplicación de ADRI al modelado de sistemas económicos. Series temporales. Como hemos podido comprobar, ADRI es un mecanismo correcto para la aproximación de series temporales y su forma de actuar engloba a la mayoría de los modelos clásicos para la modelización de series, tan sólo dependiendo del conjunto de variables de entrada que le suministremos para comenzar la construcción del árbol. A grandes rasgos podemos pensar en ADRI como un aproximador universal en sentido expuesto por Castro[10] 141 &RQFOXVLRQHV En esta memoria hemos analizado el empleo de las técnicas clásicas de clasificación como herramienta para el aprendizaje inductivo no supervisado de modelos difusos de sistemas, que pueden actuar como aproximadores generales considerándolos como mecanismos de regresión general en el sentido de J. L Castro[10]. La conjunción de considerar estos modelos como clasificadores y como mecanismo de aproximación de funciones, lo que nos ha permitido establecer un modelo difuso basado en la partición recurrente del dominio de sus entradas, lo que ha originado la definición de ADRI, que generaliza toda la potencia de los árboles de regresión CART para la inducción de modelos difusos. La definición de las regiones que fijamos nos conduce a tener que realizar una partición de conjuntos difusos, cuestión que resolvemos mediante una generalización realizada “ex profeso” del algoritmo de clustering difuso FCM que hemos denominado FCMD . El modelo difuso y su mecanismo de inducción, lo aplicamos dentro del campo de la economía, y más concretamente en el estudio de series temporales de variables económicas. Las ventajas más sobresalientes que obtenemos con la utilización de ADRI para el estudio de estas series, son las siguientes: Es un método general, lo que nos permite centrarnos en la interpretación de los resultados que al estar descritos en forma de conjunto de reglas resulta más intuitivo que complicadas ecuaciones matemáticas, es en este aspecto donde obtenemos la gran ventaja de los modelos difusos donde el tratamiento de la incertidumbre existente en los sistemas queda reflejada en la estructura de las propias reglas. La selección de las variables que ADRI realiza para modelizar el comportamiento de las series es obtenida de los propios valores que conocemos de las variables, esto es, la definición de la estructura del modelo surge de los propios datos, extrayendo del conjunto total de variables que le proporcionamos aquellas que mejor puedan describir el comportamiento global de la serie, sin necesidad de determinarlas a priori. La precisión del método, en términos de aproximación de funciones, llega en términos generales a ser tan buena como los métodos clásicos y en algunas ocasiones los mejora como hemos comprobado con el esquema de corrección de errores para estimar el deflactor del PIB a precios de mercado. Además el propio modelo puede se mejorado pues 142 al estar éste fundamentado en una construcción recurrente podremos emplear en cualquier paso de nuevo el mecanismo de partición para mejorar la partición en curso. También es posible mejorar los resultados que se obtienen mediante los procesos de ajuste de modelos difusos existentes en la literatura ( filtro de Kalman[30], ANFIS[47] o mediante algoritmos genéticos[38]). 7UDEDMRVIXWXURV La inducción de un árbol difuso de regresión e identificación (ADRI), está fundamentada sobre la partición recurrente del espacio de definición de las variables de entrada. Esta partición se realiza mediante sucesivas divisiones de cada uno de los dominios de las variables de entrada mediante el algoritmo FCMD, que está dirigido por el comportamiento de una función distancia fijada. Es interesante comprobar que dos sistemas definidos por el mismo conjunto de valores de entrada, nos van a originar unas divisiones del espacio de entrada iguales, debido a la definición de la función de distancia utilizada en FCMD donde sólo intervienen los valores de una de las variables para realizar la partición. Un campo de interés será el estudio de nuevas funciones de distancia que consideren no sólo los valores de las variables de entrada, sino también los valores de las variables de salida. Es decir una función distancia d:XxS→ℜ+ . Otro de los aspectos que merecen ser trabajados en el futuro es el efecto que originaría en ADRI la utilización de mecanismo de ajuste de reglas difusas en cada uno de los modelos intermedios que se van originando. La inducción de ADRI nos proporciona una sucesión de modelos cada uno de los cuales origina un conjunto de reglas difusas del tipo de consecuente puntual, para los cuales existen técnicas de ajuste de parámetros que mejoran su comportamiento. Este ajuste lo planteamos al final del proceso de inducción de ADRI con lo que tras obtener el modelo aplicaríamos estas técnicas para mejorar el comportamiento del mismo. La utilización de estas técnicas dentro del mismo proceso de inducción del modelo originan un cambio en el mismo, no sólo en sus parámetros sino también en su propia estructura y por ello nos proponemos estudiar los efectos que las diversas técnicas de ajuste, aplicadas a los distintos modelos intermedios, pueden ocasionar en la inducción del modelo final obtenido por ADRI. 143 Otro de los campos que pueden ser investigados es el uso de ADRI como mecanismo de identificación de modelos iniciales para las técnicas de identificación de modelos mediante agrupamiento. Al ser ADRI un mecanismo no supervisado de inducción de modelos difusos, puede ser utilizado en aquellas técnicas de identificación de modelos donde se ha de partir de un primer modelo que posteriormente se ajuste o modifique. Un caso particular de estas técnicas son aquellas que utilizan el agrupamiento o los mecanismos genéticos, donde ADRI les puede proporcionar un primer modelo lo que acelerará los algoritmos. 144 $SpQGLFH$ Razonamiento Aproximado. Conceptos básicos sobre conjuntos difusos Un conjunto difuso se modela mediante una función característica, aquella que puede tomar cualquier valor entre 0 y 1, siendo 0 en el caso de una no pertenencia absoluta y 1 en un pertenencia total. Esto da un grado de pertenencia de un elemento al conjunto difuso, más formalmente podemos definir un conjunto difuso A, establecido sobre un conjunto de objetos X, que llamaremos referencial del conjunto A, y que posee una función de pertenencia µA :X→[0,1] como A = { X , µ A : X → [0,1]} (A.1) Tres conjuntos difusos ALTO, MEDIANO y BAJO definidos sobre un mismo referencial X={A,B,C,D} quedando establecidos totalmente de la forma • ALTO={[A,B,C,D],[µALTO(A)=1, µALTO(B)=0, µALTO(C)=0, µALTO(D)=0.6]} • MEDIANO={[A,B,C,D],[µMEDIANO(A)=0, µMEDIANO(B)=1, µMEDIANO(C)=0, µMEDIANO (D)=0.4]} • BAJO={[A,B,C,D],[µBAJO(A)=0, µBAJO(B)=0, µBAJO(C)=1, µBAJO(D)=0]} Con lo que reflejaríamos el caso del individuo D que es más alto que mediano pero pertenece a las dos categorías. En la literatura sobre conjuntos difusos, es habitual referirse a los mismo exclusivamente mediante su función de pertenencia, notación que utilizaremos a partir de este momento, donde si A es un conjunto difuso A(x) denotará su función característica. Algunas características básicas de los conjuntos difusos son : Definición A.1: Soporte de un conjunto difuso A definido sobre el referencial X que denominaremos Sop(A) es el conjunto de elementos de X que pertenecen en algún grado a A. Apéndice A Razonamiento Aproximado Sop( A) = {x ∈ X / A( x ) > 0} (A.2) El conjunto difuso A definido sobre el referencial X, diremos que es un conjunto difuso normalizado, si existe algún elemento de X que pertenezca totalmente a A ∃x ∈ X A( x ) = 1 (A.3) Definición A.2: Conjunto difuso vacío ∅ definido sobre un referencial X es aquel que verifica que ningún elemento de x pertenece en algún grado al conjunto. ∅( x ) = 0 ∀x ∈ X (A.4) Operaciones de conjuntos con conjuntos difusos. Las relaciones y operaciones más elementales que se pueden definir sobre conjuntos son : la inclusión, la unión, intersección y complementación de conjuntos. Estas operaciones fueron definidas originalmente por Zadeh del siguiente modo: A ⊆ B ⇔ A( x ) ≤ B( x ) ∀x ∈ X (A.5) µ A∪ B ( x ) = max{µ A ( x ), µ B ( x )} (A.6) µ A∩ B ( x ) = min{µ A ( x ), µ B ( x )} (A.7) µ¬ A ( x ) = 1 − µ A ( x ) (A.8) Conectivas Difusas. Esta definición para la unión de conjuntos difusos (A.6) ha sido generalizada mediante el uso de t-conormas. Una función ⊕ :[0,1]x[0,1]→[0,1] se dice que es una tconorma si verifica para todo x,y,z ∈ [0,1] las siguientes propiedades : I. ⊕(x,0)=x II. Si x≤x’ entonces ⊕(x,y)≤⊕(x’,y) III. ⊕(x,y)=⊕(y,x) 146 Apéndice A Razonamiento Aproximado IV.⊕(x,⊕(y,z))=⊕(⊕(x,y),z) Ejemplos de t-conormas son: •Máximo : Max(x,y)=máximo{x,y} •Producto : π*(x,y)=x+y-x*y •Lukasiewicz : W*(x,y)=Min{x+y,1} x Si y = 1 • Z * ( x , y ) = y Si x = 1 1 en otro caso Luego la unión de dos conjuntos difusos A y B definidos sobre un mismo referencial X quedará definida en función de las respectivas funciones características µA(x) y µB(x) como µ A∪ B ( x ) = ⊕( µ A ( x ), µ B ( x )) (A.9) De igual forma que generalizamos la definición de la unión de conjuntos difusos, generalizaremos su intersección (A.7) mediante el uso de una t-norma. Una t-norma ⊗ :[0,1]x[0,1]→[0,1] es una función que verifica las siguientes propiedades para todo x, y, z ∈ [0,1]: I.⊗(x,1)=x II.Si x≤x’ entonces ⊗(x,y)≤⊗(x’,y) III.⊗(x,y)=⊗(y,x) IV.⊗(x,⊗(y,z))=⊗(⊗(x,y),z) Ejemplos de t-normas son : •Mínimo : Min(x,y)=mínimo{x,y} •Producto : π(x,y)=xy 147 Apéndice A Razonamiento Aproximado •Lukasiewicz : W(x,y)=max{x+y-1,0} x Si y = 1 • Z ( x, y ) = y Si x = 1 0 En otro caso Con lo cual la intersección de dos conjuntos difusos A y B, definidos sobre el mismo referencial X, quedaría establecida en función de las respectivas funciones de pertenencia de cada conjunto difuso µA(x) y µB(x) como : µ A∩ B ( x ) = ⊗( µ A ( x ), µ B ( x )) (A.10) Fundamentada en la teoría de los conjuntos difusos, la interpretación de una proposición sobre un término impreciso podría ser considerada, como el grado de pertenencia de un objeto a un conjunto difuso. Sea “x es ALTO” una proposición difusa, envuelve el concepto impreciso ALTO, su interpretación sería el grado de pertenencia de x al conjunto difuso ALTO, o lo que es lo mismo µALTO(x). Establecido el concepto de proposición difusa, podremos establecer las interpretaciones para las conectivas lógicas más habituales, estableciendo una relación entre éstas y las operaciones con conjuntos difusos definidas en 0 según la tabla siguiente Operaciones con conjuntos Conectivas lógicas Unión Disyunción (∨) Intersección Conjunción (∧) complementación Negación (¬) La conectiva de implicación ha sido determinada de muy diversas formas, estableciéndose que para considerar una función I :[0,1]x[0,1]→[0,1] como función de implicación, que establezca el grado de verdad de A→B, es decir I(A,B), ha de verificar para todo x, x’, y, y’ ∈ [0,1] las siguientes propiedades: Si y≤y’ entonces I(x,y) ≤ I(x,y’) I(0,x)=1 (Principio de falsedad). I(1,x)=x (Principio de neutralidad) 148 Apéndice A Razonamiento Aproximado Otros dos nuevas propiedades son usualmente añadidas Si x ≤ x’ entonces I(x,y) ≥ I(x’,y) I(x,I(y,z)) = I(y,I(x,z)) (Principio de intercambio) Se han considerado tradicionalmente tres grandes familias de funciones de implicación que son: las S-Implicaciones, las R-Implicaciones y las T-normas Implicaciones. Un camino tomado para establecer el valor de I es el tomado por la familia de funciones S-implicaciones o implicaciones fuertes, que abordan la definición de I(A,B) en base a la igualdad de la lógica de proposiciones clásica, donde A→B posee la misma interpretación que ¬A ∨ B. Estas implicaciones verifican las propiedades I, II, III y IV teniendo la expresión general I ( A, B) = ⊕( ¬A, B) (A.11) Ejemplos de S-implicaciones son : 1) Mínimo : I(x,y)=max(1-x,y) 2) Producto : I(x,y)=1-x+xy 3) Lukasiewicz : I(x,y)=min(1-x+y, 1) El segundo grupo de funciones de implicación son las R-Implicaciones, que reflejan el formalismo de la lógica intuitiva, relajando las S-Implicaciones y verificando las propiedades I, II, III, IV y V , teniendo una expresión general I ( x , y ) = sup{c ∈[0,1] / ⊗( x , y ) ≤ y} Ejemplos de R-Implicaciones son: 1) Lukasiewicz: I(x,y)=min(1-x+y,1) x≤y 1 2) Gödel-Brower I ( x , y ) = x otro caso 149 (A.12) Apéndice A Razonamiento Aproximado 1 3) Menger-Goguen I ( x , y ) = x y x≤y otro caso La última clase de funciones de implicación son las T-normas implicaciones que verifican las propiedades I, II y III; mientras que las propiedades IV y V no son verificadas. Este tipo de implicación es ampliamente utilizada en muchas de las aplicaciones del razonamiento aproximado sobre todo en el control difusos. Ejemplos de T-normas implicaciones son: 1)Implicación de Mandani: I(x,y)=min(x,y). 2)Implicación del Producto: I(x,y)=x*y 150 $SpQGLFH% x1 2.53 4.54 4.45 1.13 2.14 2.49 2.70 4.96 3.82 2.20 1.30 2.95 1.16 1.40 4.24 4.02 3.21 4.88 4.22 1.46 4.95 3.00 1.15 3.34 1.80 2.20 4.62 3.07 4.16 3.48 4.40 1.87 3.83 4.91 4.99 3.30 4.59 4.13 4.06 3.71 4.65 4.87 2.98 2.81 3.16 3.41 1.33 2.08 2.74 3.09 x2 1.40 4.83 1.55 1.66 2.37 2.42 2.22 2.03 4.27 4.00 1.79 3.04 1.92 2.03 3.90 3.51 3.85 3.75 2.05 1.24 4.70 3.70 4.19 1.61 1.82 4.21 1.16 2.03 3.70 3.89 3.23 4.44 2.50 2.14 4.58 3.82 2.55 3.66 3.80 4.72 4.82 2.93 4.40 1.67 3.47 4.72 3.30 3.80 2.32 4.59 x3 3.39 1.06 1.98 1.88 3.21 4.64 4.90 4.81 4.89 2.41 1.26 2.49 1.02 4.10 1.34 1.69 3.22 3.12 1.71 4.05 4.62 2.96 3.69 4.57 2.34 3.78 3.84 2.17 4.02 4.87 4.49 2.12 2.32 3.14 4.24 2.61 1.38 3.63 4.44 1.17 3.38 2.02 3.67 1.25 2.97 3.14 4.32 2.66 1.84 3.41 Tablas de datos x4 4.60 2.63 1.18 1.07 2.43 2.86 4.23 1.21 2.87 4.10 2.43 4.94 4.70 3.72 1.53 2.62 1.72 4.19 4.47 3.95 3.18 1.58 3.93 2.51 2.30 2.09 2.81 4.21 4.79 2.47 2.76 3.81 1.34 2.63 4.63 1.44 4.11 2.03 1.01 3.07 3.23 4.27 4.71 1.02 3.32 1.53 1.26 2.46 3.96 3.09 y 3.09 1.31 2.45 5.08 2.23 2.04 2.07 1.93 1.40 1.77 4.04 1.70 4.47 3.44 1.41 1.47 1.51 1.39 1.95 4.82 1.30 1.57 3.50 2.50 2.94 1.75 3.43 2.11 1.44 1.47 1.50 1.94 1.74 1.85 1.30 1.50 1.67 1.44 1.43 1.37 1.30 1.54 1.49 2.53 1.57 1.40 3.00 1.86 2.01 1.46 x1 3.36 3.37 3.92 4.86 4.53 3.32 3.71 1.69 2.00 3.90 2.04 1.17 1.12 2.89 4.29 3.92 1.93 4.41 3.80 2.15 1.67 1.38 4.34 2.14 1.27 2.06 2.63 2.73 3.88 4.51 2.84 1.85 1.30 3.13 3.07 2.98 4.57 3.13 1.89 1.69 2.40 3.03 4.80 4.08 3.70 1.18 2.73 1.38 4.08 2.27 x2 3.34 3.24 3.35 1.38 1.76 3.66 3.19 1.74 2.73 4.80 1.67 4.59 1.82 2.91 2.24 1.65 2.53 3.29 4.55 1.93 4.76 4.78 4.90 4.21 1.33 4.24 4.74 1.58 2.47 1.10 3.21 1.91 4.34 1.81 1.61 4.37 1.48 4.37 3.87 3.90 3.39 2.80 1.14 3.74 2.95 3.68 4.18 3.93 4.96 2.62 Función no lineal Tabla 1 x3 2.99 4.10 3.18 1.43 1.06 1.65 2.18 4.41 3.18 3.28 4.54 2.68 3.73 3.34 4.96 4.23 1.36 1.06 1.68 1.17 1.49 3.05 2.90 4.23 2.77 1.80 1.38 1.30 3.64 2.21 4.83 3.89 4.78 4.03 2.53 1.62 3.62 4.40 3.72 4.79 4.86 4.36 4.16 2.78 2.97 3.31 4.63 2.66 4.65 1.54 x4 1.44 1.92 4.23 3.85 1.74 1.78 3.16 4.79 4.87 4.76 4.28 1.51 4.28 2.45 4.09 4.70 4.65 3.77 4.54 4.66 2.37 3.52 1.61 3.78 2.06 2.82 1.70 1.06 1.08 1.66 2.22 4.60 2.01 3.38 4.06 4.10 1.15 3.17 4.07 3.37 1.03 4.57 3.57 4.81 2.92 3.97 4.89 1.92 3.29 3.12 y 1.57 1.59 1.51 2.75 2.18 1.52 1.56 3.18 2.16 1.35 2.91 3.37 4.86 1.74 1.83 2.36 2.30 1.49 1.37 2.53 2.12 2.62 1.31 1.78 5.16 1.82 1.54 2.68 1.75 3.66 1.68 2.79 2.89 2.28 2.55 1.49 2.56 1.47 1.99 2.20 1.78 1.75 3.49 1.44 1.61 3.44 1.56 2.73 1.32 2.04 AÑO 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 Y WE IT r u C 5328,8994 14177,3372 260,812 1,019 1,0129 4865,8661 5921,8253 15726,4612 461,6006 0,2101 1,0124 5186,9441 6420,1708 17330,0973 362,6362 1,0133 1,0059 5545,8213 6621,6509 18918,584 307,4154 1,0319 1,0074 5878,1655 6984,16 20935,4673 289,8026 1,0429 1,0074 6249,1454 7461,4124 23435,3302 215,0563 1,066 1,0068 6674,8366 7854,9564 25591,1022 465,7737 1,0048 1,0079 6980,6687 8312,3696 27694,8014 639,5086 1,0358 1,0125 7333,4401 9003,7821 30485,3037 716,0142 1,0295 1,0188 7941,0437 9777,1176 33523,4341 1194,162 0,9932 1,0203 8557,8135 10255,8136 36026,1377 1946,1338 0,9511 1,0237 8991,1856 10406,6468 37911,1294 1733,6772 0,9791 1,0361 9152,6616 10742,8962 39695,7735 1874,6926 0,9608 1,0471 9660,4934 10854,1199 40700,6768 9805,5124 11157,866 2621,757 0,8891 1,0543 41814,5649 2079,5359 0,9492 1,0732 1,091 9898,1188 11106,6577 43174,2702 1851,7752 0,984 10023,6241 10974,1743 44533,6339 1912,3727 0,986 1,1224 10080,9219 10932,5516 45798,1969 1732,4641 1,01 1,1544 10019,6155 11017,0571 46957,5838 1824,9356 1,0145 1,1763 10038,6709 10976,3693 48050,1242 1612,9176 1,0473 1,1941 10072,8604 10885,6425 48678,8537 1481,781 1,057 1,2288 10033,6528 11190,2708 49711,9189 1172,0387 1,0528 1,2453 10273,2633 11548,3748 50513,7068 1272,5779 1,0264 1,2397 10644,5148 12084,7548 52417,721 837,1473 1,0765 1,2277 11225,0145 12695,4635 54720,8453 838,0686 1,0688 1,2152 11752,2501 Consumo Tabla 2 AÑO CL PCF T3 K1 K LD U SAL 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 -1,01853477 -0,95988048 -0,92587137 -0,87707017 -0,83769553 -0,80061237 -0,71665806 -0,63926651 -0,55505318 -0,46742014 -0,37525909 -0,26650902 -0,16992997 -0,09492819 -0,02618429 0,03572464 0,09137323 0,1474735 0,18877245 0,22792268 0,26751785 0,29438399 0,32088417 -0,71554219 -0,68530504 -0,66032799 -0,64397032 -0,61785143 -0,58464097 -0,5509955 -0,50437519 -0,4348112 -0,36639421 -0,30002447 -0,20836759 -0,12513682 -0,05771111 0 0,04845812 0,10477859 0,1515727 0,19519314 0,23081587 0,27068093 0,29565483 0,31897481 -0,93859901 -0,94278205 -0,9723115 -0,91684536 -0,92366064 -0,95897706 -0,94473647 -0,91569638 -0,99740674 -1,05105981 -1,06161942 -1,06298369 -1,15215523 -1,12388192 -1,13085979 -1,06482906 -1,06890688 -1,00780768 -0,97502652 -0,91960496 -0,79809498 -0,80434027 -0,82923281 4,09962464 4,14689506 4,18952666 4,23138609 4,27448876 4,31253462 4,34363759 4,37818269 4,41515052 4,4504775 4,47848835 4,50269091 4,52369387 4,54126059 4,5552117 4,56810686 4,5785531 4,58833401 4,59647178 4,60201817 4,60860393 4,61809391 4,63196647 4,14689506 4,18952666 4,23138609 4,27448876 4,31253462 4,34363759 4,37818269 4,41515052 4,4504775 4,47848835 4,50269091 4,52369387 4,54126059 4,5552117 4,56810686 4,5785531 4,58833401 4,59647178 4,60201817 4,60860393 4,61809391 4,63196647 4,64988454 4,08362444 4,08629575 4,08836647 4,09108986 4,09098773 4,09436979 4,10210426 4,10976073 4,11533421 4,10798964 4,09993603 4,09974278 4,09248905 4,08542973 4,07230505 4,05963157 4,05531334 4,05228215 4,03960842 4,03562583 4,04576097 4,05888892 4,07116741 -2,22709181 -2,1315319 -2,12971317 -2,1697964 -2,10380459 -1,90643824 -1,7300903 -1,69613465 -1,63037602 -1,44951482 -1,3370062 -1,27633913 -1,15094316 -1,05949846 -0,93759854 -0,84281229 -0,78938189 -0,75101701 -0,68603581 -0,65880891 -0,66787879 -0,68801105 -0,71014805 -0,24570883 -0,2151101 -0,20639439 -0,17353947 -0,15858997 -0,15368055 -0,10049381 -0,06656628 -0,05057351 -0,02129312 0,00663453 0,02908328 0,04414874 0,05441929 0,0677257 0,08369785 0,08393768 0,09491223 0,09016191 0,09698108 0,0968523 0,0980247 0,10246874 Salarios Tabla 3 152 AÑO (1-L)2log(1+Temtpt) (1-L)2log(1+Temsut) (1-L)2log(1+Temtmt) (1-L)2log(pfct) (1-L)log(1+Temtpt-1) (1-L)log(1+Temsut-1) (1-L)log(1+Temtmt-1) (1-L)log(pt-1) (1-L)log(pcft-1) (1-L)2log(pt) 1966 -0,000594325 0,02532449 -0,00293128 -0,02223289 0,000291154 -0,009183794 0,00075638 0,090116978 0,092733979 -0,01258802 1967 0,006638729 -0,020902401 0,00382553 -0,000877142 -0,000303172 0,016140699 -0,0021749 0,077528954 0,070501089 -0,003593922 1968 -0,008624621 -0,0307022 -0,0011461 -0,0121119 0,006335557 -0,004761696 0,00165063 0,073935032 0,069623947 -0,025422091 1969 0,01003545 0,037232399 -0,00246087 -0,019847039 -0,002289064 -0,035463899 0,00050453 0,048512939 0,057512049 -0,005557898 1970 -0,006406077 -0,005239711 0,00448306 0,02247596 0,007746384 0,0017685 -0,00195634 0,042955041 0,037665009 1971 -0,003427334 -0,002810984 -1,81789E-05 0,016327981 0,001340307 -0,003471211 0,00252672 0,066017993 0,060140971 0,01021599 1972 0,000573643 0,0157273 -0,002668952 0,001003139 -0,002087027 -0,006282195 0,002508541 0,076233983 0,076468952 0,006476998 1973 0,003579773 -0,006795198 -0,001273628 0,029874809 -0,001513384 0,009445101 -0,000160411 0,082710981 0,077472091 0,03027102 1974 -0,01729417 -0,0474157 0,001536538 0,052830201 0,002066389 0,002649903 -0,001434039 0,112981997 0,037809901 0,1073469 0,02306295 1975 0,01231855 0,041581299 0,00293519 -0,002641097 -0,01522778 -0,0447658 0,000102499 0,150791898 0,160177097 0,004099697 1976 0,003797471 -0,001985192 -0,000855898 -0,004713893 -0,002909228 -0,003184505 0,003037689 0,154891595 -0,002014488 1977 -0,001716942 0,0267152 -0,00029142 0,058225591 0,000888243 -0,005169697 0,002181791 0,152877107 0,152822107 1978 0,000658408 -0,0329188 0,006149199 -0,019401791 -0,000828698 0,0215455 0,001890371 0,208410904 0,211047694 -0,021038311 1979 0,001924842 0,005075101 -0,0115714 -0,036392409 -0,00017029 -0,0113733 0,00803957 0,187372595 0,191645905 -0,029389801 1980 0,000620857 -0,006756501 0,009086512 -0,0223688 0,001754552 -0,006298199 -0,00353183 0,157982796 1981 0,007656681 0,000439229 -0,007691114 -0,021305799 0,002375409 -0,0130547 0,005554682 0,132582098 0,132884696 -0,0194213 1982 -0,005157169 0,020770909 0,01043442 0,01810381 0,01003209 -0,01261547 -0,002136432 0,113160796 0,111578897 0,0160385 1983 0,007069548 -0,00959637 -0,006554931 -0,0219352 0,004874922 0,008155443 0,008297991 0,129199296 0,129682705 -0,019300301 1984 0,00152243 -0,003860325 0,002527661 -0,007307805 0,01194447 -0,001440927 0,00174306 0,109898999 0,107747503 -0,006067097 1985 -0,004854304 0,01166209 -0,006620094 -0,018415259 0,0134669 -0,005301252 0,004270721 0,103831902 0,100439698 -0,021807499 1986 0,028521789 -0,02386272 -0,004290637 0,00976827 0,008612596 0,006360836 -0,002349373 0,082024403 0,082024433 1987 -0,04457809 0,020520329 0,00464876 -0,03428822 0,03713439 -0,017501879 -0,00664001 0,103627399 0,091792703 -0,046123099 1988 0,007033303 -0,001911476 0,0105755 -0,00380826 -0,007443696 0,003018446 -0,00199125 Deflactor del PIB a precio de mercado Tabla 4 0,0575043 0,157536 0,1552535 0,057504479 0,0555338 -0,0254007 0,021602999 -0,0038082 %LEOLRJUDItD [1] Andrés J., MolinaC. s y Taguas D., Una función de consumo privado para la economía española, La economía española. Una perspectiva macroecómica, Instituto de estudios fiscales, Antoni Bosch. 50-100, 1991, [2] Angel Alcaide y Nelson Alvarez, Econometría, ISBN 84-300-4244 X.1982. [3] Araki S., Nomura H., Hayashi I. and Wakami N., "A self-generating method of fuzzy inference rules", Fuzzy Engineering toward Human Friendly Systems, IFES'91 , 10471059, 1991. [4] Aurrand-Lions J. P., Fournier L., Jarri P., M. de Saint Blancard and Sanchez E., "Application of fuzzy control for ISIS vehicle braking", Fuzzy and Neuronal Systems, and Vehicle applications'91, 1991. [5] Bárdossy A. and Duckstein L., "The use of fuzzy rules for the description of natural systems.", Proceeding EUIF'93, 1380-1385, 1993. [6] Bartolini G., Casalino G., Davoli F., Mastretta M., Minciardi R., Morten E., "Development of performance adaptive fuzzy controllers with application to continuos casting plants", Cybernetics and System research, 721-728, 1982. [7] Bezdeck J. C., "Pattern recognition with fuzzy objective function algorithms", Plenum Press, New York, 1981. [8] Bezdek J. C. and Castelaz P. F., "Prototype classification and feature selection with fuzzy sets", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-7, no 2, 87-92, 1977. [9] Breiman L., Friedman, J. Olshen, R. and Stone, C., "Classification and regression tree", Monterey, Ca.:Wadsworth, 1984. [10] Castro J. L., "Fuzzy Logic Controllers Are Universal Approximators", IEEE Transactions on Systems, Man and Cybernetics, vol. 25-4, 629-635. 1995 . [11] Celal Batur and Vicken Kasparian, "Predictive fuzzy expert controllers", Computer ind. Engng, vol 20, no 2, 199-209, 1991. Bibliografía [12] Cesar Molinas, Fernado-Carlos Ballabriga, Eudald Canadell, Alvaro Escribano, Elías López, Luis Manzanedo, Ricardo Mestre, Miguel Sebastián y David Taguas, MOISEES. Un modelo de investigación y simulación de la economía española, Instituto de estudios fiscales. Antonio Bosch.1991. [13] Clark and Niblett, "The CN2 Induction Algorithm", Machine Learning, 3, 261-283, 1989. [14] Clive W. J. Granger and Timo Teräsvirta, Modelling nolinear economic relationships, Oxford University Press.1993. [15] Chang R.L and Paulidis T., "Fuzzy decision tree algorithms", IEEE on Syst Man, Cyber 28-34, 1977. [16] Chang R.L and Paulidis T., "Fuzzy decision tree", IEEE Conf. on Syst Man, Cyber, Washingston DC, 564-567, 1976. [17] De Campos L. M. and González A., "A fuzzy inference model based on an uncertainty forward propagation approach", DECSAI technical report 91-1-6. Universidad de Granada, 1991. [18] De Campos L. M. and Moral S., "Learning rules for a fuzzy inference model", Fuzzy Sets and Systems, 59, 247-257, 1993. [19] De Campos L. M. and Moral S., "Propagating uncertain information forward", International Journal of Intelligent Systems 7, 15-24, 1992. [20] Delgado M. and González A., "A Frequency model in a fuzzy environment", International Journal of Approximate Reasoning, 11, 159-174, 1994. [21] Delgado M., "Razonamiento aproximado", Algunos aspectos del tratamiento de la información en inteligencia artificial, Universidad de Granada, Dep. de Ciencias de la Computación e Inteligencia Artificial, pp.113-133, 1991. [22] Delgado M., Gómez Skarmeta A. F. and Jiménez L., "Regression by fuzzy knowledge bases", Proc. EUFIT'96 , 2, 1170-1176, 1996 . [23] Delgado M., Gómez Skarmeta A. F. y Jiménez L., "Árboles difusos de clasificación y regresión", Proc. VI Congreso español sobre tecnología y lógica fuzzy, 101-106, 1996 . 155 Bibliografía [24] Devi B. B. and Sarma V. V. S., "A fuzzy approximation schema for sequential learning in patter recognition.", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-16, no 5, 668-679, 1986. [25] Di Nola A. and Sessa S., "Modus Ponen for fuzzy data realized via equations with equality operators", International Journal of Intelligent Systems, vol. 5.1-14, 1990 [26] Di Nola A., Sessa S. and Pedrycz W., "A study on approximate reasoning mechanisms via fuzzy relation equations", International Journal of Approximate Reasoning, 6.33-44, 1992 [27] Diminitrescu D., "Hierarchical Patter Classification", Fuzzy Set and Systems 28, 145162, 1988. [28] Dubois D. and Prade H., "Possibility theory an approach to computerised processing of uncertan", Plenum Press, 1988. [29] Dunn J. C, , "A graph theoretic analysis of pattern classification via Tamura's fuzzy relation", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-4, no 3, 310313, 1974. [30] Eduard J. Bomhoff, Financial forecasting for business and economics, The Dryden Press.1994. [31] Fuller R. and Werners B., "The compositional rule on inference: introduction, theoretical considerations, and exact calculation formulas", Working Paper 91/07, 1991. [32] Gaines B. R., "Stochastic and fuzzy logic", Electr. Letter, vol 11, 188-189, 1975. [33] Gómez Skarmeta A. F., "Modelado difuso de sistemas mediante aprendizaje por clasificación con técnicas de agrupamiento (clustering)", Tesis Doctoral. Departamento de Informática y Sistemas. Universidad de Murcia.1995. [34] González A. and Vila M., "An interval-based approach for working with fuzzy numbers", Lecture notes in computer Sciencies 521, B. Buchon, R. R. Yager and L. A. Zadeh (Eds). Uncertainty in knowledge, 193-202, 1991. [35] Gupta M. M. and Knopf G. K., "Dynamic neuronal network for fuzzy inference", Conference Paper in Journal, v. 2061, 488-501, 1993. 156 Bibliografía [36] Harris C. J., Moore C. G. and Brown M., "Intelligent Control. Aspects of fuzzy logic and neural nets.", World Scientific Publishing.1993 [37] Heckenthaler T. and Engell S., "Approximately time-optimal fuzzy control of a two-tanks System", IEEE Controls Systems, vol 14, no 3, 24-30, 1994. [38] Herrera F., Lozano M. and Verdegay J. L., "Generating Fuzzy Rules From Examples Using Genetic Algorithms", Techical Report #DECSAI-93115.1993. [39] Herrera F., Lozano M., and Verdegay J. L., "Tuning Fuzzy Logic Controllers by Genetic Algorithms", International Journal of Approximate Reasoning, 11, 2-158. 1994. [40] Holland J. H., Holyoak K. J., Nisbett R. E. and Thagard P. R., "INDUCTION. Processes of inference, Learning, and Discovery", The MIT Press.1986. [41] Ishibuchi H., Nozaki K. and Tanaka H., "Efficient fuzzy partition of space for classification problems", Proc. of IIZUKA’92, 671-674, 1992. [42] James D. Hamilton, Times series analysis, Princeton University Press.1994. [43] James J. Buckley and Yoichi Hayashi, "Fuzzy input-output controllers are universal approximators", Fuzzy Sets and Systems, 58, 273-278, 1993. [44] Javier Iraburu, Macroeconomía. Introducción a la economía descriptiva., Ediciones Universidad de Navarra, S. A. Pamplona..1975. [45] Josep Aguilar- Martín, "Grado de recubrimiento de particiones borrosas", Tercer Congreso Español sobre Tecnología y Lógica Fuzzy, Santiago de Compostela, 137-144, 1993. [46] Jung S. W., Bae S. W., Park G. T., "A design schema for hierarchical fuzzy pattern matching classifier and its application to the tire tread pattern recognition", Fuzzy Sets and Sytems, 65, 311-322, 1994. [47] Jyh-Shing Roger Jang, "ANFIS: Adaptive-Network-Based Fuzzy Inference System", Transactions on systems , Man, and Cybernetics. vol 23 no 3, 665-685, 1993. [48] Jyh-Shing Roger Jang, "Structure determination in fuzzy Modelling: A Fuzzy CART Approach", Information Science, 89, 275-296, 1996. 157 Bibliografía [49] Keller J. M., M. R. Gray and James A. Givens, JR., "A Fuzzy K-Nearest Neighbour Algorithm", IEEE Transaction on Sytems, Man and Cybernetics, vol SMC-15, no 4, 580585, 1985. [50] Khedkar P. S. and Heshav S., "Fuzzy prediction of time series", POR DETERMINAR. [51] Kickert W.J.M., Mamdani E.H, "Analysis of a fuzzy logic controller", Fuzzy Set and System, vol 1, pp. 29-44, 1978. [52] Klawonn F., Gebhardt J., Kruse R., "Equality relations as basis for fuzzy control", Fuzzy Sets and Systems, 54, 147-156, 1993. [53] Klee G. I. and Folger T. A., "Fuzzy sets, uncertainty and information", Prentice Hall, 1988. [54] Kóczy L. T. and Hirota K., "Approximate reasoning by linear rule interpolation and general approximation", International Journal of Approximate Reasoning, 9, 197-225, 1993. [55] Kóczy L. T. and Hirota K., "Ordering, distance and closeness of fuzzy sets", Fuzzy Sets and Systems, 59, 281-293, 1993. [56] Kwok D. P., Wang P. and Li C. K., "A combined fuzzy and classical PID controller", Microprocessing and Microprogramming, 32, 701-708, 1991. [57] Landajo M., "Some Alternative approach to fuzzy linear regression", ITHURS'96. [58] Larkin L. I., "A fuzzy logic controller for aircraft flight control", Industrial Applications of Fuzzy Control, 87-138, 1985. [59] Lebowitz, M., "Categorising numerical information for generalisation", Cognitive Science, 9, 285-386, 1985. [60] Lee C. C., "A self-learning rule-based controller employing approximate reasoning and neural net concepts", International Journal of Intelligent Systems, vol 6, 71-93, 1991. [61] Lee C. C., "Fuzzy logic in control system: Fuzzy logic controller - Part I", IEEE Transactions on Systems, Man, and Cybernetics, vol 20, no 2, 404-418, 1990. 158 Bibliografía [62] Lee C. C., "Fuzzy logic in control systems: Fuzzy logic controller -Part II", IEEE Transactions on Systems, Man, and Cybernetics, vol 20, no 2, 419-435, 1990. [63] Lipsey R. G. , “Introducción a la economía descriptiva”, Vicens-Vives , 1985. [64] Magrez P. and Smets P., "Fuzzy modus ponens: a new model suitable for applications in knowledge-base systems", International Journal of Intelligent Systems, 4, 181-200, 1989. [65] Mamdani E. H, , and Assilian S.., "An experiment in linguistic synthesis with a fuzzy logic controller.", Int. J. Man-Machine Studies, 7, 1-13, 1975. [66] Mamdani E. H, and Sembi B. S., "Process control using fuzzy logic", Industrial Applications of fuzzy control, 249-265, 1985. [67] Mamdani E.H, Assilian S., "An experiment in linguistic synthesis with a fuzzy logic controller", Int. J. Man-Mach, Studies, 7, pp. 1-13, 1975. [68] Mamdani E.H., "Applications of fuzzy algorithms for control of simple dynamic plant", Proc. IEEE, 121, pp. 1585-1588, 1974. [69] Marinos P. N., "Fuzzy logic an its application to switching systems", IEEE Transactions on Computers, vol c-18, no 14, 343-348, 1969. [70] Martin Larsen P., "Industrial applications of fuzzy logic control", Int. J. Man-Machine Studies, 12, 3-10, 1980. [71] Mizumoto M., "Improvement Methods of Fuzzy Controls", Proc. of 3rd IFSA Congress, Seattle.1989, 60-62 [72] Mizumoto M., "Method of Fuzzy Inference suitable for Fuzzy Control", J. Soc. Instrument and Control Engrs, 58.1989, 959-963 [73] Murakami S. and Maeda M., "Automobile speed control system using a fuzzy logic controller", Industrial Applications of Fuzzy Control, 105-123, 1985. [74] NomurH. a, Hayashi I. and Wakami N., "A learning method of fuzzy inference rules by descent method", Proceeding of the IEEE Int. Conf. on Fuzzy Systems, 203-210, 1992. 159 Bibliografía [75] Pal S. K. and Chakraborty B., "Fuzzy set theoretic measure for automatic feature evaluation", IEEE Transaction on Systems, Man and Cybernetic, vol SMC-16, no 5, 754760, 1986. [76] Pappis C. P. and Mandani E. H., "A fuzzy logic controller for a traffic junction", IEEE Transactions on Systems, Man, and Cybernetics, vol smc-7, no 10, 707-717, 1977. [77] Pedrycz W., "An identification algorithm in fuzzy relational system", Fuzzy Sets and Systems,13,153-167, 1984 [78] Pedrycz W., "Fuzzy relational equation", Fuzzy Sets and Systems, 59.189-195, 1993 [79] Pedrycz W., "Numerical and applicational aspects of fuzzy relational system", Fuzzy Sets and System, 1-15, 1983 [80] Quinlan J. R. , "Simplifying decision tree", International Journal of Man-Machine Studies, 27, 221-234, 1987. [81] Quinlan J. R., "Induction of decision tree", Machine Learning, 1, 81-106. [82] Safavian S. R. and Landgrebe D., "A survey of decision tree classifier methodology", IEEE Transactions on system, man and cybernetics, vol 21, no 3, 660-673, 1991. [83] Sestito S. and Dillon T., "Using single-layered neural networks for the extraction of cojuntive rules and hierarchical classifications", Journal of Applied Intelligence, 1, 157173, 1991. [84] Sudkamp T., "Similarity, interpolation, and fuzzy rule construction", Fuzzy Sets and Systems, 58, 73-86, 1993. [85] Sugeno M. and Kang G.T., "Structure Identification of Fuzzy Model", Fuzzy Sets and Systems, 28, 15-33, 1988. [86] Sugeno M. and Murakami K., "An experimental study on fuzzy parking control using a model car", Industrial Applications of Fuzzy Control, 125-137, 1985. [87] Sugeno M. and Tanaka K., "Successive identification of a fuzzy model and its application to prediction of a complex system", Fuzzy Sets and Systems, 42, 315-334, 1991. 160 Bibliografía [88] Sugeno M. and Tanaka K., "Successive identification of a fuzzy model and its applications to prediction of complex system", Fuzzy Sets and Systems, 42, 315-334, 1991. [89] Sugeno M. and Yasukawa T., "A fuzzy-logic-based approach to qualitative modelling", IEEE Transactions on Fuzzy Systems, vol 1, no1, 7-31, 1993. [90] Sun C. T., "Rule-base structure identification in an adaptive-network-based fuzzy inference system", IEEE Transaction on Fuzzy Systems, vol 2, no 1, 64-73, 1994. [91] Takagi T. and Sugeno M., "Fuzzy identification of systems and its applications to modelling control", IEEE Transactions on Systems, Man , and Cybernetics, vol smc-15, no 1, 116-132, 1985. [92] Tamura S., Higuchi S. and Tanaka K., "Pattern classification based on fuzzy relations", IEEE Transaction on Systems, Man and Cybernetics, vol SMC-1, no 1, 61-66, 1971. [93] Thomas Frederick Dernburg y Judith Ducler Dernburg, Análisis macroeconómico, Ediciones Universidad de Navarra S. A..1976. [94] Turksen J. B. and Zhong Z., "An approximate analogical reasoning schema based on similarity measures and interval-valued fuzzy sets", Fuzzy Sets and Systems, 34, 323346, 1990. [95] Uchino E., Yamakawa T., Miki T. and Nakamura S., "Fuzzy rule-based simple interpolation algorithm for discrete signal", Fuzzy Sets and Systems, 59, 259-270, 1993. [96] Umano M., Okamoto H., Hatono I., Tamura H., Kawachi F., Umedzu S., Kinoshita J., "Fuzzy decision tree by fuzzy ID3 algorithm an its application to diagnosis systems", Proc. of FUZZ-IEEE’94, 3, 2113-2118, 1994. [97] Watada J. and Yubuuchi Y., "Fuzzy robust regression analysis", Proceedings FUZZ/IEEE'94, 1370-1376, 1994. [98] Watanabe M., Kuwata K. and Katyama R., "Adaptive tree-structured sef-generating radial basic function network and its performance evaluation", International Journal of Approximate Reasoning, 13, 303-326, 1995. 161 Bibliografía [99] Weiss S. M. and Indurkhay N., "Rule-based regression", Proc. of IJCAI’93, 2, 10721078, 1993. [100] Weiss S. M. and Indurkhya N., "Reduced Complexity Rule Induction", Proceedings of IJCAI-91, Sydney, 678-684, 1991. [101] Windham M. P., "Geometrical fuzzy clustering algorithms", Fuzzy Sets and Systems, 10, 271-279, 1983. [102] Yager R. R, "On a hierarchical structure for fuzzy modelling and control", IEEE Transaction on Systems, Man and Cybernetics, vol. 23, no 4, 1189-1197, 1993. [103] Yager R. R., "The representation of fuzzy relational production rules", Journal of Applied Intelligence, 1, 35-42, 1991. [104] Yuan Y., Shaw M. J., "Induction of fuzzy decision trees", Fuzzy Sets and Systems 69, 125-139, 1995. [105] Zadeh L. A., "Fuzzy Set", Information and Control, vol. 8, pp.338-353, 1965. [106] Zadeh L. A., "Fuzzy sets as basis for a theory of possibility", Fuzzy Sets and Systems, 1, 2-38, 1978. [107] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate reasoning. Part I", Information Sciences, vol 8, pp. 199-249, 1975. [108] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate reasoning. Part II", Information Sciences, vol 8, pp. 301-357, 1975. [109] Zadeh L. A., "The concept of a linguistic variable and its applications to Approximate reasoning. Part III", Information Sciences, vol 9, pp. 43-80, 1975. [110] Zadeh L. A., "The role of fuzzy logic in the management of uncertainty in expert systems", Selected paper by L. A. Zadeh, 413-441, 1975. [111] Zadeh L. A., “Outline of a New Approach to the Analysis of Complex System”, IEEE Trans. on System Man and Cybernetics, SMC-1, pp. 28-44, 1973. 162