APLICACIÓN DE REDES NEURONALES PARA LA PREDICCIÓN DE GENUINIDAD DE VINOS MONOVARIETALES BLANCOS COMERCIALES POR MEDIO DEL PERFIL AROMÁTICO Raquel Romano, Viviana Trebes , Maria Barbeito Normas Analíticas Especiales Subgerencia de Investigación par a la Fiscalización Instituto Nacional de Vitivinicultura San Martín 430. Ciudad Mendoza (CP 5500). Argentina nae@inv.gov.ar Resumen: Para demostrar de manera objetiva la autenticidad de los vinos blancos monovarietales comerciales de Argentina, se ha desarrollado un sistema analítico y estadístico, mediante la elaboración de un banco de datos de vinos microvinificados de origen indudable y el análisis de sus componentes volátiles, que permite predecir la pertenencia varietal. En el presente trabajo se han podido diferenciar 4 variedades de vinos blancos identificando 71 componentes odoríferos por extracción, concentración y cuantificación por Cromatografía Gaseosa. Posteriormente mediante el uso del clasificador bayesiano de redes neuronales se ha creado un modelo estadístico de predicción que ha sido aplicado a vinos comerciales para su clasificación varietal obteniendo resultados satisfactorios. Palabras clave: aromas, vinos blancos, clasificación varietal, terroir, cromatografía gaseosa, redes neuronales APPLICATION OF NEURAL NETWORKS FOR PREDICTION MONOVARIETAL GENUINE WHITE WINE BUSINESS BY AROMATIC PROFILE Raquel Romano, Viviana Trebes, María Barbeito Special Analytical Standards Deputy Manager for the Survey Research National Wine Institute San Martín 430. Ciudad Mendoza (CP 5500). Argentina nae@inv.gov.ar Abstract: To objectively demonstrate the authenticity of commercial single variety of white wines from Argentina, has developed an analytical and statistical system, by developing a database of wine micro-vinification of undoubted origin and analysis of their volatile components, which membership predicts varietal. In the present work have been distinguished 4 varieties of white wines by identifying 71 odorant components extraction, concentration and quantification by gas chromatography. Then using the Bayesian classifier neural network has created a statistical model of prediction that has been applied to commercial wine varietal classification with satisfactory results. Keywords: aroma, white wines, varietal classification, terroir, gas chromatography, neural networks INTRODUCCIÓN Y ANTECEDENTES A medida que avanzan los conocimientos y la competencia en el mercado internacional de vinos, aumentan las exigencias en cuanto a la certificación de la calidad de los mismos. En la actualidad, a nivel internacional no sólo se exige que el vino sea elaborado exclusivamente a partir del jugo de uva fermentado, sino que se incluye dentro de esta exigencia los conceptos de “certificación varietal y del origen geográfico”. Al igual que en otros muchos alimentos, el aroma de un vino está determinado por varios cientos de compuestos volátiles de diversa naturaleza química. Entre ellos se han caracterizado alcoholes, ésteres, aldehídos, cetonas e hidrocarburos, todos ellos a concentraciones muy bajas y con umbrales de detección que varían entre 10-4 y 10-12 g.L-1 (1,2,3,) . Cabe destacar que en la Argentina se considera como monovarietal a aquellos vinos que contienen un 85% o más de la variedad correspondientemente declarada, de acuerdo a la Legislación Argentina [4]. El objetivo de este trabajo es demostrar que es posible predecir la variedad de vinos blancos comerciales de diferentes calidades, mediante el análisis cromatográfico de compuestos aromáticos (5) y el empleo de un modelo estadístico de predicción, contrastados sobre un banco de datos de vinos de origen varietal indudable obtenido a partir de microvinificaciones estandarizadas. El modelo de predicción utilizado es mediante el uso de redes neuronales artificiales. Los modelos neuronales probabilísticos (Probabilistic Neural Networks, PNN) surgen en los años 70 y fueron descritos por Meisel (1972), pero no empezaron a tener importancia hasta los años 90 con Specht. Dichos modelos aparecen de forma natural en el marco de la teoría de la probabilidad y son en esencia un clasificador bayesiano. Una red neuronal artificial (ANN) es un sistema de procesado de datos, basado en la imitación del funcionamiento de los sistemas nerviosos biológicos, y que es capaz de predecir con precisión variables categóricas (clasificación) y de escala (regresión). Como se esquematiza en la figura 1, las neuronas biológicas tienen cuatro componentes básicos: dendritas, soma, axón y sinapsis. A través de las dendritas (canales de entrada de la neurona) entran en la neurona las señales procedentes de otras neuronas. Si la suma de las señales recibidas en un momento dado excede un cierto valor umbral, el cuerpo de la célula genera una señal de salida, que viaja a lo largo del axón (el canal de salida) y es transportada a otras neuronas vecinas mediante la sinapsis. Figura 1: Esquema de una neurona biológica mostrando sus cuatro componentes básicos. Figura 2: Esquema de una neurona artificial mostrando sus cuatro funciones básicas: ponderar las entradas, sumarlas, calcular la salida y comunicarla a otras neuronas. Tal como se indica en la figura 2, una neurona artificial simulas las funciones básicas de la neurona natural. La entrada a esta nueva neurona es la señal que llega a ella procedente de una o más neuronas y la salida significa la señal emitida por ella a la próxima neurona corriente abajo. La neurona artificial contiene dos algoritmos, uno de los cuales calcula la suma ponderada de los valores que le llegan por las conexiones de entrada, y el otro, denominado “función de transferencia” o “función de activación”, genera una respuesta o salida que se comunica a otras neuronas. La red de neuronas es capaz de “aprender”, lo que se realiza principalmente mediante el ajuste de los “pesos” de las conexiones entre neuronas, hasta que la red en su conjunto proporcione predicciones con la suficiente precisión. Este proceso se denomina “entrenamiento de la red neuronal”. Un peso consiste simplemente en un número real. Si el peso es positivo, tiende a estimular a la neurona siguiente para que transmita su propia señal corriente abajo; si el peso es negativo, no provoca esa estimulación. El conjunto de los valores de los pesos asociados con las neuronas en una red determina las propiedades computacionales de la misma. Al inicio del entrenamiento, estos pesos suelen ser elegidos de manera aleatoria. En la figura 3 se muestra el esquema de una red neuronal sencilla, con neuronas dispuestas en tres filas o “capas” denominadas capa de entrada, capa oculta y capa de salida. La capa de entrada tiene tantas neuronas como variables manifiestas, y genera a su vez el mismo número de salidas, cada una de las cuales se comunica a todas las neuronas de la capa oculta. La capa oculta suele tener una o dos neuronas más que la capa de entrada. Finalmente, la capa de salida tiene tantas neuronas como categorías reconocidas existan en los datos (análisis clasificatorio), o como variables de escala se quieran predecir (predicción multicomponente). Figura 3: Esquema de una red neuronal diseñada para predecir tres respuestas a partir de cuatro variables predictoras. Para que la red funcione correctamente es necesario someterla a una etapa de aprendizaje o entrenamiento. Cuando la red está entrenada, las neuronas de la capa de entrada se alimentan con los valores de las variables manifiestas para el nuevo objeto. Los resultados de la capa de entrada se procesan en la capa escondida, y los resultados generados por ésta se procesan de nuevo en la capa de salida. En análisis clasificatorio, los resultados de la capa de salida o “respuestas” son las probabilidades de que el nuevo objeto pertenezca a cada una de las categorías, mientras que en regresión múltiple, las “respuestas” son los valores predichos para cada una de las variables dependientes (6,7,8). Los resultados obtenidos mediante redes neuronales fueron contrastados con el sistema de predicción a través de análisis discriminante. Materiales y Métodos Muestras de vinos: para la elaboración del banco de datos se realizaron microvinificaciones en condiciones idénticas de maceración en frío a 18º C y fermentación alcohólica con un pool de levaduras seleccionadas sobre 5 muestras de cv. Cereza, 14 muestras de cv. Chardonnay, 8 muestras de cv. Sauvignon blanc y 7 muestras de cv. Torrontés. Luego, se seleccionaron 25 muestras de vinos comerciales declarados como monovarietales en su etiqueta. Método analítico. Determinación de los componentes volátiles La fracción volátil de los vinos se extrae partir de 100 ml de vino a los que se agrega previamente 20 µl de R-octanol como estándar interno y se separa mediante extracción sólido líquido con resina Amberlite XAD-2 y mezcla azeotrópica de solventes pentanodiclorometano (2:1) [6]. Una vez extraída la fracción volátil, la fracción orgánica se concentra en Kuderna Danish hasta la obtención de la gota de aceite esencial. Un µl de este aceite se inyecta en modo split en un Cromatógrafo Hewlett Packard HP-6890 con detector FID, equipado con columna capilar HP-Innowax (50m x 0,25 mm i.d., 0,25 mm film tickness). Se emplean las siguientes condiciones cromatográficas: Gas carrier: Nitrógeno Flujo de hidrógeno: 30 ml.min-1 Flujo de carrier: 1 ml.min -1 Flujo de aire: 400 ml.min-1 Temperatura de inyector: 310º C Temperatura de detector (FID):350º C Programa de temperatura de horno: inicial 45º C durante 5 minutos; rampa 1 de 2º C por minuto hasta 165º C; rampa 2 de 10º C por minuto hasta 280º C y tiempo final constante de 10 minutos. Para la cuantificación se emplea el “Método del Estándar Interno” y se expresa el resultado en concentración de mg.L -1 Con el presente método analítico se han extraído, identificado y cuantificado 71 componentes volátiles que incluyen alcoholes superiores, aldehídos, cetonas, ésteres, terpenos, metoxipirazinas y terpenoles. En Tabla 1 figuran los componentes volátiles analizados. Tabla 1: Compuestos volátiles analizados por CG- FID Componentes volátiles Alcohol crotilico 2-pentanol 2-metilbutanol 4-metil-2-pentanol Acetato de isobutilo Damascenona Z-3-hexenol+Furfurilico E-2-hexenol Gammabutirolactona Dipenteno Acetato de hexilo Cineol 1-feniletanol Guayacol Linalol+Heptanoato de etilo Alfa terpineno Z-oxido limoneno Mentol Alfa Terpineol Maleato de dietilo 3,4-dimetilfenol Citronelol Citral p-anisaldehido Z-cinamaldehído Transanetol Timol Wiskey-Lactona Acetato de nerilo Acetato de genarilo Antranilato de etilo Isoeugenol Dodecanol R-nerolidol Delta undecanolactona Delta dodecanolactona Miristato de etilo Butanol Propanoato de etilo 3-metilbutanol 1-pentanol Hexanal E-3-hexenol Cis-2-Hexenol Hexanol Alfa-pineno+ Dipenteno 2-feniletanol D-Limoneno Alcohol Bencilico Gamma terpineno 2-isopropil-3-metoxipirazina Nonanal E-ox.limon+1-fenil-2-propanol S y R Citronelal 4-terpineol 2-isobutil-3-metoxipirazina R-mirtenol Octanoato de etilo Nerol S-mirtanol Geraniol+Ac linalilo Citral Wiskey-Lactona Carvacrol Eugenol Damascenona Caprato de etilo alfa ionona Gamma decanolactona Beta ionona S-nerolidol Laureato de etilo+deltaundecanolactona Delta dodecanolactona Metodología estadística de tratamientos de datos El procedimiento utiliza una red probabilística neural (PNN) para clasificar variedades, basándose en 31 variables de entrada. De los 322 casos en el conjunto de entrenamiento, 100,0% fueron clasificados correctamente por la red. Se utilizó como parámetro de espaciamiento el vecino más cercano. La tabla 2 muestra los resultados del conjunto de entrenamiento al utilizar la red neuronal entrenada para clasificar observaciones. Entre los 322 casos usados para entrenar al modelo, 100,0% fueron clasificados correctamente. La tabla 3 de clasificación muestra el número de observaciones necesarias para lograr una prediccion del 100%. A partir de dicha red neuronal entrenada se predijeron los 25 vinos comerciales. Resultados Tabla 2: Resultados del conjunto de entrenamiento para clasificar observaciones VARIEDAD CEREZA CHARDONNAY SAUVIGNON TORRONTES Total Miembros 66 126 80 50 322 Porcentaje Correctamente Clasificado 100,0 100,0 100,0 100,0 100,0 Tabla 3: Observaciones necesarias para la predicción Actual VARIEDAD CEREZA Tamaño de Grupo 66 CHARDONNAY 126 SAUVIGNON 80 TORRONTES 50 Predicción para CEREZA 66 (100,00%) 0 ( 0,00%) 0 ( 0,00%) 0 ( 0,00%) CHARDONNAY 0 ( 0,00%) 126 (100,00%) 0 ( 0,00%) 0 ( 0,00%) SAUVIGNON 0 ( 0,00%) 0 ( 0,00%) 80 (100,00%) 0 ( 0,00%) Porcentaje de casos de entrenamiento correctamente clasificados: 100,00% En la figura 4 se muestra el diagrama de red obtenido C ap a d e cap tu r a C ap a d e p atr ó n C a p a d e s u m a t o r ia C a p a d e s a lid a ( 1 0 v a r ia b le s ) (322 cas o s ) (4 n e u r o n as ) (4 g r u p o s ) Figura 4: Diagrama de red TORRONTES 0 ( 0,00%) 0 ( 0,00%) 0 ( 0,00%) 50 (100,00%) El 100 % de las muestras de vinos microvinificados clasificaron correctamente según la hipótesis planteada respecto a la variedad de origen. De las muestras de vinos comerciales el 90 % clasificaron correctamente según la variedad declarada en sus etiquetas. Contrastación del Modelo de Predicción de Redes Neuronales Artificiales con el de Análisis Discriminante Los resultados obtenidos mediante redes neuronales fueron contrastados con el sistema de predicción obtenido a través de análisis discriminante. En este estudio se obtuvieron 28 variables con capacidad de discriminación. Las mismas fueron: Maleato de dietilo, Dodecanol, D-Limoneno, Cineol, Citronelol, Citral, Acetato de butilo, Acetato de isobutilo, Alfa ionona, Alfa pineno, Alcohol Bencílico, Carvacrol, Damascenona, Deltadodecanolactona,Deltaundecano-lactona,2-iso-butil-3-metoxi-pirazina,2-isopropil-3metoxi-pirazina,Gamma-butirolactona,Gamma-decano-lactona, Gamma-terpineno, Geraniol, Hexanol, Linalol, p-anisaldheido, Transanetol, Wiskey-Lactona, Z-cinamaldehído, y Z-óxido de limoneno. Según este estudio el 100 % de las muestras de vinos microvinificados clasificaron correctamente según la hipótesis planteada respecto a la variedad de origen. De las muestras de vinos comerciales el 90 % clasificaron correctamente según la variedad declarada en sus etiquetas. El gráfico 1 muestra la clasificación varietal mediante las funciones discriminantes por componentes individuales. Plot of Discriminant Functions 72 VARIEDADES CEREZA CHARDONNAY SAUVIGNON TORRONTES Centroids Function 2 52 32 12 -8 -28 -40 0 40 80 120 Function 1 Gráfico 1: Funciones discriminantes respecto de la clasificación varietal por componentes individuales. Se han obtenido por ambos métodos de clasificación y predicción estadística los mismos resultados. Conclusión Se concluye que es posible predecir la autenticidad de la procedencia varietal declarada en las etiquetas de vinos blancos comerciales independientemente de su calidad, mediante el análisis del perfil aromático por cromatografía gaseosa y el empleo de un modelo estadístico de predicción (Redes Neuronales Artificiales) contrastado con un banco de vinos de variedad indudable. Referencias 1. Rapp, A.: Volatile flavour of wine: Correlation between instrumental analysis and sensory perception. Nahrung, 42 pp. 351a 363. (1998) 2. Rapp, A., y Mandery, H.: Wine aroma. Esperientia, 42 pp. 873 a 884. (1986) 3. Guadagni, D.G., Buttery, R. G. y Okano, S.: Odour thresholds of some organic compounds associated with flavours. J. Sci. Food Agric., 14 pp. 761 a 765. (1963) 4. Instituto Nacional de Vitivinicultura. República Argentina. Resolución Nº C.20 -2004. 5. Gunata, Y.Z., Bayonove, C.L.,Baumes,R.L.,Cordonnier, E.: Stability of free and boundfractions of aroma components of grapes c.v. Muscat during the wine processing: preliminary results. Am. J. Eno. Vitic., 3 7 ( 1 9 8 6) 6. Uriel, E.: “Data Analysis: Temporary Series and Multivariate Analysis”; AC Ed. (1995) 7. Douglas G. A., J Martin B.: “Comparing several groups using Analysis of variance” BMJ; 312 pp. 1472 a 1473. (1996) 8. Martínez C. “Estudio de parámetros alternativos como indicadores del envejecimiento y de la calidad del brandy de Jerez” Tesis Doctoral. Departamento de Química Analítica. Facultad de Ciencias. Universidad de Cádiz