Prueba de No Causalidad con Series de Tiempo Simbólicas Wiston Adrián Risso 1 Resumen En el presente trabajo se desarrolla un novedoso test de no causalidad en base al análisis de series de tiempo simbólicas. Se encuentra su distribución asintótica y se realizan pruebas de tamaño y poder comparándolo con el tradicional test de no causalidad de Granger. Se aprecia que el test introducido presenta un buen desempeño detectando diferentes procesos causales. En particular, se destaca a diferencia del de Granger, este sería capaz de detectar procesos no lineales con componentes exponenciales, el modelo NLAR y el mapa caótico de Lorenz. Por otra parte, debido a las diferencias detectando causalidad con datos empíricos que pueden ser debido a diferentes motivos, se sugiere la aplicación de ambas pruebas en forma complementaria. Palabras Clave: Causalidad, No Linealidad, Análisis Simbólico, Econometría 1. Introducción Detectar las causas y los efectos entre las variables ha sido un tópico importante no solamente en economía sino que también en los campos de la estadística, inteligencia artificial, filosofía, ciencias del conocimiento, la medicina y las ciencias sociales. 1 Instituto de Estadística (IESTA), Universidad de la República, Eduardo Acevedo 1139, 11200 Montevideo, Uruguay. Instituto de Economía (IECON), Universidad de la República, Joaquín Requena 1375, 11200 Montevideo, Uruguay. Email address: arisso@iecon.ccee.edu.uy El autor quisiera agradece el apoyo financiero del Sistema Nacional de Investigadores de la ANII y del IESTA para la realización del presente estudio. 1 El concepto de “causalidad” ha sido ampliamente discutido por muchos filósofos de las matemáticas. Un ejemplo de esto es Russel (1913) quién señalaba que el fenómeno “causalidad” no existe ni en las matemáticas y ni en la física. Él decía que las ecuaciones físicas y las relaciones causales son incompatibles y que estas últimas deberían ser eliminadas de las ciencias. Por otro lado, Pearl (2009) tiene una postura filosófica contraria, él realiza una revisión de todos los enfoques sobre causa y efecto que han sido desarrollados hasta ahora, mostrando que el concepto está todavía vivo en las ciencias. Como señalan Hlaváčková-Schindler et al. (2007), es difícil dar una definición neutral de causalidad, debido a que cada aspecto de este término ha sido ampliamente debatido. Sin embargo, en la causalidad una característica parece permanecer, se presume que la causa cronológicamente precede al efecto. De hecho, Granger (1969) señala que discutir el término causalidad sin introducir el tiempo tiene poco sentido práctico. Granger (2003) identifica dos componentes en la causalidad: 1) La causa ocurre antes que el efecto; 2) La causa contiene información sobre el efecto que es única y que no está en otra variable. Haciendo un breve repaso, se puede señalar que se han venido aplicando diferentes enfoques para analizar la causalidad. Hlaváčková-Schindler et al. (2007) hace una revisión de los métodos aplicados centrándose en aquellos que se basan en la teoría informativa. Sin embargo, la causalidad ha sido modelada aplicando y combinando distintas metodologías como son la lógica matemática, la teoría del grafo, los modelos de Markov y la probabilidad Bayesiana entre otras. Schreiber (2000) introduce una medida para cuantificar la transferencia causal de información entre sistemas que evolucionan en el tiempo y que se basan en probabilidades de transición condicionadas. De hecho, la llamada Entropía de Transferencia viene siendo aplicada en muchos campos de la ciencia. Por su parte Smirnov (2013) estudia las causalidades espurias usando entropía de transferencia. El autor señala que esta medida parece ser el instrumento más aplicado a la hora de caracterizar influencias causales en conjunto de sistemas complejos de series de tiempo observadas. Sin embargo, él resalta que hay factores que pueden llevar a detectar causalidades espurias. 2 El índice de semejanza fue introducido por Arnhold et al. (1999). Lungarella et al. (2007) señala que el mayor inconveniente de este índice es que para estructuras donde la causalidad es débil y están altamente contaminadas por ruido, la detección de relaciones se vuelve difícil. La mejora de la predicción es otro índice que fue introducido por Feldmann and Bhattacharya (2004). De acuerdo a Lungarella et al. (2007) el índice es parecido a la causalidad de Granger ya que estima los errores de la regresión de vectores de estado, la diferencia está en la ausencia de un modelo autorregresivo. El modelo lineal para medir y testear causalidad ha sido ampliamente aplicado en economía y finanzas. En especial, la prueba de no-causalidad de Granger basada en la aplicación de un modelo autorregresivo bivariado, ha sido extensivamente aplicada en economía desde los artículos escritos por Wiener (1956), Granger (1969) y Sims (1972). Ellos introdujeron una noción específica de causalidad en el análisis de series de tiempo y hoy en día esta prueba se puede encontrar en la mayoría de los paquetes estadísticos y econométricos. Aunque el enfoque lineal es el más aplicado en los estudios empíricos, recientemente se han desarrollados enfoques de causalidad de Granger no lineales tales como los propuestos por Baek and Brock (1992), Hiemstra and Jones (1994), Diks and Panchenko (2005, 2006), Kyrtsou and Labys (2006, 2007) y Hristuand Kyrtsou (2010). Sin embargo, como señalan Hlavackova et al. (2007) los modelos de causalidad de Granger lineales y no lineales presentan algunos problemas. En efecto, ambos enfoques deben seleccionar un modelo para realizar la prueba y por tanto se debería seleccionar aquel que se ajuste a la dinámica del proceso subyacente, de otra forma se pueden cometer errores de mala especificación del modelo, llevando a causalidades espurias. Ellos señalan que una alternativa para superar este problema sería adoptar un enfoque no paramétrico el cual esté libre de cualquier error de especificación de modelo. En este sentido, en el presente artículo se presenta un enfoque no paramétrico basado en la aplicación de series de tiempo simbólicas. El objetivo es desarrollar una prueba simple, poderosa, fácil de calcular y que dependa lo menos posible de cualquier tipo de modelización o distribución subyacente. Por otra parte, se espera que la prueba gane robustez ante la presencia de ruido ya que se aplica el análisis de series de 3 tiempo simbólicas. Es sabido que el ruido está presente frecuentemente en el mundo real y lleva a causalidades espurias como fue señalado por Naldore et al. (2007) y Smirnov (2013). El presente estudio se organiza de la siguiente forma. En la sección 2 se presente el enfoque de series de tiempo simbólicas. La sección 3 desarrolla la prueba de no causalidad simbólica. En la sección 4 se realizan experimentos de tamaño y poder. En la sección 5 la prueba se aplica a datos empíricas provenientes del mercado financiero norteamericano. Finalmente, en la sección 6 se plantean las principales conclusiones. 2. Análisis de Series de Tiempo Simbólicas (STSA) Como se menciona en Finney et al. (1998) el concepto de simbolización tiene sus raíces en la teoría de los sistemas dinámicos, en especial en el estudio de los sistemas no lineales que pueden exhibir bifurcación y caos. Como se mencionó en la sección anterior, además de la eficiencia y rapidez a la hora de realizar cálculos, los métodos simbólicos son también robustos cuando en la serie está presente el ruido. Williams (2004) señala que la dinámica simbólica es un método para estudiar sistemas no lineales con tiempo discreto mediante el proceso de tomar una trayectoria previamente codificada usando secuencias de símbolos de un conjunto finito, también llamado alfabeto. Sin embargo, Piccardi (2004) resalta que la dinámica simbólica debería ser diferenciada del análisis simbólico. El primero se relaciona con la investigación teórica de sistemas dinámicos, mientras que el segundo es de aplicación cuando los datos se caracterizan por un bajo grado de precisión. La idea en el análisis simbólico es la de discretizar los datos aplicando la participación correcta y obteniendo como consecuencia una secuencia simbólica. Esta secuencia es capaz de detectar la verdadera dinámica del proceso cuando los datos están altamente afectados por el ruido. De esta forma, la simbolización de los datos implica la transformación de la serie original, que generalmente toma valores en el conjunto de los reales en una serie de símbolos discretos. La 4 serie simbólica resultante puede ser analizada en busca de patrones temporales no aleatorios. Esto significa que dada una serie de tiempo {xt}t=1,2,…,T, se estudia la dependencia presente en la serie mediante la transformación del problema en una serie de tiempo simbólica {st}t=1,2,…,T. Considere una serie de tiempo {xt}t=1,2,…,T donde T es el tamaño de la muestra. El enfoque de análisis de series de tiempo simbólicas sugiere como primer paso tomar una partición tal que la ocurrencia individual de cada símbolo tenga la misma probabilidad respecto a cualquier otro símbolo, siendo el resultado una serie {st}t=1,2,…,T. Por ejemplo, imagine que {xt}t=1,2,…,T es una serie de tiempo generada por un ruido blanco Gaussiano, se podría definir un discretización en dos regiones estableciendo st=0 cuando xt toma un valor por debajo del 50% de la función de distribución y st=1 en el otro caso. La nueva serie de tiempo {st}t=1,2,…,T sería similar a una serie producida por tirar una moneda T veces. Claramente, se podría elegir otra discretización con una mayor cantidad de símbolos, seis por ejemplo traducirían las serie Gaussiana del ejemplo en un proceso similar al generado por tirar un dado repetidas veces. 3. Prueba de No Causalidad con Series Simbólicas En la sección presente se desarrolla una nueva prueba de no causalidad. Aplicando el enfoque STSA explicado en la sección anterior se propone un estadístico nuevo y se deriva su distribución asintótica. La idea principal se basa en derivar la distribución asintótica del estadístico cuando no existe causalidad entre las series. De esta forma, el enfoque se basa en tomar dos series de tiempo independientes y aleatorias de tamaño T* cada una. Si se asume que X e Y son dos series de tiempo independientes y aleatorias de tamaño T* se puede definir una partición en “a” regiones con la misma probabilidad cada una, obteniendo dos series de tiempo simbólicas Sx={sx1,sx2,..,sxT*} y Sy= {sy1,sy2,…,syT*}. A los efectos de 5 simplificar el análisis, el estudio se basará en la utilización de 3 símbolos (a=3) y se considerará que T=T*-1. Una vez que las series de tiempo están simbolizadas se establecen las hipótesis nulas, aquellas que se desea testear: 1) Sx no-causa Sy; 2) Sy no-causa Sx. A continuación se definen dos series agrupando las series de tiempo de la siguiente forma: 1) Sxy={(sx1, sy2), (sx2, sy3),…,(sxt-1,syt),…,(sxT-1,sxT)} 2) Syx={(sx1, sy2), (sx2, sy3),…,(sxt-1,syt),…,(sxT-1,sxT)} Se debe observar que sx y sy toma valores del alfabeto de tres símbolos, A={1,2,3}. Por lo tanto la combinación (sxt-1, syt) toma un valor en el conjunto de nueve eventos posibles {(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)}. Dado que Sx y Sy se asumieron aleatorias e independientes ningún evento debería ser más probable que otro y cada evento debería tener una probabilidad de 1/9 indicando que no hay causalidad. Sin embargo, en el caso en que uno de los eventos sea más probable habría evidencia de causalidad. Por ejemplo, si se imagina que (1,3) es más probable, esto significa que cada vez que sx toma el valor 1 en el tiempo t-1, sy tiende a tomar el valor 3 en el tiempo t. Si se define Exyi para i=1,…,9 como la suma del total de i eventos en el conjunto Sxy y a Eyxi para i=1,..,9 como la suma del total de i eventos en el conjunto Syx, podemos derivar las variables multidimensionales Exy={Exyi/T} y Eyx={Eyxi/T}. Estas dos variables tienen una distribución multinomial. Exy se distribuye multinomial con esperanza E(Exyi)=(1/9), varianza Var(Exyi/T)=(1/9)(8/9T) y covarianza Cov(Exyi, Exyj)=-(1/9)(1/9T) para todo i≠j. De la misma forma, Eyx se distribuye multinomial con esperanza E(Eyxi)=(1/9), varianza Var(Eyxi/T)=(1/9)(8/9T) y covarianza Cov(Eyxi, Eyxj)=-(1/9)(1/9T) para todo i≠j. Notese que Exyi/T y Eyxi/T podrían ser aproximados por una distribución normal multivariada N(1/9,σ2Σ) donde σ2 es (1/9T) y Σ es una matriz idempotente como en (1). 6 ∑ 9 x9 8 / 9 − 1/ 9 − 1 / 9 8 / 9 ≡ ... ... − 1 / 9 − 1 / 9 ... − 1 / 9 ... − 1 / 9 ... ... ... 8 / 9 (1) Por conveniencia se puede definer el vector variable {εxyi}={(Exyi/T)-(1/9)}i=1,2,…,9 que tiene una distribución normal multivariada N(ø,σ2Σ), donde ø es el vector nulo. De la misma manera, se puede definir el vector variable {εyxi}={(Eyxi/T)-(1/9)}i=1,2,…,9 que presenta una distribución normal multivariada N(ø,σ2Σ). De esta forma los estadísticos para ambas hipótesis pueden ser definido como en (2) y en (3). i =9 2 ∑ εxyi i =1 2 σ (2) i =9 2 ∑ εyxi i =1 2 σ (3) Los términos entre paréntesis en (2) y en (3) son formas cuadráticas de variables normales aleatorias. Como señalan Mathai and Provost (1992), la distribución de formas cuadráticas con variables normales ha sido extensamente estudiada por muchos autores. Se han derivado varias representaciones de la función de distribución y se han dado diferentes procedimientos para calcular la distribución y preparar las tablas apropiadas. Patnaik (1949), Pearson (1959), Siddiqui (1965), Solomon and Stephens (1978) and 7 Oman and Zacks (1981) han propuesto distribuciones aproximadas. En el presente estudio se aplica el siguiente teorema que aparece en Mathai y Provost (1992) p. 197: La condición necesaria y suficiente para que la forma cuadrática X’ΑX se distribuya como una Chi-cuadrado con r grados de libertad cuando X tiene una distribución normal multivariada con media vector ø y una matriz singular de covarianzas Σ, son: (i) (ΑΣ)2=(ΑΣ)3 y tr(ΑΣ)=r (ii) tr(ΑΣ)2=tr(ΑΣ)=r y ρ(ΣΑΣ)=r Se señala que el teorema puede ser aplicado en el caso presente cuando el vector X=(ε1/σ,ε2/σ,…,εn/σ) se distribuye normal multivariado N(ø,Σ). En este caso Α es la matriz identidad I y Σ es simétrica, singular e idempotente. Dado que tr(ΑΣ)=n-1=9, entonces X’ΑX se distribuye Chi-2 con (n-1) grados de libertad. Recordando que σ2=(1/9T) se obtiene que la distribución de los estadísticos de No Causalidad Simbólica (SNC) son los que se presentan en (4) y (5). 2 i =9 Exyi 1 − se distribuye a sin tóticamente χ 82 SNC ( X → Y ) ≡ T 9∑ 9 i =1 T (4) 2 i =9 Eyxi 1 − se distribuye a sin tóticamente χ 82 SNC (Y → X ) ≡ T 9∑ 9 i =1 T (5) Como se mencionó anteriormente el test se deriva asumiendo que X e Y son procesos aleatorios. Sin embargo, se puede aplicar esta prueba a series de tiempo estacionarias aplicando un proceso autorregresivo y probando la casualidad entre los residuos de 8 ambas series. Esto se debe realizar ya que para estudiar la influencia de una serie sobre la otra se debe eliminar el efecto que tiene el pasado de las series sobre ellas mismas. xt=α0+α1xt-1+uxt (6) yt=β0+β1yt-1+uyt (7) Notese que en la práctica calcular el estadístico es muy simple. En resumen, la prueba trabaja de la siguiente forma: Paso 1: Considerar dos series de tiempo {xt}t=1,2,…,T* y {yt}t=1,2,…,T* y aplicar un proceso AR(1) a ambas series como en (6) y en (7) para eliminar la autocorrelación y luego definir las nuevas series de tiempo residuales {uxt}t=1,2,…,T y {uyt}t=1,2,…,T Paso 2: En {uxt}t=1,2,…,T y {uyt}t=1,2,…,T aplicar una partición en 3 regiones igualmente probables y transformar las series en {sxt}t=1,2,…,T y {syt}t=1,2,…,T. Paso 3: De acuerdo a las hipótesis X→Y y Y→X definir los conjuntos Sxy={(sx1, sy2), (sx2, sy3),…,(sxt-1,syt),…,(sxT-1,sxT)} y Syx={(sx1, sy2), (sx2, sy3),…,(sxt-1,syt),…,(sxT-1,sxT)} Paso 4: Para Sxy y Syx calcular la frecuencia de los 9 eventos diferentes Exyi/T para i=1,2,…,9 y Eyxi/T para i=1,2,…,9. Paso 5: Para Sxy y Syx calcular los estadísticos SNC(X→Y)=T9{Σ(Exyi/T – 1/9)2} y SNC(Y→X)=T9{Σ(Eyxi/T – 1/9)2} como se observa en las ecuaciones (6) y (7). Paso 6: Comparar SNC(X→Y) con la Chi-2 de 9 grados de libertad con una significación de 0.05, bajo la hipótesis nula de que X no causa Y. Cuando SNC(X→Y) es más grande que el valor crítico se rechaza la hipótesis nula. De la misma forma, 9 cuando SNC(Y→X) el más grande que el valor crítico se puede rechazar que Y no causa X. Se debe señalar que a los efectos de simplificar y tratar de minimizar la disyuntiva que se plantea entre el tamaño del alfabeto y el tamaño de la muestra se han considerado 3 símbolos. Un alfabeto de α=3 símbolos determina n=32=9 eventos posibles en el conjunto de pares {(xt-1,yt)} o {(yt-1, xt)}. Sin embargo, la generalización del test es simple. Si se considera a símbolos y los eventos n=a2, el vector de n frecuencias Exyi/T y Eyxi/T pueden ser aproximados por una distribución normal multivariada N(1/n,σ2Σ) donde σ2 es (1/nT) y Σ es una matriz idempotente como en (8). ∑ nxn − 1/ n (n − 1) / n − 1/ n (n − 1) / n ≡ ... ... − 1/ n − 1/ n ... − 1/ n ... − 1 / n ... ... ... (n − 1) / n (8) Los estadísticos SNC(X→Y) y SNC(Y→X) se definen como en (9) y (10). 2 i = n Exyi 1 − se distribuye a sin toticamente χ n2−1 SNC ( X → Y ) ≡ Tn ∑ n i =1 T (9) 2 i = n Eyxi 1 − se distribuye a sin toticamente χ n2−1 SNC (Y → X ) ≡ Tn ∑ n i =1 T (10) 4. Experimentos de tamaño y poder 10 En esta sección se estudia el desempeño del test en muestras finitas y el poder detectando diferentes formas de causalidad. La prueba de no causalidad de Granger se usará para contrastar los resultados del presente test simbólico. En este contexto, el test de no causalidad de Granger implica considerar el siguiente modelo de vectores autorregresivos (VAR): Xt=α0+α1Xt-1+α2Yt-1+εxt Yt=β0+β1Yt-1+β2Xt-1+εyt Donde εxt y εyt son residuos independientes y normales. La significación de los parámetros α2 y β2 determina el rechazo de la no-causalidad desde Y a X y desde X a Y, respectivamente. La prueba de no-causalidad simbólica se lleva a cabo tomando series de tiempo estacionarias y aplicando un proceso AR(1) para cada series como se muestra en las ecuaciones (6) y (7), los residuos son simbolizados y los estadísticos SNC(X→Y) y SNC(Y→X) se calculan como se muestra en la sección 3. Si SNC(X→Y) es más grande que el valor critico al 5% de una Chi-2 con 8 grados de libertad, la no-causalidad es rechazada. Lo mismo es válido para el caso de SNC(Y→X). Se realizó el siguiente experimento para estudiar el tamaño de SNC. Se llevaron a cabo 10.000 simulaciones de Monte Carlo para series de tiempo Gausianas pseudo-aleatorias i.i.d(0,1) para variables independientes X e Y y para diferentes tamaños de muestras (T=50, T=100, T=500, T=1000, T=5000). Las pruebas fueron aplicadas considerando niveles de significación de α=0.01, α=0.05 y α=0.10. De esta forma se calcula el porcentaje de rechazo de la hipótesis nula sobre las 10.000 simulaciones de Monte Carlo para cada hipótesis (X→Y y Y→X) y para cada test (SNC y Granger). Cuando los valores críticos son insesgados, el porcentaje de rechazo debería ser cercano a los niveles de significación para el caso de no-causalidad. 11 La Tabla 1 muestra el porcentaje de rechazo de la hipótesis nula para el caso de no causalidad. La primera columna muestra los tres niveles de significación que fueron aplicados (1%, 5% y 10%), la segunda columna se refiere a los cinco tamaños muestrales (T=50, 100, 500, 1000 y 5000). Para la prueba SNC y la prueba de no causalidad de Granger hay dos hipótesis referidas a que X no causa Y e Y no causa a X. Nótese que la prueba de no causalidad de Granger detecta correctamente la no causalidad en cualquier dirección con un porcentaje de rechazo cercanos a los niveles de significación respectivos. La prueba de no causalidad simbólica es más conservadora, los porcentajes de rechazo son muy bajos, en muchos casos inferiores al 1%. Por tanto, debido a que la prueba parece ser muy conservadora rechazando la no causalidad más veces de lo esperado, se debería estudiar el poder del test detectando diferentes tipos de causalidad. Tabla 1. Tamaño de las Pruebas de No-Causalidad Simbólica y la de Granger No Causalidad Simbólica Tamaño Significación (SNC) muestral X→ Y Y→ X T=50 0,32 0,16 T=100 α=1% T=500 T=1.000 T=5.000 T=50 α=5% α=10% T=100 T=500 T=1.000 T=5.000 T=50 T=100 T=500 T=1.000 T=5.000 0,06 0,01 0,06 0,10 0,05 0,05 0,52 0,43 0,41 0,35 0,60 0,87 1,20 0,99 1,01 1,16 0,07 0,05 0,42 0,30 0,42 0,45 0,46 0,85 0,98 1,07 0,98 1,14 No Causalidad de Granger X→ Y 0,90 Y→ X 0,92 1,01 0,95 1,00 0,91 1,12 5,12 5,24 4,90 4,83 5,20 10,10 10,19 9,60 10,44 10,11 1,04 1,10 1,06 5,06 5,07 4,95 4,78 5,24 10,25 10,12 9,88 9,73 10,73 Nota: Se realizaron 10.000 simulaciones de Monte Carlo aplicando el generado de números pseudoaleatorios del programa MatLab R2010a. Los valores son los porcentajes de rechazo de la hipótesis nula. 12 En el siguiente experimento se estudia el poder de la prueba SNC comparada con la prueba de no causalidad de Granger. Se simularon diez procesos diferentes incluyendo procesos estocásticos lineales y no lineales y procesos caóticos. A continuación se presenta una lista de los 10 procesos que fueron simulados: 1. AR(1). Dos series de tiempo independientes originadas por procesos autorregresivos de primer orden: Xt=0.2+0.45Xt-1+ε1t e Yt=0.8+0.5Yt-1+ε2t. En donde ε1t y ε2t son variables independientes e idénticamente distribuidas (i.i.d.) con una distribución normal N(0,1). 2. 1-VAR(1). Yt= 0.04-0.4Yt-1+0.16Xt-1+v1t y Xt= 0.07+0.69Xt-1+0.5Yt-1+v2t. En donde el vector (v1t,v2t) se distribuye con una distribución normal bivariada con media (0,0) y matriz de varianzas y covarianzas 3,64 − 0,11 − 0,11 0,79 3. 2-VAR(1). Es similar al proceso anterior 1-VAR(1) pero en este caso Xt no depende de Yt-1: Yt= 0.04-0.4Yt-1+0.16Xt-1+v1t y Xt= 0.07+0.69Xt-1+v2t; En donde el vector (v1t,v2t) se distribuye 3,64 − 0,11 − 0,11 0,79 normal bivariado con media (0,0) y matriz de varianza y covarianza 4. Modelo no lineal con variable exponencial. Xt=1.4-0.5Xt-1eYt-1+ε1t y Yt=0.4+0.23Yt-1+ε2t; En donde ε1t y ε2t son variables normales i.i.d.(0,1) 5. Modelo no lineal con variable logarítmica: Yt=0.1+ 0.7Log│Xt-1│+0.3Yt-1+ε1t y Xt= 0.1+0.2Xt-1+ε2t; En donde ε1t y ε2t son normales i.i.d.(0,1) 6. ARCH(1): σ2xt= 0.15+0.6x2t-1; σ2yt= 0.02+0.4y2t-1; xt=0.20+σxt-1ε1t + 0.6yt-1 y yt=0.05+σyt-1ε2t; En donde ε1t y ε2t son normales i.i.d.(0,1) 7. NLAR (No lineal autorregresivo): Xt=0.2│Xt-1│/(2+│Xt-1│)+ε1t y Yt=0.7│Yt- ε ; En donde ε1t y ε2t son normales i.i.d.(0,1) 1│/(1+│Xt-1│)+ 2t 13 2 8. Henon: Xt=1+Yt-1-1.4X t-1 y Yt=0.3Xt-1; Con condiciones iniciales Y1 generadas aleatoriamente por │N(0,0.01)│ y X1=1 9. Lorenz: Xt=1.96Xt-1-0.8Xt-1Yt-1; Yt=0.2Yt-1+0.8X2t-1; Con condiciones iniciales X1, Y1 generadas aleatoriamente. Esta es una versión discreta del proceso de Lorenz como se presenta en Stork et al. (2009). 10. Modelo Semi-Cualitativo: Xt=0.08+0.2Yt-1Xt-1+0.1εt; Con las siguientes condiciones: Si Xt-1≥0.09 entonces Yt=1, si 0.08≤Xt-1<0.09 entonces Yt=0; Finalmente si Xt-1<0.08 entonces Yt=1.en donde εt es normal i.i.d.(0,1). La Tabla 2 muestra los resultados de los experimentos sobre el poder de las pruebas SNC y la no causalidad de Granger aplicando 10.000 simulaciones de Monte Carlo para cada uno de los diez modelos y para diferentes tamaños muestrales (T=50, 100, 500, 1000 y 5000). Tabla 2. Experimento de Poder de las pruebas SNC y la no causalidad de Granger Tamaño muestral T=50 T=100 T=500 T=1000 T=5000 T=50 T=100 T=500 T=1000 T=5000 T=50 T=100 T=500 T=1000 T=5000 T=50 T=100 T=500 T=1000 T=5000 T=50 T=100 T=500 T=1000 Modelo No Causalidad No Causalidad Simbólica de Granger X→ Y AR(1) (No hay) 1-VAR(1) 0,40 0,42 0,41 0,39 0,34 5,07 16,04 99,21 100,00 Y→ X 0,45 0,37 0,27 0,42 0,46 X→ Y 5,66 5,28 5,47 5,18 5,30 Y→ X 5,25 5,09 5,14 5,14 5,09 1,88 84,39 41,46 4,89 99,11 72,50 76,49 100,00 99,99 99,48 100,00 100,00 (X→ Y , Y→ X) 100,00 100,00 100,00 100,00 2-VAR(1) (X→ Y) 5,06 15,45 98,58 100,00 100,00 0,42 83,59 0,24 98,98 0,31 100,00 0,37 100,00 0,38 100,00 0,51 3,76 0,28 11,85 No lineal con exponencial 0,43 89,50 0,40 99,22 (Y→ X) 1,42 100,00 15,77 0,37 54,04 0,25 No lineal con logarítmo 100,00 0,48 100,00 0,25 2,89 2,78 2,53 2,73 2,67 9,64 12,01 34,21 56,85 Modelo 4,65 4,47 5,03 5,16 4,91 16,89 13,36 11,48 11,29 11,19 5,57 4,93 5,17 5,06 No Causalidad Simbólica X→ Y ARCH(1) (Y→ X) NLAR (X→ Y) Henon (X→ Y , Y→ X) Lorenz (X→ Y , Y→ X) Semicualitativo Y→ X 0,55 1,56 0,27 3,00 0,40 46,75 0,51 90,00 0,58 100,00 0,01 0,73 5,96 17,87 98,02 0,01 0,34 0,31 0,29 0,39 No Causalidad de Granger X→ Y Y→ X 5,28 5,64 5,51 5,63 6,08 22,55 39,82 94,53 99,78 99,99 6,51 5,00 0,05 4,82 4,94 5,01 0,05 4,74 5,16 5,05 100,00 3,43 100,00 2,06 100,00 79,26 100,00 21,17 100,00 100,00 100,00 99,98 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 96,61 99,99 100,00 100,00 100,00 100,00 100,00 100,00 100,00 31,90 90,49 100,00 100,00 100,00 26,60 68,85 100,00 100,00 30,77 28,52 23,60 24,42 23,87 100,00 100,00 100,00 100,00 13,86 12,64 11,74 11,69 11,52 11,34 25,74 90,89 99,65 14 (X→ Y) T=5000 100,00 0,39 99,59 5,08 (X→ Y , Y→ X) 100,00 100,00 100,00 100,00 Nota: Se realizaron 10.000 simulaciones de Monte Carlo aplicando números pseudoaleatorios originados por una N(0,1) generados por el programa MatLab R2010a. Los valores son los porcentajes de rechazo de la hipótesis nula. El nivel de significación es 0.05. Se puede apreciar que la no causalidad en el modelo AR(1) se detecta en forma correcta en ambas pruebas y para todos los tamaños muestrales. Se destaca también en la Tabla 2 que el test SNC sigue siendo más conservador rechazando la causalidad en ambas direcciones con porcentajes menores a 5%. Los modelos 1-VAR(1) y 2-VAR(2) difieren solamente en un parámetro que determina que en el primer modelo haya causalidad bidireccional y en el segundo la causalidad vaya de X a Y. Considerando un porcentaje de 60% como un umbral para la detección de causalidad, se puede decir que ambas pruebas detectan la causalidad en el modelo 1-VAR(1) para muestras grandes a partir de 500. El test de Granger detecta la causalidad ya en una muestra de 100. En el caso del modelo 2-VAR(1) ambas pruebas detectan la causalidad de X sobre Y a partir de un tamaño muestral de 500. Es de notar que en muestras pequeñas el test de Granger detecta este proceso mejor que el SNC. Esto puede ser debido a que el test de Granger para su construcción se basa en el modelo VAR. El modelo no lineal que incluye una expresión exponencial implica causalidad de Y sobre X. Nótese que el test SNC detecta la causalidad cuando el tamaño muestral es 500 o mayor. Sin embargo, es de destacar que el test de Granger no detecta la causalidad en ningún caso. El cuarto modelo es no lineal con un término en logaritmos generando causalidad de X a Y. En este caso el test SNC detecta la causalidad con un tamaño muestral de 500 observaciones o más. Sin embargo, el test de Granger necesita una muestra de 5000 para detectar causalidad. En el caso del proceso ARCH con causalidad de Y sobre X, el test SNC es capaz de detectarlo para una muestra de 1000 observaciones, mientras que el test de Granger lo detecta en muestras de 500. 15 El proceso NLAR es uno de los más difíciles de detectar incluso en el caso que se quiere testear su propia dependencia temporal como fue señalado en Risso (2014). En el presente caso, en donde se establece una causalidad de X sobre Y, se destaca que el test SNC es el único capaz de detectarlo y necesita de una muestra de T=5000. El mapa de Henon es un proceso caótico presentando causalidad en ambas direcciones. Notese que el test SNC detecta el proceso a partir de una muestra de T=100 pero el test de Granger necesita una muestra de T=500. El mapa discreto de Lorenz también es un proceso caótico y es detectado por el test SNC a partir de una muestra de T=100. Sin embargo, nótese que el test de Granger nunca llega a detectar este tipo de causalidad para los tamaños muestrales presentados. El modelo Semi-cualitativo presenta una variable binaria dependiendo de cierta region en la que se encuentre la otra variable. En este caso el test SNC detecta correctamente la causalidad a partir de una muestra de T=100 pero el test de Granger necesita T=500. La Figura 1 muestra el porcentaje de detección de causalidad sobre los diez modelos dependiendo del tamaño muestral. Nótese que para muestra de 50, el test de Granger tiene un mejor desempeño que el test SNC, detectando 20% de los proceso. Sin embargo, empezando con T=100 el test SNC tienen un mejor desempeños hasta detectar todos los procesos cuando el tamaño muestral es T=5000. 16 Figura 1. Porcentaje de correcta detección del test dependiendo del tamaño muestral Nota: Elaborado en base a las simulaciones de Monte Carlo En resumen, para muestra de tamaño T=5000 el test SNC es capaz de detectar la causalidad en el 100% de los modelos presentados. Sin embargo, el test de Granger detecta solo el 70% de los procesos aunque este parece presentar un mejor desempeño detectando causalidad en procesos lineales. En procesos no lineales el mejor desempeño los presenta el test SNC. En particular se destaca que el test de Granger no puede detectar el modelo no lineal con componente exponencial, el modelo NLAR y el mapa caótico de Lorenz. 5. No Causalidad con Datos Empíricos El objetivo de esta sección es comparar los resultados del test SNC presentado en este artículo y el test de no causalidad de Granger cuando se tienen datos empíricos. En este caso existe la dificultad de que cuando se trabaja con datos empíricos, en particular con series históricas económicas, en general no se tiene la certeza sobre la existencia de causalidad en el proceso generados de datos ya que la mayoría de las veces este es desconocido. Por otro lado, las muestras que se observan suelen estar contaminadas por el ruido generado por ejemplo por la forma en que se mide y que puede o generar causalidad cuando no la hay (causalidad espuria) o no permitir la detección de causalidad cuando realmente existe. 17 En el presente trabajo se consideró el siguiente conjunto de 22 acciones y 2 índices del mercado bursátil norteamericano, considerando frecuencias semanales y mensuales: AA, AXP, BA, CAT, CVX, DD, DE, DIS, GE, GT, HPQ, IBM, JNJ, KO, MCD, MMM, MRK, PFE, PG, WFC, WMT, XOM y los índices bursátiles GSPC (S&P 500) y NASDAQ. Se tomaron los retornos mensuales entre Setiembre de 1972 y Mayo de 2014 y los retornos semanales entre la última semana de Agosto de 1972 hasta la última semana de Mayo 2014. En resumen se cuenta con 24 series de tiempo del mercado bursátil norteamericano con un tamaño muestral de 501 meses y 2.178 semanas. La Tabla 3 muestra los resultados del test de no causalidad simbólico aplicado a las series de retornos financieros de dos en dos totalizando 576 pruebas. La primera celda de la primera columna indica la dirección de causalidad que se testea indicando que la causalidad va desde la variable que aparece en la primera columna a la variable que aparece en la primera fila. Por ejemplo, el test de causalidad de CVX a DD muestra que el estadístico es 13,39 el cual es más grande que una Chi2 a un nivel de significación de 10% (13,36) por lo cual a este nivel se rechaza la hipótesis de no causalidad y se podría decir que existe cierta evidencia de causalidad de CVX sobre DD. Se destaca que 19 causalidades son detectadas por el test. En particular, se observa que el índice NASDAQ parece ser causado por 3 diferentes acciones, el índice S&P 500 y el propio pasado del NASDAQ. Las acciones DD y DIS son causadas por tres retornos. Por otra parte, nótese que CVX es la acción que más afecta dentro de la matriz, causando a 4 series. La Tabla 4 presenta la prueba de no causalidad de Granger para los mismos datos analizados en la Tabla 3. En este caso, se debe apreciar que se sugieren 84 causalidades por parte del test de Granger en lugar de 19 como en el SNC. En particular, se destaca que Boeing (BA) estaría causado por 9 retornos accionarios y por dos índices. Por otro lado, Wal-Mart (WMT) causa 9 acciones de acuerdo a este test. Parecería que el test de no causalidad de Granger estaría detectando más relaciones que el test SNC. Sin embargo, es importante señalar nuevamente que cuando se trabaja con series de 18 tiempo financieras empíricas no se conocen a priori las verdades relaciones, si es que existen y podría ser que se plantearan relaciones espurias. Por otro lado, es interesante destacar que algunas relaciones que son detectadas por el test SNC, no son detectadas por el test de Granger. Por ejemplo, CVX causa DD y DIS según el test SNC pero no habría causalidad de acuerdo al test de Granger. PG está causando a AXP y a KO cuando se aplica SNC pero el test de Granger sugiere que está causando a GT. En este sentido, se podría sugerir que ambas pruebas deberían aplicarse en forma complementaria. 19 → GSPC NASDAQ AA AXP BA CAT CVX DD DE DIS GE GT HPQ IBM JNJ KO MCD MMM MRK PFE PG WFC WMT XOM Tabla 3. Test de No Causalidad Simbólico aplicado a los 24 retornos financieros de 501 meses. GSPC 6,06 1,45 4,66 6,53 7,54 1,23 18,36** 6,39 6,75 1,01 1,09 2,28 4,51 2,49 1,52 4,37 4,62 1,16 7,29 0,91 6,93 2,75 1,09 10,83 NASDAQ 14,90* 17,35** 4,87 16,42* 7,62 6,93 13,82* 8,55 9,24 6,53 4,69 7,00 14,76* 6,93 3,58 6,53 9,96 8,84 2,78 11,87 7,43 9,56 1,34 6,53 AA 2,85 2,10 12,77 6,42 1,16 3,68 3,32 1,99 2,46 0,91 1,30 2,46 1,37 3,07 7,33 4,19 2,96 3,29 8,77 11,33 2,89 3,00 2,71 2,28 AXP 5,74 2,57 7,62 4,08 1,77 3,54 5,05 1,27 2,17 6,10 3,11 1,56 5,20 2,78 4,26 0,65 2,24 1,99 2,64 2,78 14,51* 3,94 6,50 0,98 BA CAT 0,98 1,92 3,25 1,16 3,25 6,32 3,21 2,64 2,20 7,58 4,84 3,03 2,64 1,70 2,49 3,68 12,95 7,43 1,27 0,91 4,01 0,80 10,14 5,16 4,87 0,80 2,42 1,05 1,01 3,07 3,32 5,23 6,28 6,39 16,42** 2,10 4,91 7,15 2,60 3,97 2,64 4,98 6,46 4,33 3,03 3,54 3,03 2,60 CVX 1,56 4,59 1,66 5,52 3,83 5,88 1,95 2,42 1,45 2,67 4,04 3,32 4,48 3,00 2,49 5,02 4,77 1,63 1,63 2,28 4,95 4,73 1,09 3,36 DD 18,58** 8,84 16,92** 7,90 10,32 10,97 13,39* 8,77 3,18 6,32 5,67 13,31 10,93 4,37 2,96 6,32 9,82 3,43 6,57 5,88 6,97 8,77 3,14 7,15 DE 1,27 4,51 6,93 6,75 1,70 3,43 2,10 4,33 5,05 0,76 1,12 1,70 2,24 5,20 1,56 1,88 3,90 1,63 0,76 3,65 5,63 6,79 2,31 7,40 DIS 5,63 8,01 4,30 8,37 12,74 7,47 17,93** 8,81 0,62 2,17 9,20 1,84 1,88 8,26 14,40* 14,90* 1,74 9,53 4,77 3,03 10,46 7,51 1,92 8,01 GE 5,38 2,28 1,88 5,67 3,50 2,35 2,82 1,77 2,10 2,78 6,82 0,94 3,43 1,27 2,20 8,81 9,38 3,03 4,12 4,44 2,17 4,37 1,12 5,81 GT HPQ 7,62 3,90 5,81 4,37 5,52 9,67 1,48 6,53 4,30 10,07 3,54 7,00 7,07 6,17 3,07 12,70 1,01 3,61 2,93 4,30 7,90 2,28 6,75 6,14 6,68 1,70 2,28 3,36 4,22 3,65 5,96 2,67 7,65 8,84 5,13 3,65 1,41 0,91 0,83 2,42 6,93 1,34 5,45 4,33 2,31 3,97 4,69 3,94 IBM JNJ KO 0,58 9,45 11,73 2,42 5,56 4,84 2,60 11,40 5,27 5,31 3,14 0,87 3,54 8,99 0,58 4,66 4,12 5,41 2,02 4,04 0,51 5,27 7,33 2,71 1,88 2,75 4,66 5,05 5,88 3,03 2,02 8,59 3,07 1,56 6,79 0,80 4,73 7,00 3,76 3,39 8,59 4,77 2,28 4,30 4,55 4,69 3,21 1,88 1,88 1,37 2,06 1,45 3,29 4,30 3,18 3,21 2,64 2,49 2,06 3,94 4,95 8,34 14,47* 2,20 3,43 2,67 6,39 1,99 7,36 6,57 2,57 1,23 MCD MMM 4,80 3,39 3,18 3,39 3,97 1,34 12,20 2,93 9,09 2,28 8,01 1,16 5,13 2,82 3,76 11,62 2,89 2,75 8,77 2,71 0,11 1,70 3,90 1,81 2,17 2,60 2,46 3,86 12,20 0,58 3,50 3,79 7,65 1,09 2,13 6,24 8,12 4,37 0,47 6,79 6,93 3,61 2,75 2,53 2,71 5,45 2,49 1,34 MRK PFE PG 1,59 10,18 9,09 2,20 4,15 4,30 11,04 10,14 7,29 1,99 2,06 5,92 4,66 2,06 5,56 2,71 3,18 1,37 1,74 4,04 10,00 6,57 7,04 3,29 5,27 4,22 2,13 1,77 1,99 4,80 0,33 4,22 2,06 3,00 1,70 1,84 1,63 7,11 12,99 3,72 5,09 6,61 4,26 1,52 7,11 4,12 4,19 4,59 3,79 3,32 3,97 6,32 1,09 3,65 12,48 4,51 13,82* 2,93 2,71 4,15 3,76 4,91 14,61* 1,23 3,76 3,14 3,68 1,12 16,78** 3,58 2,42 2,46 WFC 3,90 6,82 6,42 11,37 5,85 3,18 1,45 6,39 2,46 5,70 0,62 0,65 1,45 1,59 3,21 1,92 2,82 2,60 1,23 4,62 2,28 2,53 5,67 4,30 WMT 2,42 5,49 4,30 6,82 7,69 3,76 7,33 2,49 5,16 5,49 4,51 4,73 2,85 5,99 7,58 6,03 6,28 5,20 0,22 1,74 5,05 6,86 21,32*** 1,19 XOM 1,99 2,96 3,14 9,09 3,43 8,30 3,79 5,99 2,89 5,74 6,10 8,91 4,80 3,32 1,30 1,16 2,38 10,50 1,27 2,64 3,29 2,17 5,52 2,82 Nota: Se basa en los 24 retornos financieros de Estados Unidos seleccionados. * Rechazo de la hipótesis nula al nivel de significación de 0.10 correspondiente al valor estadístico 13,36. ** Rechazo de la hipótesis nula al nivel de significación de 0,05 correspondiente al valor estadístico 15,51. *** Rechazo de la hipótesis nula al nivel de significación de 0,01 correspondiente al valor estadístico 20,09 20 → Tabla 4. Test de No Causalidad de Granger aplicado a los 24 retornos financieros con datos de 501 meses GSPC NASDAQ AA AXP BA CAT CVX DD DE DIS GE GT HPQ GSPC NASDAQ 0,335 0,206 0,032** 0,895 0,682 0,107 0,121 0,082** 0,418 0,422 0,976 0,591 0,012** 0,012** 0,337 0,448 0,723 0,531 0,600 0,952 0,754 0,576 0,339 0,509 0,337 0,025** AA AXP BA 0,124 0,083* 0,023** 0,127 0,008*** 0,005*** 0,192 0,480 0,015** 0,035** 0,673 0,109 0,817 0,945 0,157 0,638 0,468 0,027** 0,604 0,378 0,904 0,103 0,019 0,047** 0,132 0,506 0,199 0,361 0,662 0,397 0,060* 0,017** 0,115 0,162 0,122 0,049** 0,897 0,594 0,013** IBM JNJ KO MCD MMM MRK PFE PG WFC WMT XOM 0,396 0,999 0,532 0,624 0,909 0,334 0,700 0,947 0,512 0,247 0,040** 0,456 0,092* 0,020** 0,294 0,424 0,102 0,318 0,297 0,697 0,058* 0,503 0,230 0,468 0,186 0,958 0,973 0,505 0,641 0,222 0,221 0,309 0,241 0,552 0,736 0,597 0,669 0,508 0,663 0,247 0,904 0,267 0,287 0,286 CAT 0,649 0,924 0,603 0,833 0,420 0,686 0,259 0,809 0,063 0,425 0,551 0,693 0,425 CVX 0,231 0,175 0,241 0,591 0,142 0,360 0,676 0,173 0,417 0,776 0,667 0,109 0,476 0,016** 0,274 0,654 0,219 0,824 0,924 0,632 0,767 0,034** 0,750 0,069* 0,096* 0,987 0,462 0,848 0,355 0,433 0,769 0,018** 0,548 0,415 0,131 0,509 0,648 0,367 0,395 0,762 0,111 0,144 0,239 0,626 0,626 0,405 DD 0,662 0,296 0,681 0,342 0,567 0,466 0,213 0,529 0,524 0,145 0,777 0,204 0,606 DE 0,463 0,198 0,411 0,786 0,867 0,552 0,648 0,911 0,105 0,339 0,430 0,885 0,899 0,738 0,522 0,247 0,733 0,031** 0,874 0,250 0,610 0,510 0,695 0,316 0,392 0,853 0,832 0,771 0,696 0,940 0,133 0,311 0,835 0,067* 0,092* DIS GE GT HPQ 0,003*** 0,056** 0,435 0,026** 0,000*** 0,005*** 0,722 0,002*** 0,353 0,155 0,386 0,230 0,002*** 0,049** 0,376 0,025** 0,650 0,889 0,027** 0,318 0,251 0,474 0,489 0,128 0,689 0,728 0,171 0,712 0,044** 0,395 0,281 0,015** 0,199 0,422 0,338 0,167 0,739 0,158 0,854 0,028** 0,021** 0,492 0,142 0,092* 0,348 0,081* 0,104 0,080* 0,127 0,198 0,092* 0,507 0,483 0,414 0,327 0,866 0,968 0,745 0,244 0,501 0,250 0,043** 0,759 IBM JNJ KO 0,448 0,402 0,454 0,483 0,152 0,528 0,558 0,099* 0,730 0,951 0,532 0,047** 0,988 0,537 0,673 0,059 0,796 0,498 0,934 0,319 0,596 0,003* 0,808 0,034** 0,237 0,275 0,300 0,565 0,816 0,129 0,793 0,989 0,652 0,141 0,941 0,548 0,914 0,049** 0,730 0,923 0,744 0,885 0,565 0,900 0,431 0,257 0,870 0,419 0,785 0,044** 0,428 0,940 0,944 0,319 0,253 0,106 0,701 0,239 0,673 0,758 0,689 0,376 0,662 0,133 0,955 0,544 0,745 0,673 0,019** 0,411 0,377 0,234 0,953 0,009*** 0,774 0,032** 0,781 0,157 0,043** 0,753 0,548 0,404 0,908 0,503 0,700 0,443 0,139 0,253 0,866 0,159 0,033** 0,746 0,974 0,881 0,370 0,254 0,586 0,504 0,441 0,301 0,292 0,169 0,229 0,245 0,965 MCD 0,534 0,142 0,757 0,189 0,199 0,676 0,489 0,296 0,646 0,475 0,435 0,141 0,646 MMM 0,997 0,562 0,810 0,799 0,706 0,242 0,139 0,404 0,768 0,721 0,503 0,711 0,817 0,096* 0,993 0,742 0,758 0,268 0,173 0,737 0,651 0,851 0,717 0,127 0,362 0,937 0,820 0,493 0,144 0,585 0,423 0,004*** 0,009*** 0,245 0,394 MRK PFE 0,296 0,658 0,496 0,555 0,762 0,363 0,178 0,175 0,569 0,852 0,810 0,500 0,601 0,927 0,145 0,888 0,596 0,072* 0,272 0,901 0,401 0,999 0,701 0,436 0,729 0,384 0,830 0,428 0,311 0,774 0,112 0,967 0,154 0,103 0,107 0,024** 0,623 0,436 0,314 0,870 0,908 0,829 0,181 0,386 0,686 0,416 0,531 0,790 PG WFC WMT 0,955 0,451 0,336 0,311 0,146 0,232 0,612 0,812 0,718 0,050** 0,014** 0,963 0,411 0,684 0,368 0,745 0,330 0,599 0,329 0,991 0,684 0,687 0,496 0,045** 0,884 0,234 0,661 0,688 0,707 0,016** 0,794 0,051* 0,847 0,343 0,043** 0,196 0,033** 0,855 0,365 XOM 0,020** 0,056* 0,206 0,192 0,089* 0,113 0,640 0,034** 0,329 0,120 0,011** 0,266 0,233 0,890 0,203 0,082* 0,996 0,052* 0,986 0,071* 0,910 0,563 0,042** 0,316 0,342 0,110 0,426 0,593 0,930 0,043** 0,870 0,328 0,523 0,244 0,403 0,941 0,468 0,417 0,846 0,233 0,787 0,653 0,754 0,025** 0,011** 0,932 0,697 0,032** 0,138 0,227 0,281 0,880 0,401 0,268 0,449 0,844 0,888 Nota: Se basa en los 24 retornos financieros de Estados Unidos seleccionados. * Rechazo de la hipótesis nula al nivel de significación de 0.10 correspondiente al valor estadístico 13,36. ** Rechazo de la hipótesis nula al nivel de significación de 0,05 correspondiente al valor estadístico 15,51. *** Rechazo de la hipótesis nula al nivel de significación de 0,01 correspondiente al valor estadístico 20,09 21 La Tabla 5 muestra los resultados del test SNC aplicado a los 24 retornos financieros con un tamaño muestral de 2.178 datos semanales. En este caso el test detecta 51 causalidades. En particular, se destaca que el índice S&P 500 causa 8 retornos financieros y la acción WFC es causada por 9 acciones norteamericanas y el índice S&P 500. La Tabla 6 muestra el test de no causalidad de Granger para el mismo conjunto de datos. Se observa que el test sugiere 129 relaciones causales. En particular, MCD causa 13 acciones y a los dos índices bursátiles. Por otro lado, CAT es causado por 12 acciones norteamericanas y los dos índices. Comparando los resultados de las Tablas 5 y 6 se puede señalar que hay algunas causalidades sugeridas por el test SNC pero no detectadas por el test de Granger y viceversa. Por ejemplo, XOM estaría causado por AA según el test SNC pero no hay causalidad cuando se considera el test de Granger. Asimismo HPQ causaría JNJ según el test de Granger, pero no habría causalidad según el test SNC. Anteriormente se mencionó que cuando se trabaja con datos empíricos se corre el riesgo de detector causalidades espurias. Si las series no son estacionarias puede surgir el problema de causalidad espuria, sin embargo este no es el caso ya que los retornos de las acciones norteamericanas son series estacionarias. Otro motivo por el cual puede presentarse la causalidad espuria ha sido señalado por Nalatore et al. (2007). Ellos señalan que cuando los datos están contaminados por ruido puede aparecer causalidad espuria entre dos variables o la verdadera causalidad puede no ser detectada. En este sentido, el análisis de series de tiempo simbólicas elimina el problema del ruido y por tanto se esperaría que este motivo no estuviera presente en el test de no causalidad simbólico. Sin embargo, Nalatore et al. (2007) manifiestan que el ruido puede impactar significativamente en el análisis de causalidad de Granger. 22 → GSPC NASDAQ AA AXP BA CAT CVX DD DE DIS GE GT HPQ IBM JNJ KO MCD MMM MRK PFE PG WFC WMT XOM Tabla 5. Test de No Causalidad Simbólico aplicado a los 24 retornos financieros de 2.178 semanas GSPC NASDAQ AA AXP BA 16,03** 12,36 11,81 16,96** 16,87** 13,98* 9,19 4,23 6,78 3,84 9,31 7,67 0,50 7,82 2,53 9,01 9,40 8,46 12,16 4,69 3,56 3,56 4,33 9,73 10,40 9,21 3,65 2,92 5,62 6,74 14,14* 7,56 2,74 4,58 6,06 10,72 11,96 6,48 8,40 2,29 6,84 5,31 2,93 6,33 0,88 7,74 8,45 4,36 4,65 4,96 17,20** 15,03* 0,73 5,55 0,56 1,50 3,14 4,40 0,53 9,95 10,49 6,27 1,26 7,19 1,75 7,22 5,38 4,22 1,24 2,50 4,72 5,80 2,60 4,62 6,49 13,62* 19,08** 7,34 5,14 7,75 2,20 10,00 7,11 3,43 3,56 6,14 2,74 4,66 2,81 7,16 4,26 9,37 6,09 2,78 5,35 9,44 8,73 6,88 17,87** 3,27 9,19 0,97 16,94** 3,34 3,14 7,82 11,69 8,90 4,67 3,63 8,30 4,30 3,96 5,40 3,96 14,15* 10,08 14,61* 4,38 5,23 CAT 8,39 9,42 5,98 6,72 9,88 10,64 2,78 1,94 0,21 4,60 6,14 3,12 5,27 0,76 8,60 9,92 3,24 3,34 6,84 7,81 5,20 4,86 4,76 10,01 CVX 11,27 7,96 0,39 6,25 1,44 5,17 8,73 0,64 8,53 2,89 6,18 5,16 6,05 7,16 2,98 4,18 5,13 3,13 5,50 5,08 4,99 3,56 1,45 6,32 DD 2,36 4,02 6,79 10,09 3,20 8,09 5,92 5,57 0,72 3,74 0,64 15,04* 3,67 4,94 4,57 2,94 4,88 3,90 10,64 5,76 4,66 4,07 6,86 4,38 DE 1,11 0,39 2,69 5,23 5,23 2,17 5,03 6,39 0,26 5,12 1,32 1,55 3,52 4,23 2,29 1,97 4,20 5,23 5,35 2,96 0,46 5,42 1,04 5,62 DIS GE 21,99*** 16,16** 11,05 7,47 10,73 7,56 12,65 10,37 9,28 1,65 5,77 2,28 15,94** 4,78 11,30 0,64 1,49 5,57 15,55** 3,38 17,01** 9,08 7,23 0,53 5,64 10,56 5,91 5,35 11,52 2,55 14,95* 6,61 5,28 2,27 6,95 0,64 5,40 0,35 0,50 6,81 13,66* 4,03 2,86 6,84 3,68 21,01*** 18,74** 0,73 GT 9,92 5,48 14,04* 3,91 5,28 3,98 5,04 2,90 4,96 1,45 4,78 7,05 1,54 9,90 1,91 2,55 1,60 5,82 0,38 2,50 2,26 7,42 2,92 11,02 HPQ 4,04 9,90 5,97 3,64 5,46 2,15 2,04 5,99 3,60 0,63 7,80 3,08 4,13 9,65 2,02 8,57 2,98 4,04 1,88 3,10 8,18 5,90 7,74 2,36 IBM 8,47 9,58 3,82 4,38 1,70 2,35 4,63 11,40 7,36 0,66 3,27 3,65 11,24 2,68 6,48 10,88 2,45 6,99 1,98 5,45 6,40 5,97 11,36 7,77 JNJ KO MCD 11,63 16,16** 15,35* 8,03 8,49 6,96 5,69 7,39 6,02 1,61 9,71 3,20 1,13 11,23 6,25 9,17 7,79 2,69 9,66 15,47* 2,15 10,94 6,35 12,58 13,17 13,92* 0,87 9,92 3,28 9,03 8,92 4,85 5,42 8,04 7,87 9,99 11,16 3,10 6,13 1,50 5,73 1,94 9,40 2,12 7,36 0,54 5,95 4,77 1,53 3,51 0,32 6,28 13,79* 8,54 3,00 2,62 3,80 3,51 6,19 2,44 5,88 3,76 3,12 3,34 8,14 3,77 1,58 12,20 7,48 11,03 10,46 4,02 MMM MRK PFE PG 8,24 3,63 22,89*** 7,76 9,73 7,51 11,89 6,64 19,76** 8,31 7,99 8,34 11,07 2,51 13,62* 7,22 3,62 2,57 9,01 6,30 5,26 3,01 6,73 12,22 3,50 11,22 14,65* 14,16* 12,05 5,78 9,58 10,71 8,10 3,94 4,88 7,75 11,48 0,09 2,08 3,99 9,68 4,84 4,45 4,45 6,95 3,07 10,42 12,67 5,18 3,29 12,68 4,47 7,61 4,26 10,11 4,34 6,31 10,50 6,81 3,95 17,32** 7,72 11,09 2,43 6,53 2,20 2,25 1,86 14,71* 8,59 10,53 9,20 6,59 3,65 2,21 5,95 6,90 1,07 9,46 2,61 10,57 3,38 18,57** 8,73 4,99 3,17 1,56 6,66 4,80 2,48 18,04** 1,96 2,30 4,99 13,83* 6,71 WFC WMT 14,95* 5,48 2,05 5,17 3,89 9,61 19,35** 1,86 5,45 3,52 19,55** 8,56 6,21 4,71 4,48 9,80 4,74 8,20 6,67 5,55 14,11* 0,88 13,88* 4,05 15,82** 5,51 10,04 2,25 3,86 9,71 13,81* 9,67 5,12 7,59 1,29 2,17 3,40 5,68 18,47** 20,25*** 2,97 6,75 25,71*** 10,55 41,82*** 218,3*** 7,81 10,40 XOM 5,09 1,32 2,15 2,38 3,76 2,87 1,78 4,63 1,71 6,86 2,55 1,21 2,15 2,19 3,33 5,04 1,75 3,46 3,03 0,32 3,35 3,52 3,00 3,65 Nota: Se basa en los 24 retornos financieros de Estados Unidos seleccionados. * Rechazo de la hipótesis nula al nivel de significación de 0.10 correspondiente al valor estadístico 13,36. ** Rechazo de la hipótesis nula al nivel de significación de 0,05 correspondiente al valor estadístico 15,51. *** Rechazo de la hipótesis nula al nivel de significación de 0,01 correspondiente al valor estadístico 20,09 23 → GSPC NASDAQ AA AXP BA CAT CVX DD DE DIS GE GT HPQ IBM JNJ KO MCD MMM MRK PFE PG WFC WMT XOM Tabla 6. Test de No Causalidad de Granger aplicado a los 24 retornos financieros con datos de 2.178 semanas GSPC 0,543 0,326 0,518 0,001*** 0,292 0,810 0,468 0,575 0,933 0,176 0,065* 0,065* 0,168 0,744 0,021** 0,958 0,006*** 0,396 0,450 0,296 0,052* 0,636 0,180 0,165 NASDAQ 0,409 0,845 0,380 0,010*** 0,099* 0,823 0,765 0,490 0,237 0,066* 0,030** 0,392 0,390 0,531 0,024** 0,168 0,034** 0,909 0,611 0,626 0,633 0,514 0,037** 0,247 AA 0,295 0,101 0,737 0,005*** 0,978 0,207 0,141 0,609 0,111 0,044** 0,070* 0,002*** 0,009*** 0,232 0,624 0,924 0,312 0,819 0,325 0,844 0,592 0,748 0,087 0,117 AXP 0,716 0,089* 0,544 0,678 0,047** 0,273 0,209 0,410 0,968 0,278 0,149 0,128 0,212 0,683 0,015** 0,984 0,008*** 0,269 0,791 0,350 0,221 0,875 0,584 0,476 BA 0,691 0,838 0,725 0,497 0,354 0,636 0,674 0,854 0,602 0,712 0,894 0,249 0,533 0,849 0,961 0,649 0,246 0,200 0,294 0,852 0,317 0,961 0,104 0,831 CAT 0,003*** 0,036** 0,020** 0,000*** 0,147 0,659 0,191 0,031** 0,012** 0,090* 0,263 0,011** 0,004*** 0,071* 0,044** 0,419 0,001*** 0,020** 0,541 0,368 0,320 0,102 0,012** 0,943 CVX 0,354 0,199 0,609 0,004*** 0,689 0,506 0,854 0,088* 0,224 0,113 0,227 0,281 0,001*** 0,352 0,251 0,571 0,006*** 0,678 0,532 0,226 0,676 0,580 0,891 0,777 DD 0,674 0,887 0,126 0,000*** 0,629 0,219 0,369 0,367 0,077* 0,781 0,402 0,003*** 0,164 0,504 0,034** 0,889 0,000*** 0,501 0,435 0,164 0,090* 0,103 0,499 0,504 DE 0,415 0,237 0,453 0,019** 0,189 0,530 0,371 0,389 0,314 0,882 0,604 0,514 0,071 0,600 0,893 0,294 0,230 0,169 0,250 0,769 0,790 0,756 0,293 0,239 DIS 0,248 0,115 0,827 0,000*** 0,026** 0,456 0,059* 0,016** 0,720 0,673 0,027** 0,194 0,422 0,837 0,283 0,017** 0,000*** 0,107 0,560 0,230 0,838 0,095* 0,001*** 0,531 GE 0,162 0,098* 0,699 0,002*** 0,109 0,150 0,753 0,297 0,588 0,063* 0,343 0,062 0,136 0,390 0,129 0,308 0,020 0,974 0,134 0,191 0,693 0,313 0,029** 0,633 GT 0,827 0,973 0,906 0,315 0,358 0,308 0,523 0,134 0,820 0,309 0,521 0,305 0,192 0,789 0,495 0,541 0,016** 0,536 0,803 0,672 0,433 0,813 0,963 0,366 HPQ 0,254 0,068* 0,242 0,619 0,529 0,764 0,929 0,812 0,464 0,168 0,350 0,235 0,983 0,684 0,229 0,212 0,025** 0,750 0,863 0,662 0,819 0,294 0,600 0,918 IBM 0,883 0,766 0,832 0,252 0,969 0,758 0,874 0,877 0,526 0,977 0,693 0,339 0,711 0,851 0,301 0,992 0,239 0,590 0,483 0,256 0,337 0,879 0,850 0,865 JNJ 0,001*** 0,002*** 0,000*** 0,945 0,819 0,159 0,131 0,011** 0,199 0,456 0,232 0,138 0,006*** 0,306 0,471 0,653 0,089* 0,060* 0,839 0,249 0,006*** 0,493 0,686 0,069* KO 0,233 0,242 0,438 0,047** 0,842 0,255 0,440 0,141 0,670 0,100 0,281 0,583 0,718 0,108 0,013** 0,139 0,001*** 0,265 0,259 0,082* 0,847 0,840 0,255 0,967 MCD 0,623 0,827 0,761 0,060* 0,153 0,983 0,875 0,640 0,365 0,047** 0,106 0,183 0,870 0,310 0,108 0,059* 0,335 0,361 0,649 0,235 0,973 0,326 0,000*** 0,775 MMM 0,223 0,674 0,031** 0,002*** 0,016** 0,201 0,694 0,171 0,028** 0,421 0,779 0,041** 0,055* 0,002*** 0,000*** 0,152 0,100* 0,889 0,447 0,006*** 0,769 0,567 0,017** 0,948 MRK 0,013** 0,043** 0,000*** 0,884 0,904 0,021** 0,012** 0,011** 0,386 0,528 0,217 0,555 0,147 0,990 0,085* 0,920 0,133 0,813 0,215 0,379 0,480 0,041** 0,295 0,092* PFE 0,386 0,454 0,026** 0,310 0,099* 0,031** 0,027** 0,169 0,660 0,737 0,638 0,935 0,884 0,395 0,007*** 0,473 0,047** 0,848 0,245 0,946 0,570 0,897 0,955 0,017** PG 0,138 0,044** 0,132 0,571 0,841 0,089* 0,230 0,233 0,998 0,753 0,768 0,965 0,194 0,845 0,097* 0,228 0,011** 0,917 0,026** 0,109 0,903 0,916 0,288 0,319 WFC 0,365 0,733 0,910 0,001* 0,237 0,045* 0,638 0,022* 0,389 0,064* 0,113 0,024** 0,577 0,773 0,028** 0,036** 0,015** 0,104 0,023** 0,006*** 0,643 0,856 0,015** 0,627 WMT 0,808 0,936 0,971 0,858 0,395 0,177 0,673 0,603 0,985 0,132 0,865 0,323 0,811 0,623 0,089* 0,299 0,167 0,883 0,392 0,527 0,478 0,254 0,940 0,128 Nota: Se basa en los 24 retornos financieros de Estados Unidos seleccionados. * Rechazo de la hipótesis nula al nivel de significación de 0.10 correspondiente al valor estadístico 13,36. ** Rechazo de la hipótesis nula al nivel de significación de 0,05 correspondiente al valor estadístico 15,51. *** Rechazo de la hipótesis nula al nivel de significación de 0,01 correspondiente al valor estadístico 20,09 24 XOM 0,552 0,329 0,459 0,060* 0,981 0,090* 0,004* 0,295 0,038** 0,996 0,453 0,102 0,011** 0,133 0,617 0,201 0,475 0,604 0,874 0,242 0,251 0,350 0,972 0,890 6. Conclusiones La causalidad sigue siendo un tema de discusión a nivel filosófico, sin embargo su aplicación práctica en los diferentes campos de la ciencia sigue vigente. En particular, se ha tomado una de las características de la causalidad que en palabras de Granger sería aquella de mayor aplicación práctica. En efecto, se tendería a pensar que de existir la causalidad se debería ver una predeterminación temporal, en el sentido que la causa debería preceder en el tiempo al efecto. Dentro de las pruebas de causalidad más aplicadas se encuentra el test de no causalidad de Granger que puede encontrarse en los actuales paquetes econométricos y que es ampliamente aplicado en investigaciones empíricas. Sin embargo, este test podría tener una serie de problemas. En primer lugar, al ser un test pensado bajo el modelo lineal VAR presenta un muy buen desempeño detectando este tipo de relaciones causales pero presenta inconvenientes a la hora de detectar relaciones no lineales. En segundo lugar, a pesar de que se han realizado avances tratando de generalizar el test de Granger a modelos no lineales, estas pruebas siguen dependiendo de la forma de los modelos subyacentes corriendo el riesgo de no poder detectar todas las formas de no lineal existentes. Finalmente, algunos autores señalan que cuando se trabaja con series temporales observadas empíricamente, estas suelen estar contaminadas de ruido el cual termina o generando causalidades espurias o no permitiendo detectar aquellas relaciones causales verdaderas. En el presente trabajo se planteó una primera aproximación a un test de no causalidad no paramétrico que se basa en el análisis de series de tiempo simbólicas. La idea es la de desarrollar un test que pueda ser complementario al de Granger, mostrando fortalezas en los puntos en los que el de Granger es débil. De esta manera se trató de ver que el test propuesto presente un buen desempeño en la detección de procesos no lineales, en especial aquellos caóticos y se espera que el basarse en el análisis simbólico se supere el problema de relaciones espurias debido a la contaminación de las series por el ruido. 25 En los experimentos realizados, se observó que el test propuesto tiene un buen desempeño detectando procesos no lineales y caóticos como en el caso de un modelo no lineal con un componente exponencial, el modelo NLAR y el mapa caótico de Lorenz. Estos modelos parecerían no ser detectados por el test de Granger. El ejercicio de aplicación de ambas pruebas a series empíricas del mercado financiero norteamericano muestra que muchas veces una relación detectada por una de las pruebas no es detectada por la otra. Si bien aquí no se profundiza en las verdaderas causas de estas diferencias, se pueden mencionar algunas que podrían estar detrás. Por ejemplo, un mismo ruido podría afectar a varias series provocando relaciones espurias o podrían existir relaciones de causalidad no lineales que no fueran detectados por el test de Granger pero que sí son detectadas por el test SNC. Por estos motivos, es sugerencia el de aplicar ambas pruebas en forma complementaria. Como se presentó en Risso (2014), el análisis de series de tiempo simbólicas presenta un gran potencial que debería ser desarrollado para generar herramientas útiles en el análisis econométrico. Como trabajo a profundizar están el de mejorar esta prueba tratando de mejorar su potencial y por otro lado, está el de encontrar nuevas aplicaciones prácticas al análisis simbólico. Referencias Arnhold, J., Grassberger, P., Lehnertz, K., Elger, C., (1999), “A robust method for detecting interdependences: Application to intracranially recorded EEG”, Physica D, Vol. 134, pp. 419-430. Baek, E., Brock, W., (1992), “A General Test for Non-linear Granger Causality: Bivariate Model”, Working paper, Ames: Iowa State University and Madison: University of Wisconsin. 26 Diks, C., Panchenko, V., (2005), “A Note on the Hiemstra-Jones test for Granger noncausality”, Studies in Nonlinear Dynamics and Econometrics, Vol. 9 (2), Article 4. Diks, C., Panchenko, V., (2006), “A new statistic and practical guidelines for nonparametric Granger causality testing”, Journal of Economic Dynamics & Control, Vol. 30, pp. 1647-1669. Feldmann, U., Bhattacharya, J., (2004), “Predictability improvement as an asymmetrical measure of interdependence in bivariate time series”, International Journal of Bifurcation & Chaos, Vol. 14, pp. 505-514. Finney, C., Green, J., Daw, C., (1998), “Symbolic time-series analysis of engine combustion measurements”, SAE Paper No. 980624 Granger, C., (1969), “Investigating Causal Relations by Econometrics Models and Cross-spectral Methods”, Econometrica, Vol. 37 (3), pp. 424-438. Granger, C., (2003), “Time Series Analysis, cointegration and applications”, Nobel Lecture, December 8, 2003, in Les Prix Nobel 2003, ed. Tore Frangsmyr, pp. 360-366. Hiemstra, C., Jones, J., (1994), “Testing for Linear and Nonlinear Granger Causality in the Stock Price-Volume Relation”, The Journal of Finance, Vol. 59 (5), pp. 16391664. Hristu, D., Kyrtsou, C., (2010), “Testing for Granger Causality in the Presence of Chaotic Dynamics”, Brussels Economic Review, Vol. 53 (2), pp. 323-327. Kyrtsou, C., Labys, W., (2006), “Evidence for Chaotic Dependence between US Inflation and Commodity Prices”, Journal of Macroeconomics, Vol. 28 (1), pp. 256266. 27 Kyrtsou, C., Labys, W., (2007), “Detecting Positive Feedback in Multivariate Time Series: The Case of Metal Price and US inflation”, Physica A, Vol. 377 (1), pp. 227229. Lungarella, M., Ishiguro, K., Kuniyoshi, Y., Otsu, N., (2007), “Methods for quantifying the causal structure of bivariate time series”, International journal of bifurcation and chaos, Vol. 17 (3), pp. 903-921. Mathai, A., Provost, S., (1992), Quadratic Forms in Random Variables: Theory and Applications, Marcel Dekker, Inc. Nalatore, H., Ding. M.,Rangarajan, G., (2007), “Mitigating the effects of measurement noise on Granger causality”, Physical Review E, Vol. 75, 031123. Oman, S., Zacks, S., (1981), “A Mixture Approximation to the Distribution of Weighted Sum of Chi-Squared Variables”, Journal of Statistical Computation and Simulation, Vol. 13, pp. 215-224. Patnaik, P., (1949), “The Non-Central Chi-Square and F-distributions and their applications”, Biometrika, Vol. 36, pp. 128-131. Pearl, J., (2009), Causality: Models, Reasoning, and Inference, Cambridge MIT press, second edition. Pearson, E., (1959), “Note on an Approximation to the Distribution of Noncentral χ2”, Biometrika, Vol. 46, p. 364. Piccardi, C., (2004), “On the Control of Chaotic Systems via Symbolic Time Series Analysis”, Chaos, Vol. 14, No. 4, pp. 1026-1034 28 Risso, W., (2014), “An Independence Test Based on Symbolic Time Series”, International Journal of Statistical Mechanics, Article ID 809383, 14 pages. Russel, B., (1913), “On the notion of cause”, Proceedings of the Aristotelian Society, New Series, Vol. 13, pp. 1-26. Hlaváčková-Schindler, K., Paluš, M., Vejmelka, M., & Bhattacharya, J. (2007), “Causality detection based on information-theoretic approaches in time series analysis”, Physics Reports, Vol. 441(1), pp. 1-46. Schreiber, T., (2000), “Measuring information transfer”, Physical review letters, Vol. 85, pp. 461-464. Siddiqui, M., (1965), “Approximations to the Distribution of Quadratic Forms”, The Annals of Mathematical Statistics, Vol. 26, pp. 677-682. Smirnov, D., (2013), “Spurious Causalities with Transfer Entropy”, Physical Review E, Vol. 87 (4), 042917 Sims, C., (1972), “Money, Income, and Causality”, The American Economic Review, Vol. 62 (4), pp. 540-552. Solomon, H., Stephens, M., (1978), “Approximation to Density Functions using Pearson Curves”, Journal of the American Statistical Association, Vol. 73, pp. 153-160. Stork, M., Hrusak, J., Mayer, D., (2009) "Discrete-time chaotic systems impulsive synchronization and data transmission." Proc. 13th WSEAS int. conf. System. 2009. Wiener, N., (1956), The theory of prediction, in: Modern Mathematics for Engineers, ed. E.F. Beckenbach,McGraw-Hill, New York, US. 29 Williams, S., (2004), “Symbolic Dynamics and its Applications”, Proceeding of Symposia in Applied Mathematics, Vol. 60, 150 pp. 30