Elementi di Econometria Riccardo (Jack) Lucchetti 2 ottobre 2014 2 Premessa (per chi è già del mestiere) Questo non è un vero libro di econometria. È un libro per bambini. Ma è anche un esercizio di acrobazia. Se ci fate caso, questa dispensa non contiene le parole “stimatore”, “test”, né alcun altro concetto di tipo probabilistico-inferenziale. Ciò di cui parleremo sono solo ed esclusivamente statistiche descrittive, che hanno la proprietà di fornire una sintesi (ottimale da un certo punto di vista) dei dati. Il problema, tipicamente inferenziale, di usare i dati per parlare del mondo qui non ci sfiora. Qui affronteremo soltanto il problema di usare i dati per parlare dei dati, evitando accuratamente le perigliose acque del Mare dell’Induzione. La scelta ha vari motivi, ma è soprattutto una scelta didattica. Gli studenti a cui è rivolta questa dispensa sono persone che spesso dichiarano di non essere a loro agio con gli strumenti dell’inferenza statistica: hanno imparato le proprietà degli stimatori a memoria, non sono sicuri di saper leggere un test, non hanno ben chiaro cosa sia la distribuzione di una statistica (figurarsi quella asintotica), fanno confusione fra lo stimatore di una varianza e la varianza di uno stimatore. E questo, quando va bene. E allora, lasciamo stare; non importa. C’è tanto che si può dire sull’attrezzo base dell’econometria (l’OLS) anche senza tutto questo, e che fa bene sapere. Una volta che lo studente abbia imparato a maneggiare con sicurezza l’OLS come puro strumento computazionale, si potrà affrontare il problema del suo uso e della sua interpretazione come stimatore e dell’uso delle statistiche test da esso derivate. Il neofita tende a far confusione fra proprietà dei minimi quadrati che sono vere per costruzione e proprietà che discendono da qualche assunzione probabilistica. Queste ultime, in questa dispensa, non ci sono. In un certo senso, è come una dispensa di geometria assoluta. Forse si sarebbe potuto chiamare Econometria assoluta, ma suppongo che sarebbe sembrata la mia ennesima dimostrazione di sciocca presunzione. Mi sono baloccato per un po’ con l’idea di intitolarla Econometria improbabile, ma pensandoci bene anche quello sarebbe stato vacuo ed esibizionista. Tenterò, in questo breve testo, di spiegare come si legge una regressione senza cadere nell’automatismo dello statistico di professione, che è istintivamente portato a vedere gli OLS come uno stimatore di parametri incogniti di una distribuzione condizionata. Certo, l’OLS si può usare come stimatore, ma ha una sua ragion d’essere ed una sua dignità anche come semplice, umile, modesta statistica descrittiva. Anzi, chi legge gli OLS come stimatori (cioè noi tutti) è spesso portato a dimenticarsi che quello che stiamo stimando non è mai il modello “giusto”, qualsiasi cosa questo voglia dire. Un automatismo simile ce l’ha l’economista di professione, che è tentato di vedere nei risultati di una regressione la quantificazione dei parametri di un suo modello teorico. Da qui, il gioco delle parti che si fa regolarmente fra economisti in cui ci si accapiglia per finta sull’esogeneità dei regressori. Di nuovo: gli OLS possono essere usati per stimare parametri comportamentali, sotto certe parti3 colari condizioni. Ma non è che debbano essere buttati via, se queste condizioni non ricorrono. Credo che sia molto salutare saper leggere una regressione usando un set minimale di assunzioni, probabilistiche o di teoria economica. Lo studente volonteroso queste le può studiare in seguito; l’economista applicato forse si risparmierebbe qualcuna delle ingenuità che a volte gli escono dalla bocca (ma gli si vuol bene per questo, in fondo). Non vorrei che la scelta di non parlare di probabilità venisse fraintesa: è una scelta didattica sperimentale, che magari tra qualche anno abbandonerò, ma prima voglio vedere cosa succede. Di sicuro la scelta non deriva da un atteggiamento snobistico tipo quello di certi statistici francesi che fanno i brillanti parlando male dell’inferenza. Anzi, uno degli scopi di questa dispensa è proprio quello di far venire al lettore la voglia di studiare statistica inferenziale. Un’altra cosa su cui vorrei evitare equivoci: non mi astengo dal parlare di probabilità perché penso che il lettore sia troppo scemo per capirla. E infatti, nonostante che questa dispensa sia nata col nome “il libro per bambini”, non farò alcuno sforzo per semplificare i problemi se non nei casi in cui spiegazioni rigorose implicherebbero digressioni impraticabili. Mi impegno formalmente a non trattare il lettore in modo paternalistico. Certo, banalizzerò, semplificherò, a volte anche in modo irritante per chi le cose le sa già. Ma se uno non fa così, non deve fare didattica. Si accontenti di fare ricerca e basta. Peraltro, i prerequisiti per leggere fruttuosamente questa dispensa sono pochi: un minimo di analisi reale, i concetti di vettore e matrice con associate operazioni elementari (somma, prodotto, trasposizione, inversione) e una qualche familiarità con la statistica descrittiva: media, varianza, frequenza eccetera. Un’ultima cosa: questa dispensa è rilasciata sotto la licenza Creative Commons BY-SA 3.0. Questo significa che tu, lettore, sei libero • di riprodurre, distribuire, comunicare al pubblico, esporre in pubblico, rappresentare, eseguire e recitare quest’opera; • di modificare quest’opera; • di usare quest’opera per fini commerciali; alle seguenti condizioni: Attribuzione Devi attribuire la paternità dell’opera nei modi indicati dall’autore o da chi ti ha dato l’opera in licenza e in modo tale da non suggerire che essi avallino te o il modo in cui tu usi l’opera. Condividi allo stesso modo Se alteri o trasformi quest’opera, o se la usi per crearne un’altra, puoi distribuire l’opera risultante solo con una licenza identica o equivalente a questa. La licenza vera e propria è in fondo al testo. 4 Indice Premessa (per chi è già del mestiere) . . . . . . . . . . . . . . . . . . . . . . 1 La teoria 1.1 La media aritmetica . . . . . . . . . . . . . . . . . . . . 1.2 Gli OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 La regressione su una dummy . . . . . . . . . . 1.2.2 Il caso generale . . . . . . . . . . . . . . . . . . . 1.2.3 Il problema geometrico . . . . . . . . . . . . . . 1.2.4 Le matrici di proiezione . . . . . . . . . . . . . . 1.2.5 Misure di bontà del modello . . . . . . . . . . . 1.3 La scelta dei regressori . . . . . . . . . . . . . . . . . . . 1.3.1 Un altro paio di cose sulle matrici di proiezione 1.3.2 Un risultato sconfortante (in apparenza) . . . . 1.3.3 Modelli e vincoli . . . . . . . . . . . . . . . . . . 1.3.4 I minimi quadrati vincolati . . . . . . . . . . . . 1.4 Misure di perdita di fit . . . . . . . . . . . . . . . . . . . 1.4.1 Un interessante caso particolare . . . . . . . . . 1.5 Come si legge l’output . . . . . . . . . . . . . . . . . . . 1.5.1 La lettura dei coefficienti . . . . . . . . . . . . . 1.5.2 Il resto dell’output . . . . . . . . . . . . . . . . . 1.5.3 Il teorema di Frisch-Waugh . . . . . . . . . . . . 1.5.4 L’effetto leva . . . . . . . . . . . . . . . . . . . . . 1.6 La regressione dinamica . . . . . . . . . . . . . . . . . . 1.6.1 L’operatore ritardo . . . . . . . . . . . . . . . . . 1.6.2 Equazioni alle differenze . . . . . . . . . . . . . 1.6.3 La rappresentazione ECM . . . . . . . . . . . . . 1.7 E adesso? . . . . . . . . . . . . . . . . . . . . . . . . . . . A La Licenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7 7 10 10 14 17 21 24 25 26 27 28 31 34 36 37 39 41 42 45 48 50 54 57 62 64 5 6 Capitolo 1 La teoria 1.1 La media aritmetica Cos’è una statistica descrittiva? È una funzione dei dati che fornisce una sintesi su un particolare aspetto dei dati che a noi interessa; naturalmente, è auspicabile che questa sintesi sia quanto più informativa possibile. L’idea che motiva l’uso delle statistiche descrittive è grosso modo questa: vogliamo studiare un fenomeno ed abbiamo dei dati; questi dati, però, sono “tanti”, e non abbiamo tempo/voglia/modo di guardarli tutti. Cerchiamo allora una funzione di questi dati che, una volta calcolata, ci dica quel che vogliamo sapere, senza appesantirci con dettagli non necessari. L’esempio più ovvio di statistica descrittiva è la media aritmetica, che ogni studente sa calcolare, se non altro per l’attenzione maniacale che riserva al proprio libretto. Dato un vettore colonna y di dimensione n, la media aritmetica non è che n 1X 1 Ȳ = y i = ι0 y (1.1) n i =1 n La notazione con la sommatoria sarà probabilmente più familiare alla maggior parte dei lettori; io, però, preferisco la seconda per la sua maggiore concisione e perché, come vedremo, si presta meglio ad essere generalizzata. Per convenzione, indichiamo con ι un vettore colonna i cui elementi sono tutti pari a 1. Un vettore così fatto si chiama anche vettore somma, perché il suo prodotto interno con un altro vettore x resituisce la somma degli elementi di x. Vediamo come possiamo motivare l’uso della media aritmetica. Come ho già detto, noi vorremmo poter usare una statistica descrittiva, che provvisoriamente chiamerò m, come sintesi dell’informazione contenuta nell’intero campione. Un’idea interessante l’ha data nel 1929 Oscar Chisini, che ha proposto questa definizione: data una funzione di interesse g (·), la media del vettore y è quel numero m che rappresenta l’unica soluzione di g (y) = g (m · ι). L’idea è potente: per esempio, la media aritmetica emerge come caso particolare se la funzione g (·) è la somma e altri casi notevoli ve li trovate da soli. 7 L’idea di Chisini può essere ulteriormente raffinata: se ci mettiamo nell’ottica di usare m — che, a questo stadio del ragionamento, non è necessariamente la media aritmetica — come descrizione imperfetta ma parsimoniosa del campione completo, è naturale chiedersi quanta e quale sia l’informazione che perdiamo. Vediamo: se di un campione conoscessimo solo m, cosa potremmo dire su ogni singolo elemento del campione? In assenza di altre informazioni, la cosa più sensata che possiamo dire è che, per un i generico, y i sarà “più o meno” uguale a m. Se dello studente Pinco Pallino sappiamo solo che ha la media O SCAR C HISINI del 23, alla domanda “Quanto ha preso P.P. in Storia Economica?”, risponderemmo “Boh? Avrà preso ventitré”. Se poi venisse fuori che P.P. ha effettivamente preso 23, tutto bene. Se invece ha preso 30, l’abbiamo sottovalutato, e possiamo misurare la discrepanza in 7 punti. Nella situazione ideale, in cui l’uso di m come sintesi dei dati non provoca perdita di informazione, la discrepanza è 0 per ogni elemento del campione (Pinco Pallino ha un libretto di tutti 23). Nella situazione non ideale, si può pensare di misurare la bontà di m tramite la dimensione degli errori, che in gergo si chiamano residui. Il vettore dei residui, naturalmente, è definito come e = y − ι · m. Definiamo pertanto una funzione, che chiamiamo funzione di perdita, che dipende dai residui e misura il costo che noi sosteniamo in seguito alla perdita di informazione. C (m) = P [e(m)] In linea di principio, non ci sono molte cose che si possono dare per scontate sulla forma di questa funzione. Una cosa che si può dire è che P (0) = 0: se i residui sono tutti zero, non ci sono errori di approssimazione e il costo che si sostiene è zero. Un’altra idea ragionevole è che P (e) ≥ 0: non si può guadagnare da un errore.1 Per il resto, c’è poco che si può dire in generale: non è detto che la funzione C (·) abbia particolari caratteristiche di concavità, né di simmetria. Dipende dal problema. Come che sia fatta questa funzione, comunque, sarà bene scegliere m in modo da rendere C (m) più piccolo possibile. Detto più in matematichese: per un dato problema, specifichiamo la funzione di perdita e utilizziamo, come indicatore di sintesi, quella statistica che ha la proprietà di renderla minima. In formule: m̂ = Argmin C (m) = Argmin P (y − ι · m) m∈R m∈R In pratica, trovando il minimo della funzione C (·) per un dato problema, abbiamo la garanzia di aver usato al meglio i nostri dati. Bene. E adesso? Eh, adesso 1 Attenzione, però. Non è detto che valga il converso. Il costo può essere 0 anche presenza di un errore non-zero: in certi contesti, possiamo considerare errori “piccoli” come irrilevanti. 8 comincia il bello, perché la prima cosa che viene in mente ad una persona ragionevole è “Ma come faccio a specificare la funzione C (·)? Cioè, chi me lo dice come è fatta? Che faccio, vado su Google e digito ‘funzione di perdita’? Mi consiglio col guru, col prete, con lo psicanalista?”. Infatti, a parte casi straordinari in cui la funzione di perdita viene suggerita naturalmente dal problema stesso, formalizzare la forma della funzione può essere un affare complicato. Com’è fatta la funzione di perdita per il libretto di Pinco Pallino? Per di più, spesso abbiamo la necessità di calcolare un indicatore di sintesi senza sapere in anticipo a cosa ci servirà. È ovvio che in questi casi trovare m̂ non è difficile, bensì impossibile. Dobbiamo accontentarci di una cosa che non sia troppo sbagliata. Una possibilità allettante è quella di definire n X C (m) = (y i − m)2 = e0 e (1.2) i =1 Questo criterio è una funzione di m basato sulla somma dei quadrati dei residui: oltre ad essere semplice da manipolare, è una funzione simmetrica e convessa, così da valutare equanimemente residui in difetto e in eccesso e da penalizzare di più errori più grandi in valore assoluto. Oltretutto, una funzione così, rispetto alle possibili alternative simmetriche e globalmente convesse, offre il non trascurabile vantaggio (come vedremo fra breve) di far sì che la soluzione del problema sia molto facile da calcolare. Non è irragionevole pensare che, in molti casi pratici, una funzione di perdita così sia un compromesso accettabile. Parliamo, in questo caso, di criterio dei minimi quadrati. Per trovare il minimo della (1.2) rispetto a m non facciamo altro che derivare C rispetto a m; ¡ ¢ n d y −m 2 n ¡ X X ¢ dC i C (m) = yi − m = = −2 dm i =1 dm t =1 0 Nel punto di minimo la derivata dev’essere 0, così che n ¡ X ¢ yi − m = 0 i =1 che a sua volta implica n X nm = yi t =1 e quindi m = Ȳ . In notazione matriciale si faceva ancora prima: C (m) = (y − ιm)0 (y − ιm) la derivata è C 0 (m) = −2ι0 (y − ιm) = 0 da cui m = (ι0 ι)−1 ι0 y = Ȳ 9 Il lettore è invitato a controllare che ι0 ι = n. Il valore della funzione C nel punto P di minimo, ovvero e0 e = ni=1 (y i − Ȳ )2 è una quantità che in questo caso particolare si chiama devianza, ma che conviene abituarsi (per motivi che saranno chiari più avanti) ad indicare con la sigla SSR, dall’inglese Sum of Squared Residuals. L’argomento che porta a scegliere la media aritmetica come indicatore di sintesi che ho appena sviluppato è, in realtà, molto più generale di quanto non appaia a prima vista: infatti, quasi tutte le statistiche descrittive che usiamo sono casi particolari della media aritmetica, che può essere usata per descrivere molte caratteristiche di y: basta prenderne trasformazioni appropriate. In pratica: la media aritmetica di z, dove z i = f (y i ) e la funzione f (·) è scelta con intelligenza, ci racconta un sacco di cose. L’esempio più banale è la varianza: essa, infatti non è altro che la media aritmetica di una variabile z i = (y i − Ȳ )2 , che ovviamente misura quanto y i è diverso da Ȳ ; come si sa, la varianza è un indicatore di dispersione. Più interessante il caso in cui esprimiamo una frequenza relativa come media aritmetica: definiamo l’evento y i ∈ A, dove A è un qualche sottoinsieme dei valori possibili per y i ; definiamo ora la variabile z i = I(y i ∈ A), dove I(·) è la cosiddetta “funzione indicatrice”, che vale 1 quando il suo argomento è vero e 0 quando è falso. Evidentemente, Z̄ è la frequenza relativa dell’evento A. Altri esempi inventateli voi. 1.2 Gli OLS 1.2.1 La regressione su una dummy Se ci limitiamo a descrivere il mondo per mezzo di una sola variabile, facciamo poca strada. Ovviamente, questo apre il problema di avere un sistema per dire delle cose sensate sulle relazioni fra variabili. Un possibile approccio è: chiediamoci se y i è “grande” o “piccolo” quando x i è “grande” o “piccolo”. Definiamo z i = (y i − Ȳ )(x i − X̄ ) che in pratica è una specie di indicatore della concordanza fra i segni. Vale a dire, z i > 0 quando y i > Ȳ e x i > X̄ oppure quando y i < Ȳ e x i < X̄ . Come è noto, Z̄ si chiama covarianza, e la covarianza può essere normalizzata per la media geometrica delle varianze ottenendo così il cosiddetto coefficiente di correlazione; ma questa è roba da statistica elementare è non è il caso di rivangarla qui. Il problema con la covarianza/correlazione è che è un concetto simmetrico. Vale a dire, le variabili y i e x i sono trattate allo stesso modo: la covarianza fra y i e x i è, per costruzione, la stessa che c’è fra x i e y i . Invece, spesso a noi piace di più ragionare in termini di y i = m(x i ) perché abbiamo in mente una lettura 10 del mondo in cui y i “dipende” da x i , e non il contrario.2 È per questo che la y i viene detta variabile dipendente e la x i variabile esplicativa. In questo contesto, un’idea che sorge piuttosto naturale è quella di esaminare cosa succede suddividendo il vettore y in diversi sottovettori, ad ognuno dei quali corrisponde un diverso valore di x i . In un contesto probabilistico, questo si chiamerebbe condizionamento. Un esempio semplice: supponiamo che il nostro vettore y includa n osservazioni, di cui n u riguardano maschi e n d = n − n u riguardano le femmine. Diciamo che questa informazione è inclusa in una variabile x i , che vale 1 se l’individuo è maschio e 0 se è femmina. Come si sa, una variabile 0/1 si dice binaria, dicotomica, o più comunemente variabile dummy. Il buonsenso ci dice che, se diamo per nota la distribuzione per genere, la media aritmetica per genere ci fornirà una descrizione dei dati che sarà lievemente meno sintetica della semplice media aritmetica (perché usa due numeri anziché uno), ma sicuramente non meno accurata. Evidentemente, possiamo definire P P Su Sd x i =1 y i x i =0 y i Ȳu = = = Ȳd = nu nu nd nd dove, cioè, S u è la somma delle y i per i maschi e S d è la somma delle y i per le femmine. Il ragionamento, però, diventa più eccitante se formalizziamo il problema in modo analogo a quanto abbiamo fatto prima con la media aritmetica. In altre parole, vediamo se possiamo usare al meglio l’informazione (che supponiamo di avere) se l’individuo i -esimo è maschio o femmina. Quindi, anziché adoperare un numero per sintetizzare i dati, vogliamo usare una funzione, ossia una cosa del tipo m(x i ) = m u · x i + m d · (1 − x i ) che ovviamente vale m u per gli uomini (perché x i = 1) e m d per le donne (perché x i = 0). La nostra sintesi deve essere una regola che ci dia un valore ‘emblematico’ di y i in funzione di x i . In un contesto probabilistico, un oggetto simile si chiama funzione di regressione; qui non siamo in un contesto probabilistico, ma usiamo il termine lo stesso. Parallelamente, la variabile esplicativa viene anche detta regressore. A questo punto, riprendiamo la definizione del residuo come errore di approssimazione: chiaramente, in questo caso, si ha che e i ≡ y i − m(x i ), da cui si ricava y i = m u x i + m d (1 − x i ) + e i (1.3) 2 Qui sono deliberatamente vago: dire che A dipende da B può voler dire, nel linguaggio corrente, molte cose, non tutte coerenti fra loro. Per esempio, non è detto che la “dipendenza” implichi un rapporto di causa-effetto. Il problema è molto meno banale di quel che non appaia a prima vista, e lo lasciamo agli epistemologi professionisti; noi, qui, stiamo sul sicuro tenendoci sul generico. 11 L’equazione (1.3) è importante perché è un semplice esempio di ciò che in econometria chiamiamo un modello. Il numero y i viene scisso in due componenti additive, di cui la prima è la cosiddetta parte sistematica, che dipende dalla variabile x i (per essere precisi, è una funzione lineare di x i ), e l’altra è un di più che contiene la parte non riconducibile ad una specifica regolarità. In questa dispensa, useremo la seguente notazione y i ' m(x i ), per indicare che il nostro modello consiste di una funzione che deve approssimare meglio che si può il valore della variabile y per tutte le i . Nell’econometria “vera” e i = y i − m(x i ) è un oggetto su cui vengono fatte varie ipotesi di tipo probabilistico che qui però, come promesso, ignoriamo. In questo esempio, m(x i ) = m u x i + m d (1 − x i ). Farà comodo riscrivere la (1.3) come · ¸ £ ¤ md y i = m d + (m u − m d )x i + e i = 1 x i + ei mu − md perché ciò ci permetterà di usare la notazione matriciale, che è decisamente più compatta ed elegante y = Xβ + e, (1.4) dove β= · md mu − md ¸ · = β1 β2 ¸ e X è una matrice di n righe e 2 colonne, in cui la i -esima riga è [1, 1] se il corrispondente individuo è di sesso maschile e [1, 0] altrimenti. In questo modo, il problema di scegliere in modo ottimale m u e m d è ricondotto al problema di trovare quel vettore β che minimizza la funzione di perdita e0 e. La soluzione non è difficile: troviamo quel (o quei) β per cui valga de0 e d d 0 = (y − Xβ)0 (y − Xβ) = (y y − 2β0 X0 y + β0 X0 Xβ) = 0 dβ dβ dβ Usando le note regole di derivazione matriciale,3 si ha che X0 y = X0 Xβ Se la matrice X0 X è invertibile, la soluzione esiste unica, ed è Argmin e0 e = β̂ = (X0 X)−1 X0 y β∈R2 3 Non sono note? Uffa: da0 x = a0 dx dx0 Ax = x0 (A + A 0 ) dx 12 (1.5) Il cappello ( ˆ ) sulla β sta ad indicare che fra tutti i possibili valori di β, noi stiamo prendendo proprio quello che rende vera la (1.5) e che quindi rende minima la funzione di perdita. I coefficienti β̂ ottenuti dalla (1.10) hanno il nome di coefficienti OLS, dall’inglese Ordinary Least Squares, ossia minimi quadrati ordinari.4 Il vettore ŷ = Xβ̂ è la nostra rappresentazione approssimata di y. Convenzionalmente, ci si riferisce a ŷ come al vettore dei valori fittati, con brutto prestito dall’inglese fitted. Gli orrori linguistici non finiscono qui, peraltro: sovente, scappa anche a me di parlare della capacità del modello di fittare i dati, e di dire che la SSR è una misura del fit del modello. Pertanto, se vi capita di trovare uno che dice “questo modello fitta bene” compiangetelo, perché come dice Nanni Moretti “chi parla male pensa male e vive male”, ma sappiate che non si è inventato nulla.5 Nell’esempio in questione, bastano un po’ di semplici conti per vedere che · ¸ n nu XX = nu nu · Pn ¸ · ¸ yi Su + Sd 0 i =1 P Xy = = Su x i =1 y i 0 P P dove (ricordo al lettore) S u = xi =1 y i e S d = xi =0 y i cioè le somme delle y i per maschi e femmine rispettivamente. Usando la regola standard per l’inversione di matrici (2 × 2), che suppongo anch’essa nota,6 · ¸ 1 n u −n u 0 −1 (X X) = n n u n d −n u da cui · 1 nu β̂ = n u n d −n u −n u n ¸· · ¸ ¸ 1 nu S d Su + Sd = Su nu nd nd S u − nu S d e infine β̂ = · ¸ · ¸ S d /n d Ȳd = S u /n u − S d /n d Ȳu − Ȳd per cui m u non è che la media aritmetica dei maschi e m d quella delle femmine. Ancora una volta, se usiamo una funzione di perdita quadratica (e0 e), gli indicatori di sintesi che risultano ottimali sono quelli che ci suggerisce il buon senso. La cosa nuova, però, è che in questo caso, per descrivere il vettore y utilizziamo una funzione, che ha come argomento il vettore x, i cui parametri sono i nostri indicatori di sintesi. 4 Per inverosimile che possa sembrare, il senso dell’aggettivo “ordinario”, in questo contesto, è semplicemente l’opposto di “straordinario”. Cioè, minimi quadrati, ma niente di straordinario. 5 Per carità, eh, al peggio non c’è mai fine: l’Italia è piena di gente che crede di far bella figura dicendo pèrformans, oppure manàgment o menéigment. Potrei andare avanti, ma mi fermo. µ ¶−1 µ ¶ a b d −b 6 Non è nota? Ariuffa: = (ad − bc)−1 . c d −c a 13 1.2.2 Il caso generale Nel problema analizzato alla sezione precedente, il lettore attento avrà notato che, di fatto, l’assunzione che x sia una variabile dummy gioca un ruolo marginalissimo. Non ci sono motivi per i quali l’equazione m(x i ) = β1 + β2 x i non debba valere anche quando x i contiene dati numerici di qualsiasi altro tipo. Si può controllare che la soluzione del problema rimane assolutamente invariata; ovvio: il vettore β̂ non conterrà più le medie per sottocampione, ma il fatto che β̂ = (X0 X)−1 X0 y minimizzi la funzione di perdita continua ad essere vero. Esempio 1 Supponiamo che 2 y = 3 4 1 1 X = 1 2 1 0 Il lettore è invitato a controllare che · ¸ · ¸ 3 3 5/6 −1/2 0 −1 X X= ⇒ (X X) = 3 5 −1/2 1/2 · ¸ 9 X y= 8 0 0 e quindi β̂ = 7 6 · 3.5 −0.5 3 ŷ = 2.5 3.5 ¸ −1 e = 0.5 0.5 m(x) = 1.93 + 1.40 x 5 y 4 3 2 1 0 -1 -0.5 0 0.5 1 1.5 2 2.5 3 x Figura 1.1: OLS su sei dati Nei libri di econometria più attaccati alla tradizione, a questo punto c’è sempre un grafico simile a quello mostrato in Figura 1.1, che però a me non sta 14 simpaticissimo, e fra poco spiegherò perché. Comunque, ve lo faccio vedere anch’io: in questo esempio, usiamo y0 x0 £ ¤ 4 1 5 1 3 6 £ ¤ = 1 0 2 −1 1 3 = Come si può controllare,7 la funzione m(x i ) che minimizza la SSR è m(x i ) = 1.93 + 1.4x i ed il valore di e0 e è pari a 26/15. Nel grafico in figura, ogni pallino corrisponde ad una coppia di valori; la linea tratteggiata è il grafico della funzione m(x) e i residui sono le differenze verticali fra ognuno dei pallini e la linea tratteggiata; il criterio dei minimi quadrati consiste nel fatto che la linea tratteggiata rende minima la somma dei quadrati delle lunghezze di tali segmenti, ossia passa più che può in mezzo ai pallini. Ciò premesso, si vede bene che il ragionamento fatto fin qui si può generalizzare in varie direzioni: ad esempio, non si vede perché la funzione m(x i ) debba per forza essere lineare. E infatti, una tecnica più generale esiste, è ben nota e si chiama NLS (Non-linear Least Squares). Non è molto utilizzata, però, per due motivi. In primo luogo, la minimizzazione di una funzione criterio del ¤2 P £ tipo C (β) = ni=1 y i − m(x i , β) , dove m(·) è una qualche funzione più o meno fantasiosa può essere un problema spinoso: può avere soluzioni multiple, o non averne nessuna, o magari averne una, ma che non si può scrivere in forma chiusa. In secondo luogo, per poter utilizzare la tecnica OLS è sufficiente che il modello sia lineare nei parametri, ma non serve che lo sia nelle variabili. Per essere più chiari, un modello del tipo m(x i ) = β1 + β2 log(x i ) comporta una trasformazione nonlineare di x i , ma la funzione in sé resta una combinazione lineare di roba osservabile: basta definire z i = log(x i ) e il gioco è fatto. Un’altra generalizzazione, decisamente più interessante, riguarda il caso in cui abbiamo più di una variabile esplicativa. In questo caso, la cosa naturale da fare è pensare la nostra funzione di regressione come una funzione lineare del vettore di variabili esplicative xi , e cioè m(xi ) = x0i β. Ad esempio noi sappiamo, per ogni esame che Pinco Pallino ha dato, non solo quanto ha preso, ma anche in quanti giorni l’ha preparato e la percentuale delle lezioni che ha frequentato; questi dati per l’i -esimo esame stanno in un vettore x0i , ciò che riconduce all’equazione (1.4). Oltretutto, il vantaggio che c’è ad usare una funzione lineare è che i coefficienti β possono essere interpretati come derivate parziali. Nell’esempio precedente, il coefficiente associato al numero di giorni che Pinco Pallino ha impiegato a preparare l’esame può essere definito come ∂m(x) = βj ∂x j (1.6) e quindi può essere letto come la derivata della funzione m(·) rispetto al numero di giorni. Ovviamente, su queste grandezze si può ragionare sia tenendo 7 Prima di esclamare trionfalmente “Non porta!” ricordatevi di accostare ι a x. 15 presente il loro segno (la funzione “voto” è crescente o decrescente rispetto ai giorni impiegati per la preparazione?) che il loro valore assoluto (che differenza c’è nella funzione m(·) fra due esami che hanno le stessa caratteristiche, a parte il fatto che uno è stato preparato in 10 giorni e un altro in 11?). Evidentemente, è forte la tentazione di leggere i coefficienti in forma controfattuale (quanto avrebbe preso Pinco Pallino se avesse studiato un giorno di più?), ma per poter far questo in modo epistemologicamente corretto avremmo bisogno di tutta una serie di assunzioni extra che non sono disposto a fare qui.8 L’algebra per risolvere questo problema è esattamente la stessa del caso che abbiamo analizzato fino ad ora, e la riespongo qui in forma abbreviata per pura comodità del lettore. Se il residuo in base al quale vogliamo minimizzare la funzione di perdita è e i (β) = y i − x0i β, allora il vettore dei residui può essere scritto e(β) = y − Xβ (1.7) cosicché la funzione criterio da minimizzare sarà C (β) = e(β)0 e(β). Poiché la derivata di e(β) non è che −X, la condizione di primo ordine sarà semplicemente X0 e(β) = 0 (1.8) Mettendo assieme la (1.7) con la (1.8) si ottiene un sistema di equazioni note come equazioni normali: X0 Xβ = X0 y (1.9) dalle quali si ricava l’espressione per β̂ ¡ ¢−1 β̂ = X0 X X0 y (1.10) sempreché la matrice X0 X sia invertibile. Si noti, di nuovo, che la media aritmetica può essere ottenuta come caso particolare ponendo X = ι. Aggiungo anche che le formule precedenti consentono di calcolare tutte le quantità rilevanti nel problema senza necessariamente conoscere le matrici X e y: in effetti, basta conoscere y0 y, X0 y e (X0 X)−1 . Date queste quantità, infatti, non solo è immediato trovare β̂, ma anche e0 e: e0 e = (y − Xβ̂)0 (y − Xβ̂) = y0 y − y0 Xβ̂ − β̂0 X0 y + β̂0 (X0 X)β̂ e usando la (1.9) si ha e0 e = y0 y − (y0 X)β̂. Se chiamiamo k il numero di colonne di X, si vede immediatamente che la formula qui sopra esprime la SSR come differenza fra uno scalare e il prodotto interno di due vettori di k elementi. Il numero di righe di y, cioè n, non entra mai 8 Chi è del mestiere sa benissimo di cosa parlo. Chi non sa di cosa parlo, e vorrebbe saperlo, si rassegni a studiare econometria per davvero. 16 in gioco, e potrebbe anche essere immenso senza che il calcolo ne risulti per questo più difficile. La mia assenza di entusiasmo per il grafico mostrato in Figura 1.1 dovrebbe avere, a questo punto, una motivazione chiara: nel caso in cui X abbia un numero di colonne superiore a 2, non è ben chiaro come disegnare un grafico del genere. Anzi, quando le colonne sono più di 3 la strada risulta evidentemente impercorribile. In più, l’intuizione geometrica che veicola rischia di sovrapporsi ed oscurare un’interpretazione geometrica alternativa del problema che è al tempo stesso molto più interessante e molto più utile. Ne parlo al prossimo paragrafo. 1.2.3 Il problema geometrico Qui conviene partire ricordando in breve un paio di concetti di cui il lettore ha già probabilmente sentito parlare, ma da cui, altrettanto probabilmente, ha già provveduto a disinfestare il cervello (spero, senza troppo successo). Il primo è il concetto di distanza (a volte detta anche metrica). Dati due oggetti a e b, la distanza fra loro è una funzione che deve possedere queste quattro proprietà: 1. d (a, b) = d (b, a) 2. d (a, b) ≥ 0 3. d (a, b) = 0 ⇔ a = b 4. d (a, b) + d (b, c) ≥ d (a, c) L’unica che val la pena di commentare è la quarta, che si chiama diseguaglianza triangolare, che dice semplicemente che ad andare dritti si fa prima.9 Gli oggetti in questione possono essere i più svariati, ma noi considereremo solo il caso in cui essi sono vettori. La distanza di un vettore dallo zero si chiama norma, e si scrive ||x|| = d (x, 0). L’esempio più comune, nella vita di tutti i giorni, di funzione che ci piace chiamare distanza è la cosiddetta distanza euclidea, che è definita come d (x, y) = q (x − y)0 (x − y) p di cui dò per note le proprietà. Ovviamente, la norma euclidea è ||x|| = x0 x. Il secondo concetto che vorrei richiamare alla mente del lettore è quello di spazio lineare. Consideriamo k vettori ad n elementi. Coi vettori possiamo fare sostanzialmente due cose: moltiplicarli per uno scalare e sommarli fra loro. 9 Non sto prendendo in giro il lettore: in certi casi, è utile considerare delle funzioni in cui la diseguaglianza triangolare non vale. Consiglio a chi fosse interessato di partire dalla pagina “Distanza” di Wikipedia. 17 Poiché in ambo i casi il risultato dell’operazione è un vettore, ha senso chiedersi che caratteristiche abbia la combinazione lineare di k vettori: y= k X λj xj j =1 che, volendo, si poteva scrivere più compattamente y = Xλ, in cui X è una matrice le cui colonne sono i vettori x j e λ è un vettore di k elementi. Il risultato è, naturalmente, un vettore a n elementi, ossia un punto in Rn . Visto che i k vettori x1 , . . . , xk possono essere visti a loro volta come k punti nello spazio Rn , ci chiediamo: quali sono le caratteristiche geometriche di y? Ossia, che posto occupa nello spazio? Dov’è y rispetto ai vettori x1 , x2 eccetera? Cominciamo col considerare il caso particolare k = 1. In questo caso y è un puro e semplice multiplo di x1 ; più lungo, se |λ1 | > 1, più corto altrimenti; rovesciato rispetto all’origine se λ1 < 0, dritto altrimenti. Facile, banale, noioso. A questo punto del discorso, mi basta far notare che, se metto insieme tutti gli y ottenibili con diverse scelte di λ1 , ottengo una retta; questo insieme di punti si chiama Sp (x), che si legge spazio generato da x. Si noti che il giochino smette di funzionare se x = 0: in questo caso, Sp (x) non è più una retta, ma un punto (l’origine). Se i vettori x sono due, il caso standard è che non siano allineati rispetto all’origine. In questo caso, Sp (x1 , x2 ) è un piano e y = λ1 x1 + λ2 x2 è un punto da qualche parte sul piano. Il punto esatto del piano su cui si trova dipende da λ1 e λ2 , ma va notato che • scegliendo opportunamente λ1 e λ2 , nessun punto del piano è irraggiungibile • comunque vengano scelti λ1 e λ2 , non si può uscire dal piano. Tuttavia, se x2 è già un multiplo di x1 , allora x2 ∈ Sp (x1 ) e Sp (x1 , x2 ) = Sp (x1 ), cioè di nuovo una retta. In questo caso, considerare x2 non fa “crescere” di dimensione Sp (x1 ), perché è già contenuto in esso. Per generalizzare ancora di più il discorso è utile introdurre il concetto di indipendenza lineare: un insieme di k vettori x1 , . . . , xk si dice linearmente indipendente se nessuno di essi può essere espresso come combinazione lineare degli altri. Nel caso di prima dei due vettori, quello che ho chiamato “caso standard” è il caso in cui x1 e x2 sono linearmente indipendenti. Chiudo il discorso ricordando al lettore il concetto di rango: se prendiamo k vettori e li usiamo per costruire una matrice (n × k) (chiamiamola X), il numero massimo di colonne linearmente indipendenti di X si dice “rango di X”, e si scrive rk (X). La funzione rango ha varie simpatiche proprietà, alcune più semplici da dimostrare, altre meno. 1. 0 ≤ rk (X) ≤ k (dalla definizione) 18 ¡ ¢ 2. rk (X) = rk X0 (non lo dimostro) 3. 0 ≤ rk (X) ≤ min(k, n) (mettendo insieme le due precedenti) 4. se rk (X) = min(k, n) la matrice si dice “di rango pieno” 5. rk (A · B ) ≤ min(rk (A) , rk (B )); nel caso particolare A 0 = B , allora vale l’u¡ ¢ guaglianza, ossia rk B 0 B = rk (B ) (non lo dimostro). 6. se A è (n × n), allora rk (A) = n ⇔ |A| 6= 0, ossia per le matrici quadrate il rango pieno è sinonimo di invertibilità. Mi pare che basti con le proprietà; la cosa davvero importante, in questo contesto, è che la funzione rango può essere pensata come un misuratore della dimensione dello spazio generato da X. Cioè, se per esempio rk (X) = 1, allora Sp (X) è una retta, se rk (X) = 2, allora Sp (X) è un piano, e così via. A questo punto, siamo pronti a discutere il problema che ci interessa davvero: consideriamo lo spazio Rn , dove abitano un vettore y e un certo numero di vettori x j , con j = 1 . . . k e k < n. Chiamiamo X la matrice le cui colonne sono i vari x j . Vogliamo trovare, fra tutti i vettori appartenenti a Sp (X), quello più vicino ad y. In formule: ŷ = Argmin ||y − x||; x∈Sp(X) poiché la ricerca del punto ottimale deve avvenire all’interno di Sp (X), il problema si può ri-esprimere come: troviamo quel vettore β tale per cui il vettore Xβ (che è compreso in Sp (X) per definizione) è più vicino possibile a y: β̂ = Argmin ||y − Xβ|| (1.11) β∈Rk Se la distanza è quella euclidea, la soluzione è la stessa del problema statistico visto prima alla sezione 1.2.2: dato che la funzione “radice quadrata” è monotona, il minimo di ||y − Xβ||, se esiste, è lo stesso di (y − Xβ)0 (y − Xβ), e quindi Argmin ||y − Xβ|| = β̂ = (X0 X)−1 X0 y β∈Rk da cui discende ŷ = Xβ̂ = X(X0 X)−1 X0 y. Si noti che ŷ è una trasformata lineare di y. In altre parole, il punto ŷ è il risultato della premoltiplicazione di y per la matrice X(X0 X)−1 X0 , che opera una trasformazione detta “proiezione”. Ne parleremo più avanti. Perché, parlando della soluzione, ho detto “se esiste”? Perché, se rk (X) < k, la matrice X0 X non è invertibile. In tal caso, il minimo c’è ed è unico, ma non è unico il vettore β̂ ad esso associato. Faccio un esempio per farmi capire. 19 Supponiamo di avere un vettore y e che la matrice X sia composta da una sola colonna (non-zero) chiamata x1 . Come è chiaro, la soluzione esiste unica, è uno scalare ed è molto semplice da scrivere: β̂1 = x01 y x01 x1 , per cui ŷ = β1 x1 . Ora, aggiungiamo alla matrice X una seconda colonna x2 , che però è un multiplo di x1 ; cioè x2 = kx1 . Evidentemente, x2 ∈ Sp (x1 ), quindi Sp (x1 , x2 ) = Sp (x1 ), quindi ŷ è sempre lo stesso. Si noti, però, che ci sono infiniti modi di scriverlo: ŷ = β1 x1 = 0.5β1 x1 + 0.5 β1 β1 x2 = 0.01β1 x1 + 0.99 x2 = . . . k k β perché ovviamente k1 x2 = β1 x1 .10 In altre parole, esistono infiniti modi di combinare x1 e x2 fra loro per ottenere ŷ, anche se quest’ultimo è unico e la funzione obiettivo ha un minimo ben definito. Questa situazione si chiama collinearità, o anche multicollinearità, ed in teoria è facile da risolvere: basta buttare via le colonne in più, e quindi potare X in modo che abbia rango pieno. Nella pratica, le cose non sempre sono così semplici, perché come è noto gli elaboratori operano con precisione numerica finita. Mi spiego: immaginiamo di avere a che fare con una matrice X fatta così: 1 1 2 2 X= 3 3 4 4+² Ovvio che, per ² > 0, la matrice ha rango 2; tuttavia, se ² è un numero molto piccolo, un software non appositamente costruito per gestire queste situazioni11 dà di matto; si parla, tecnicamente, di quasi-collinearità. Per esempio, ho fatto fare a gretl12 il prodotto (X0 X)−1 (X0 X) per diversi valori di ²; il risultato è nella Tabella 1.1. Se il problema della precisione macchina non esistesse, nella colonna a destra della tabella dovremmo vedere tutte matrici identità. Invece, come si vede, già per ² = 1e − 05 il risultato è abbastanza insoddisfacente, e più si va avanti, peggio è. Tengo a precisare che questo non è un problema di gretl, ma del fatto che in un elaboratore digitale la precisione numerica non è infinita. In questo esempio è chiaro cosa succede, perché la matrice X ha quattro righe, e le cose si vedono a occhio. In una situazione in cui la matrice ha decine, o 10 Sono sicuro che il lettore volonteroso non faticherà a trovare una generalizzazione della formula di cui sopra. 11 Ce n’è: si chiama software in precisione arbitraria. I programmi statistico/econometrici, però, non fanno parte di questa categoria per ragioni che sarebbe lungo spiegare, ma che sono ottime ragioni. 12 Noto pacchetto statistico-econometrico: vedi alla URL http://gretl.sf.net. Ma qualcosa mi dice che il lettore sa già di cosa parlo. 20 ² (X0 X)−1 (X0 X) ¸ 1 4.36984e − 13 5.59552e − 13 1 · ¸ 1 −8.82778e − 11 6.25278e − 13 1 · ¸ 1 8.44739e − 09 2.06783e − 08 1 · ¸ 0.999999 1.50409e − 07 8.47504e − 07 1 · ¸ 0.999791 1.85966e − 05 6.01411e − 05 0.999926 · ¸ 0.996029 0.00340652 0.00341797 0.991581 · ¸ 0.499512 −0.000732422 0.28125 0.78125 · ¸ 0.859863 0.845215 1 1 · 0.1 0.01 0.001 0.0001 1e-05 1e-06 1e-07 1e-08 Tabella 1.1: Precisione numerica centinaia, o migliaia di righe, una situazione così rischia di non essere evidente, e bisogna capirlo dai risultati che ci restituisce il software, che possono essere del tutto farlocchi: ci possono essere dei casi in cui la matrice X è collineare, ma il software non se ne accorge, e spara dei numeri a caso. Oppure, dei casi in cui la matrice X non è collineare, ma il software dice che lo è. In questi casi, di solito il problema è la precisione macchina. Mi piacerebbe parlare ancora di questo argomento, ma la digressione è durata già troppo a lungo. 1.2.4 Le matrici di proiezione Nella sottosezione precedente abbiamo visto che la soluzione ŷ è una trasformata lineare di y. La matrice che opera tale trasformazione è detta matrice di proiezione. Per spiegare il perché, l’esempio che faccio sempre è quello della mosca nel cinema. Immaginate che ci sia una mosca in un cinema. Sullo schermo appare un puntino: l’ombra della mosca. La posizione della mosca è y, lo spazio generato dalle X è lo schermo e l’ombra della mosca è ŷ. La matrice che trasforma la posizione della mosca nella posizione della sua ombra è la matrice X(X0 X)−1 X0 . Per essere più precisi, questa matrice proietta sullo spazio generato dalle X qualsiasi vettore per cui viene postmoltiplicata. Come vedremo, tale matrice è abbastanza utile ed importante da meritare un nome (matrice di proiezione)13 e un’abbreviazione: PX . PX = X(X0 X)−1 X0 13 Ad essere pignoli, bisognerebbe dire proiezione ortogonale, perché esiste anche un altro attrezzo che si chiama proiezione obliqua. Ma noi non lo useremo mai. 21 Figura 1.2: Esempio: proiezione di un vettore su un altro coordinata 2 y Sp(x) e x y ^ coordinata 1 In questo semplice esempio, x = (3, 1) e y = (5, 3); il lettore è invitato a controllare che ŷ = (5.4, 1.8) ed e = (−0.4, 1.2). Prima che qualcuno me lo faccia notare: no, non è in scala. La proprietà base di questa matrice è che, per costruzione, PX X = X, come è facile controllare. Inoltre, è simmetrica e idempotente:14 PX = PX 0 PX PX = PX ; la proprietà dell’idempotenza ha anche un’interpretazione geometrica che la rende molto intuitiva: la matrice PX prende un vettore da dovunque si trovi e lo trasporta nel punto più vicino di Sp (X); se il punto di partenza è già in Sp (X), evidentemente rimane dov’è e quindi applicare PX ad un vettore più di una volta non produce effetti diversi che farlo una volta sola (PX y = PX PX y = PX PX · · · PX y). Un’altra proprietà è che PX è singolare; per essere precisi, si può dire (e, volendo, dimostrare) che nessuna matrice idempotente è invertibile, a parte la matrice identità15 . Anche qui, c’è una interpretazione geometrica che rende questa proprietà intuitiva: la proiezione comporta una perdita di informazione, perché schiaccia alcune delle coordinate originali sul sottospazio generato dalle X: nell’esempio della mosca, non è possibile capire dov’è la mosca solo sapendo dov’è la sua ombra, perché l’informazione sulla profondità viene persa. In formule, la singolarità di PX si traduce nel fatto che non c’è nessuna matrice A per cui valga 14 Idempotente significa che, moltiplicata per se stessa, non cambia. Per esempio i numeri reali 1 e 0 sono idempotenti. 15 Ad essere ancora più precisi, si può dire che rk (P ) = rk (X), per cui P è una matrice n ×n con X X rango k; evidentemente, nella situazione che stiamo considerando qui, n > k. 22 A · PX = I, e quindi non esiste nessuna matrice che permette di scrivere Aŷ = y, cioè di ricostruire la posizione originale di y partendo dalla sua proiezione. Un’altra matrice interessante che possiamo costruire partendo da PX è M X = I − PX . Evidentemente, MX y = y − ŷ = e. Questa matrice, in un certo senso, fa un lavoro opposto e complementare a quello di PX : applicata ad un vettore, ritorna lo scarto fra il punto originale ed il punto proiettato. Si può controllare facilmente che MX ha la proprietà fondamentale per cui MX X = 0; ciò implica che ogni vettore del tipo MX y è ortogonale a Sp (X), ossia forma un angolo retto con qualsiasi vettore Xλ.16 Altre proprietà degne di nota: MX è anch’essa simmetrica, idempotente e singolare17 . Inoltre, MX PX = PX MX = [0]. Esempio 2 Il lettore è invitato a controllare (facendo i conti a mano o col software che preferisce) che, usando gli stessi dati dell’esempio 1, si ha 1/3 1/3 1/3 PX = 1/3 5/6 −1/6 1/3 −1/6 5/6 2/3 −1/3 −1/3 1/6 MX = −1/3 1/6 −1/3 1/6 1/6 E la varie proprietà di tali matrici (ad esempio l’idempotenza). Nel contesto che ci interessa, il vantaggio di aver definito le matrici di proiezione in rapporto al problema geometrico è che diventa facile esprimere in modo semplice, compatto ed intuitivo le principali grandezze inerenti al problema statistico di approssimare la variabile y per mezzo di un modello lineare costruito con le variabili che formano le colonne di X: Grandezza Coefficienti OLS Valori fittati Residui Somma dei quadrati dei residui Simbolo β̂ ŷ e SSR Formula (X0 X)−1 X0 y PX y MX y e0 e = y0 MX y Consideriamo ad esempio il caso particolare in cui X = ι. Come abbiamo visto, questo conduce a risolvere il problema per mezzo della media aritmetica, cosicché β̂ = Ȳ : il vettore dei valori fittati18 è Pι y = ι · Ȳ e i residui sono semplicemente gli scarti dalla media: e = Mι y = y − ι · Ȳ . Infine, la devianza può essere scritta come y0 Mι y (e quindi, volendo, la varianza come V (y) = n −1 y0 Mι y). 16 Ricordo che due vettori si dicono ortogonali fra loro se il loro prodotto interno è 0. In formule: x ⊥ y ⇔ x0 y = 0. Un vettore si dice ortogonale ad uno spazio se è ortogonale a tutti i punti di quello spazio: y ⊥ Sp (X) ⇔ y0 X = 0 e quindi y ⊥ Xλ per qualsiasi λ. 17 In effetti, M è anch’essa una matrice di proiezione, ma lasciamo stare. X 18 Ecco, l’ho detto. 23 1.2.5 Misure di bontà del modello A questo punto, è piuttosto naturale porsi il problema della bontà dell’approssimazione a cui il nostro modello statistico perviene. In un certo senso, il problema è già stato parzialmente risolto con l’adozione di una funzione criterio. Quando usiamo β̂ come approssimatore in y i ' x0i β, sappiamo che stiamo facendo del nostro meglio, cioè stiamo scegliendo il valore di β che ottimizza la funzione criterio. Come spesso accade, però, può darsi che fare del nostro meglio non sia abbastanza. Sarebbe interessante avere un’idea di quanto il modello riesce a catturare il fenomeno di nostro interesse, ossia quanta informazione perdiamo nella sintesi. La misura più immediata da definire emerge in modo molto naturale da queste due disuguaglianze: 0 ≤ ŷ0 ŷ = y0 PX y ≤ y0 y; la prima è abbastanza ovvia considerando che ŷ0 ŷ è una somma di quadrati, e quindi è non-negativa. La seconda è appena meno evidente: infatti, y0 PX y = y0 y − y0 MX y = y0 y − e0 e; poiché anche e0 e è una somma di quadrati, ovviamente y0 PX y ≤ y0 y. Dividendo il tutto per y0 y, si ha 0≤ ŷ0 ŷ = R u2 ≤ 1 y0 y (1.12) Questo indice si chiama R u2 (che si legge “erre-quadro non centrato”), e gli si può dare un’interpretazione molto intuitiva nel problema geometrico. Evidentemente, nello spazio Rn i punti y, ŷ e l’origine formano un triangolo rettangolo (vedi anche la figura 1.2) in cui c’è un cateto “buono”, che è ŷ, e uno “cattivo”, che è congruente a e: vogliamo che il cateto cattivo sia più corto possibile. Dato il teorema di Pitagora, l’indice R u2 ci dà semplicemente il rapporto (al quadrato) fra cateto buono e ipotenusa. Naturalmente, più questo indice è vicino ad 1, più siamo contenti. L’indice R u2 testè definito è perfettamente appropriato al problema geometrico, ma un tantino meno a quello statistico. Infatti, in molte circostanze noi vorremmo poter dare per scontata l’informazione contenuta nella media aritmetica, che però nell’indice R u2 viene computata nel cateto “buono”. In altri termini, non ha molto senso che un modello in cui sintetizziamo y con la sola media, e cioè via ι · Ȳ ci possa dare un R u2 arbitrariamente vicino ad uno; in quel caso, avremmo semplicemente l’indicazione che la dispersione dei dati intorno alla media è piccola in rapporto alla media stessa. Una modifica all’indice che lo rende più vicino alle esigenze statistiche è quella di usare, come fattore di normalizzazione, y0 Mι y anziché y0 y. Infatti, se ι ∈ Sp (X), si ha 0 ≤ y0 MX y = e0 e ≤ y0 Mι y ≤ y0 y, 24 ciò che rende possibile definire il cosiddetto R 2 centrato, noto anche come indice di determinazione: e0 e R2 = 1 − 0 . (1.13) y Mι y Quando si parla di R 2 senza specificare, di solito si intende quest’ultimo, e questo è il motivo per cui la versione dell’indice definita nella (1.12) aveva una “u” in pedice (dall’inglese uncentred). Forse il lettore distratto non si è accorto di niente, ma in modo del tutto surrettizio ho introdotto un’idea travolgente. Dicendo che l’R 2 centrato è più adatto a quantificare la bontà del modello sotto il profilo statistico, ho implicitamente detto che la bontà del modello statistico è una cosa che va misurata confrontando due modelli fra loro. In effetti, la (1.13) può essere letta come un numero che dipende dal confronto fra due funzioni di perdita: una, quella relativa al modello, per così dire, base (quello basato sulla sola media aritmetica); l’altra, quella che risulta del modello, per così dire, completo. Il proseguimento naturale di questa idea è quella di capire esattamente se, ed in che misura, possiamo usare una valutazione di questo tipo (il confronto fra funzioni di perdita) per guidarci in una scelta che, fino ad ora, abbiamo dato per scontata, e cioè: come si costruisce la matrice X? Quali variabili è giusto, produttivo, utile, istruttivo, eccetera, includere nella nostra funzione m(xi )? Tutte quelle che abbiamo? Solo alcune? E quali? 1.3 La scelta dei regressori In questa sezione, ci porremo il problema di trovare dei criteri per capire quali sono le variabili migliori per costruire la matrice X. Per cominciare, consideriamo il problema di scegliere se è “meglio” (in qualche senso da decidere) un modello del tipo y i ' x0i β (1.14) (chiamiamolo modello A) oppure un modello del tipo y i ' x0i β + z0i γ (1.15) (chiamiamolo modello B). Diciamo che sul potere esplicativo delle xi siamo sicuri; sulle zi , un po’ meno, e vorremmo decidere sulla base dei dati se è il caso di includerle nel nostro modello o no. Chiaramente, il modello B è più articolato, ma il modello A è più leggero. Potrebbe darsi che B sia ridondante, oppure che A sia troppo succinto. Un esempio estremo di questa situazione è: cerchiamo di capire se c’è qualche regolarità che ci possa aiutare a descrivere il libretto di Pinco Pallino. Il vettore xi contiene delle variabili più o meno ragionevoli: quanti giorni ha studiato per quell’esame, e così via. Il vettore zi , invece, contiene delle variabili che non possono essere legate al voto preso in quell’esame se non per qualche sciocca 25 superstizione: che so, se la data in cui si è svolto l’esame è un multiplo di 9, se il prof porta gli occhiali, o se la seconda lettera del nome dell’esame è “a”. Ragionevolezza vorrebbe che, qualunque sia il criterio che usiamo, noi si finisca per optare per il modello A. Purtroppo, però, se usiamo un criterio basato puramente sulla funzione di perdita, finiremo sempre per scegliere il modello B (lo dimostrerò fra poco). Il lettore superficiale concluderà, a questo punto, che l’econometria è tutta una truffa e smetterà di leggere. Al lettore più intelligente, invece, chiedo di portare pazienza per qualche pagina ancora. Prima di capire come stanno le cose, abbiamo bisogno di qualche nozione in più. 1.3.1 Un altro paio di cose sulle matrici di proiezione Consideriamo il caso di uno spazio ad n dimensioni e di una matrice X, di n righe, k colonne e rango pieno. Come si diceva poche pagine fa, le colonne di questa matrice definiscono un sottospazio a k dimensioni che chiamiamo Sp (X). Definiamo ora una matrice W, che possa essere scritta come come X· A, dove A è una qualche matrice di rango minore di k. È evidente che ogni combinazione lineare delle colonne di W è anche combinazione delle colonne di X, e perciò ha la proprietà di essere compresa in Sp (X). Ne segue che ogni vettore compreso in Sp (W) è anche un elemento di Sp (X). Tuttavia, il converso non è vero: ci sono degli elementi di Sp (X) che non possono essere scritti come combinazione delle colonne di Sp (W) (la dimostrazione è un po’ più complicatuccia e non ve la faccio). In breve, Sp (W) è un sottoinsieme di Sp (X) o, come si scrive, Sp (W) ⊂ Sp (X). Un caso tipico di questa situazione lo si ha quando consideriamo una matrice W che contiene alcune colonne di X, ma non tutte. Diciamo, senza perdita di generalità, che W è formato dalle prime k − p colonne di X o, equivalentemente, che cancellando le p colonne più a destra di X otteniamo W. In questo caso, infatti, la matrice che prima ho chiamato A può essere scritta · ¸ I A= 0 dove la matrice identità che sta sopra ha k − p righe e colonne, e la matrice 0 che sta sotto ha p righe e, naturalmente, k − p colonne. In questa situazione, la proprietà PX W = PX XA = XA = W comporta alcune interessanti conseguenze sulle matrici di proiezione legate agli spazi Sp (W) e Sp (X), che elenco qui di seguito: PW PX = PX PW = PW MW MX = MX MW = MX MW PX = PX MW = PX − PW = M W − M X PW MX = MX PW = 0 Invito il lettore a dimostrarle per esercizio. Non dovrebbe volerci molto. 26 1.3.2 Un risultato sconfortante (in apparenza) Riprendiamo i due modelli A e B di cui parlavo prima, alle equazioni (1.14) e (1.15). A questo punto, è facile dimostrare che la SSR per il modello B è sempre minore che per il modello A. SSR A = e0a ea SSR B = e0b eb dove ea = MX y e eb = MX,Z y. Visto che Sp (X) ⊂ Sp (X, Z), si ha che MX,Z MX = MX,Z e perciò MX,Z ea = eb ; ne consegue che SSR B = e0b eb = e0a MX,Z ea = e0a ea − e0a PX,Z ea ≤ e0a ea = SSR A In pratica, se giudichiamo il risultato finale in termini di funzione di perdita, il modello B (quello assurdo) è sempre almeno tanto buono quanto il modello A (quello ragionevole), e forse di più. Neanche l’indice R 2 ci può essere d’aiuto: dimostrare che SSR B ≤ SSR A ⇒ R B2 ≥ R 2A . è un giochino da terza media. Ne consegue che aggiungendo variabili esplicative ad un modello preesistente, l’indice R 2 non può peggiorare, per quanto insensata sia la scelta dei regressori. Che scandalo. Che schifo. Qui è tutto un magna magna. Ah, signora mia, la pena di morte ci vorrebbe. Se cerchiamo di essere ragionevoli, però, notiamo una cosa. Questa proprietà per cui più regressori usiamo, più la SSR diminuisce è una conseguenza inevitabile dell’aver scelto di impostare il problema dell’approssimazione come problema di ottimo. Infatti, l’equazione (1.14) è un caso particolare della (1.15), che si ottiene ponendo γ = 0. Consideriamo ora la soluzione del problema di ottimo per la (1.15): se la soluzione ottima per γ è il vettore zero, allora la funzione obiettivo risulta minimizzata sia per la (1.14) che per la (1.15). Altrimenti, il vettore 0 non è l’ottimo per la (1.15), e quindi la funzione obiettivo può essere ulteriormente decrementata. Come che sia, è impossibile che la funzione obiettivo risulti migliore per il modello A che per il modello B. Al massimo, può essere non peggiore, cioè uguale.19 Detto in termini più tecnici, si può pensare che l’OLS applicato al modello B restituisca la soluzione di un problema di ottimo libero, mentre applicato al modello A restituisce la soluzione di un problema di ottimo vincolato, dove il vincolo è appunto γ = 0. Che il punto di ottimo del problema vincolato sia peggiore di quello libero è soltanto ovvio. 19 I più astuti fra i miei lettori avranno già capito che questo punto è assolutamente generale e non dipende in alcun modo dalla forma della funzione di perdita. 27 A questo punto, comincia a profilarsi una possibile soluzione: la decisione su quale modello scegliere fra A e B non può essere basata sul puro e semplice confronto fra le funzioni di perdita (perché è ovvio che la perdita diminuisce nel modello non vincolato), bensì su un qualche tipo di criterio che misuri di quanto la funzione di perdita cambia fra l’uno e l’altro. Se il guadagno è trascurabile, allora tanto vale optare per il modello più parsimonioso. Una prima soluzione a questo problema è quella fornita dal cosiddetto indice R 2 aggiustato, o barrato, o anche corretto: R̄ 2 = 1 − e0 e n − 1 , y0 Mι y n − k (1.16) dove n è il numero di righe di y, cioè il numero di osservazioni di cui disponiamo, e k è il numero di colonne di X, ovvero il numero di parametri della nostra funzione m(xi ) (compresa l’intercetta). Come si vede facilmente, aggiungere al modello variabili esplicative senza senso può non produrre un miglioramento nell’indice: infatti, è vero che la SSR scende, ma è anche vero che questo effetto può essere controbilanciato dal fattore n − k che sta al denominatore. Non è difficile dimostrare che, se nell’esempio dei modelli A e B visto sopra chiamiamo k e p il numero di elementi nei vettori xi e zi rispettivamente, vale la seguente relazione: R̄ B2 ≥ R̄ 2A ⇔ SSR B p < 1− SSR A n −k (1.17) e quindi, per far migliorare l’indice R̄ 2 è necessario che SSR B sia sostanzialmente minore di SSR A . Vedremo che questa idea, adeguatamente sviluppata, ci darà la soluzione che cerchiamo. Dobbiamo formalizzare esattamente la relazione che intercorre fra il vincolo sul modello e il connesso peggioramento nella funzione di perdita, così da stabilire dei criteri per decidere quando è meglio usare il modello libero anziché quello vincolato. Per dare una soluzione generale, bisogna sviluppare un po’ l’algebra per il confronto fra modelli liberi e vincolati. 1.3.3 Modelli e vincoli Come ho detto sopra, vogliamo analizzare cosa succede ad un modello di regressione se minimizziamo la funzione di perdita sotto un qualche vincolo e confrontare le proprietà della soluzione con quella trovata in assenza di vincolo. Per fissare le idee, conviene partire da un’osservazione: se prendiamo un modello lineare del tipo che abbiamo analizzato finora m(xi ) = x i ,1 β1 + x i ,2 β2 + · · · + x i ,k βk = k X j =1 x i , j β j = x0i β, dove tipicamente x i ,1 = 1, l’idea di imporre dei vincoli sugli elementi di β si può tradurre in una forma vincolata del modello. 28 Sarebbe più interessante, nonché più elegante, discutere il problema in termini generali. Per amor di semplicità, però, noi ci concentreremo sul caso di vincoli lineari. Il caso più semplice in assoluto è quello di vincolare uno o più coefficienti ad essere 0. Ad esempio, il modello m(xi ) = x i ,1 β1 + x i ,2 β2 + x 3,1 β3 , (1.18) se sottoposto al vincolo β2 = 0 diventa, banalmente, m(xi ) = x i ,1 β1 + x i ,3 β3 . Questa era davvero semplice, ma seguendo questo principio noi possiamo trasformare un modello di partenza in una cosa apparentemente del tutto diversa, solo usando in modo sapiente la funzione (o le funzioni) vincolo. Per esempio, il modello (1.18), se sottoposto al vincolo β1 = 1, diventa m̃(xi ) = x i ,2 β2 + x i ,3 β3 , dove abbiamo sostituito al problema di approssimare la variabile y i per mezzo di una funzione m(·) il problema di approssimare la variabile (y i − x i ,1 ) per mezzo di una funzione m̃(·); in altre parole, l’imposizione del vincolo modifica non solo la forma della funzione m(·), ma anche la definizione della variabile dipendente. Altro esempio: supponiamo di voler sottoporre la (1.18) al vincolo β2 +β3 = 0 (o, in forma equivalente, β2 = −β3 ): questo conduce a riscrivere tale equazione come m(xi ) = x i ,1 β1 + (x i ,2 − x i ,3 )β2 . Nauturalmente, i vincoli possono essere combinati fra loro. Ad esempio, imponendo il sistema di vincoli ½ β1 = 1 β2 + β3 = 0 di nuovo all’equazione (1.18), quest’ultima si trasforma in y i − x i ,1 ' m̃(xi ) = (x i ,2 − x i ,3 )β2 . È chiaro che il modo più generale, ed al tempo stesso efficiente, di rappresentare un sistema di vincoli come quelli che abbiamo visto sin qui è quello di rappresentarli per mezzo dell’equazione matriciale Rβ = d , dove la matrice R ed il vettore d sono scelti da noi in modo tale da riprodurre la funzione vincolo. Per esempio, se il modello libero è quello dell’equazione (1.18), la seguente tabella fornisce alcuni esempi che dovrebbero illuminare il lettore sul principio generale: 29 Vincolo β3 = 0 β1 = 1 β2 + β3 = 0 ½ β1 = 1 β2 = β3 £ 0 £ 1 £ 0 · 1 0 R ¤ 0 1 ¤ 0 0 ¤ 1 1 ¸ 0 0 1 −1 d 0 Modello vincolato y i ' x i ,1 β1 + x i ,2 β2 1 y i − x i ,1 ' x i ,2 β2 + x i ,3 β3 0 · ¸ 1 0 y i ' x i ,1 β1 + (x i ,2 − x i ,3 )β2 y i − x i ,1 ' (x i ,2 + x i ,3 )β2 La domanda che a questo punto dovrebbe venire spontanea è: ma perché dovremmo imporre dei vincoli, se questi fanno sicuramente peggiorare la nostra funzione di perdita? Ci possono essere vari motivi, ognuno dei quali non esclude gli altri: • Uno potrebbe voler confutare una qualche teoria, mostrando che l’esclusione di alcune variabili esplicative da un modello non produce un peggioramento apprezzabile della capacità, da parte del modello stesso, di sintetizzare i dati. • Uno potrebbe voler confrontare il modello libero con uno vincolato perché il vincolo esprime indirettamente un’ipotesi sul mondo ed è interessante capire se e quanto accettare incondizionatamente tale ipotesi pregiudica la nostra capacità di sintetizzare i dati. • Spesso, i modelli econometrici sono scritti in termini di parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo ad esempio una funzione di produzione Cobb-Douglas Q = AK α1 L α2 . È noto dalla teoria microeconomica (o almeno, dovrebbe) che la CobbDouglas ha rendimenti di scala costanti se e solo se α + α2 = 1. Scrivendo la funzione in logaritmi si ha q = a + α1 k + α2 l Supponiamo di condurre un esperimento in cui facciamo variare a nostro piacimento k e l , e osserviamo i cambiamenti in q. In questo caso, è naturale pensare di quantificare il vettore di parametri a β = α1 α2 con i minimi quadrati. Se però sapessimo — o congetturassimo — che la funzione è a rendimenti di scala costanti, vorremmo che la nostra stima di β incorporasse l’informazione α1 + α2 = 1. Ovviamente, non c’è alcuna b rispetti questa condizione. garanzia che β 30 Nella sezione che segue, svilupperemo l’algebra che serve per mettere in relazione il sistema dei vincoli Rβ = d con il peggioramento nella funzione criterio ad esso associato, così che potremo discutere con cognizione di causa sulla decisione da prendere quando ci chiediamo se sia “migliore” il modello libero o quello vincolato. 1.3.4 I minimi quadrati vincolati Nel modello vincolato, vogliamo una statistica che soddisfi a priori un insieme di p restrizioni che possiamo scrivere come Rβ = d . In altre parole, cerchiamo una soluzione al problema di trovare un vettore β̃ che minimizzi la SSR ma che contemporaneamente rispetti un dato insieme di vincoli lineari: e = Argmin ||y − Xβ||; β (1.19) Rβ=d si confronti la (1.19) con la (1.11), che definisce la statistica ottimale per il modello non vincolato. Così come la soluzione del problema non vincolato si chiama OLS (Ordinary Least Squares), la soluzione del problema vincolato si chiama RLS (Restricted Least Squares). Figura 1.3: Esempio: vettore di due parametri β2 β^2 ~ β2 ~ ^ β 1 β1 β1 Le ellissi sono le curve di livello della funzione e0 e. Il vincolo è β1 = 3β2 . Il numero di parametri k è uguale a 2 e il numero di vincoli p è pari a 1. Il punto di minimo non vincolato è βb1 , βb2 ; Il punto di minimo vincolato è β̃1 , β̃2 . Per trovare tale statistica, minimizziamo la somma dei quadrati dei residui sotto vincolo. Definendo i residui come e(β) = y − Xβ il lagrangiano sarà 1 L = e0 e + λ0 (Rβ − d ). 2 31 Poiché la derivata di e rispetto a β è −X, la condizione di primo ordine può essere scritta X0 ẽ = R 0 λ, (1.20) e il vettore che rende vera la (1.20) e con ẽ il vettore y−Xβ. e dove indichiamo con β L’equazione (1.20) può essere riscritta in modo tale da rendere evidenti le relazioni che esistono fra il problema di minimo vincolato (e la sua soluzione) e il problema di minimo libero (e la sua soluzione, che è ovviamente la statistica OLS). In particolare, possiamo considerare le implicazioni della (1.20) 1. nello spazio dei parametri (Rk ) 2. nello spazio dei vincoli (Rp ) 3. nello spazio delle osservazioni (Rn ) 4. nello spazio della funzione obiettivo (R). Cominciamo coi parametri: premoltiplicando la (1.20) per (X0 X)−1 si ottiene una relazione interessante fra la soluzione vincolata e quella libera: e=β b − (X0 X)−1 R 0 λ β (1.21) La soluzione vincolata, quindi, è uguale a quella libera più un “fattore di correzione” proporzionale a λ. La seconda cosa che si può dire riguarda lo spazio dei vincoli, e quindi il valore di λ: premoltiplicando la (1.21) per R si ha che £ ¤−1 b− d) λ = R(X0 X)−1 R 0 (R β (1.22) e = d per costruzione. perché R β Dovrebbe essere chiaro dalla (1.22) che, se la statistica non vincolata rispetb = d ), allora λ = 0 e quindi la statistica vincolata ta già di per sé il vincolo (R β coincide con quella libera. In questo senso, si può dire che il vettore λ ci dà una misura di quanto la soluzione del problema vincolato sia diversa da quella del problema libero; sarò più preciso fra poco. La formula che si trova di solito nei libri di testo la si ottiene combinando le equazioni (1.21) e (1.22): £ ¤ e=β b − (X0 X)−1 R 0 R(X0 X)−1 R 0 −1 (R β b− d) β (1.23) Possiamo esaminare cosa succede nello spazio delle osservazioni premoltiplicando la (1.21) per X: e = ỹ = ŷ − X(X0 X)−1 R 0 λ Xβ da cui discende ẽ = ê + X(X0 X)−1 R 0 λ 32 Consideriamo ora lo spazio della funzione obiettivo: la somma dei quadrati dei residui vincolati (cioè il minimo vincolato) ẽ0 ẽ può essere scritta nel seguente modo: ẽ0 ẽ = ê0 ê + λ0 R(X0 X)−1 R 0 λ (1.24) dove abbiamo sfruttato il fatto che ê = MX y e quindi, per costruzione, X0 ê = 0. Ora, la (1.24) ci dice una cosa importante: la differenza che c’è fra il minimo vincolato e il minimo libero (che è evidentemente sempre positiva) può essere scritta come una forma quadratica in λ.20 Mettendo assieme le equazioni (1.21), (1.22) e (1.24) si arriva alle seguenti uguaglianze: ẽ0 ẽ − ê0 ê = 0 0 −1 0 λ R(X X) R λ = (β̂ − β̃)0 (X0 X)(β̂ − β̃) = (1.25) £ ¤ b− d) b − d )0 R(X0 X)−1 R 0 −1 (R β (R β L’espressione (1.25) è molto interessante, perché ci dice che la stessa quantità può essere interpretata in tre modi diversi ed equivalenti: 1. ẽ0 ẽ − ê0 ê è la differenza che c’è fra la funzione obiettivo vincolata e non. Maggiore è questa differenza, maggiore è la perdita di capacità che il modello vincolato ha di accostarsi ai dati empiricamente osservati; 2. λ0 R(X0 X)−1 R 0 λ è una forma quadratica che vale 0 solo se λ = 0.21 Poiché abbiamo già visto che λ = 0 solo se la statistica vincolata coincide con quella libera, questa grandezza varia sostanzialmente con la distanb − β|| e (una volta definita opportunamente la metrica); si può anche za ||β notare che, usando la (1.20), la quantità in questione può essere scritta come ẽ0 PX ẽ; £ ¤ b )0 R(X0 X)−1 R 0 −1 (R β−d b ) è una forma quadratica (de3. la grandezza (R β−d b − d ), ossia in un vettore che è pari a 0 solo se lo finita positiva) in (R β stimatore libero rispetta già di per sé il vincolo. La morale della storia è: la stessa quantità può essere letta in vari modi, ma il messaggio veramente importante è che la differenza nella funzione obiettivo che si ha fra modello vincolato e modello libero può essere vista come una misura di quanto β̂ e β̃ sono diversi fra loro. Questa molteplicità di approcci, oltre 20 Ricordo che una forma quadratica è un’espressione del tipo f (x) = x0 Ax, dove A è una matrice simmetrica e x è un vettore conformabile. Se A è tale per cui f (x) > 0 per qualsiasi x 6= 0, allora la matrice A si dice definita positiva; se f (x) ≥ 0 per qualsiasi x 6= 0, allora la matrice A si dice semidefinita positiva. Se una matrice è semidefinita positiva e invertibile, allora è anche definita positiva. 21 Poiché λ è il vettore dei moltiplicatori di Lagrange del problema di minimo vincolato è possibile — come è noto — darne una lettura in termini di prezzo ombra: l’i -esimo elemento del vettore λ ci dice quanto migliora la funzione obiettivo ad una variazione ‘piccola’ del vincolo corrispondente. Formalmente, si può dimostrare che λ è il vettore di derivate parziali di ẽ0 ẽ/2 rispetto a d . 33 ad essere piuttosto intrigante dal punto di vista puramente estetico (ma questa, ammetto, è una questione di gusti) è utile perché ci permette di ragionare sui singoli elementi di β̂ ragionando su quanto la loro distanza da un qualsiasi valore prefissato farebbe peggiorare il modello in termini di capacità interpretativa dei dati. 1.4 Misure di perdita di fit A questo punto, siamo nella condizione di poter dire qualcosa di preciso, come promesso, sulla relazione che c’è fra funzione obiettivo e vincoli. Un buon punto da cui partire è la statistica σ̂2 , che è semplicemente la varianza delle e i per il modello libero. Questa statistica ha una variante alternativa, che risulta dall’uso al denominatore di n − k anziché n, e si chiama s 2 : σ̂2 = ê0 ê ; n s2 = ê0 ê ; n −k la motivazione primaria per usare s 2 anziché σ̂2 è di tipo statistico-inferenziale per cui, fedele al mio proposito, non ne parlo. Mi limito a far notare che in un modello in cui k sia uguale ad n la SSR è zero per costruzione (dimostrarlo è molto semplice) e quindi può avere senso normalizzare la SSR per n − k anziché n. È evidente che in una condizione standard n è molto maggiore di k, cosicché le due statistiche sono di fatto interscambiabili. Il secondo ingrediente che ci serve è la differenza ẽ0 ẽ − ê0 ê, che è ovviamente sempre non-negativa, perché (come abbiamo ampiamente discusso) ẽ0 ẽ ≥ ê0 ê. Evidentemente, tanto più è grande questa differenza, tanto grande è la discrepanza, in termini di fit, fra il modello libero e quello vincolato. Si noti che il valore assoluto delle statistiche ẽ0 ẽ e ê0 ê dipende dall’unità di misura che scegliamo per misurare la nostra variabile dipendente. Dato che questa unità di misura è, evidentemente, arbitraria, possiamo ottenere una prima indicazione della perdita normalizzando la differenza fra le due per una misura della varianza. Un primo indicatore è la cosiddetta statistica W W= ẽ0 ẽ − ê0 ê ẽ0 ẽ − ê0 ê = n · σ̂2 ê0 ê che usa σ̂2 ; un’alternativa è la cosiddetta statistica F , che è data da F= ẽ0 ẽ − ê0 ê 1 ẽ0 ẽ − ê0 ê n − k = , · s2 p ê0 ê p e, rispetto alla statistica W , presenta due differenze: è basata su s 2 anziché σ̂2 ed è normalizzata per il numero dei vincoli (W non lo è). La relazione che intercorre fra le due è davvero molto facile da scrivere W = p ·F 34 n n −k cosicché in una situazione standard, in cui n è molto più grande di k, si ha che W ' pF . Ovviamente, c’è un legame molto stretto fra le statistiche W ed F e l’indice R 2 : se indichiamo con R L2 e RV2 gli indici R 2 dei modelli libero e vincolato, è semplice dimostrare che 2 2 ẽ0 ẽ − ê0 ê R L − RV = ê0 ê 1 − R L2 per cui, ad esempio, W =n R L2 − RV2 1 − R L2 . Un’altra cosa che val la pena di notare è che, poiché ẽ0 ẽ − ê0 ê = ẽ0 PX ẽ, le due statistiche W ed F possono anche essere scritte in termini di 2 R aux = ẽ0 ẽ − ê0 ê , ẽ0 ẽ che non è altro che l’indice R 2 è della cosiddetta regressione ausiliaria,22 in cui la variabile dipendente è ẽ e le variabili esplicative sono X. Il lettore sarà, dopo questa sarabanda di modi alternativi di scrivere sempre la stessa cosa o quasi, colto da una leggera vertigine. È normale. La cosa davvero importante è che vi abbia convinto del fatto che usare la statistica W o la statistica F per confrontare il modello libero con quello vincolato è una buona idea. Quale delle due sia quella che scegliamo di usare, il criterio non può essere che questo: se la statistica è “piccola”, il modello vincolato è preferibile, perché la perdita di fit è compensata dalla maggior sintesi; se invece è “grande”, andrà preferito il modello libero, perché il peggioramento nella funzione di perdita che segue all’imposizione del vincolo è troppo oneroso. Il problema che si pone a questo punto è: qual è il valore soglia che devo usare per decidere se W o F sono “piccole” o “grandi”? In ultima analisi, si usano delle convenzioni, più o meno facili da motivare in un contesto inferenziale, che noi qui prendiamo per buone giustificandole semplicemente come una prassi tradizionale. La prassi consiste nel trasformare le statistiche F e W (che, ricordo, sono comprese fra 0 e infinito) in un numero fra 0 e 1 che si chiama p-value 22 Una regressione ausiliaria è una tecnica computazionale: per calcolare certe statistiche, a volte conviene applicare l’OLS ad un modello che in realtà non è quello di nostro interesse, ma usando il quale la statistica che ci interessa diventa facile da calcolare. In questo caso, la sequenza delle operazioni sarebbe: 1. applico l’OLS al modello vincolato; 2. calcolo i residui ẽ; 3. applico l’OLS ad un modello in cui la variabile dipendente è ẽ e i regressori sono quelli del modello non vincolato; 4. prendo l’R 2 di quest’ultima regressione e la moltiplico per n. In questo contensto, l’uso della regressione ausiliaria è forse un po’ forzato, ma il principio torna veramente comodo quando si fa sul serio, e cioè quando si usa l’OLS come stumento inferenziale. 35 1 2 vincoli 3 vincoli 4 vincoli 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 12 W Figura 1.4: Funzione p-value per la statistica W e che è una trasformata monotona decrescente della statistica originale. Come siano fatte queste funzioni non importa qui (anche se la funzione p-value per la statistica W con 2, 3 e 4 vincoli è mostrata nella figura 1.4, così, tanto per dare l’idea): l’importante è sapere che, se la statistica F (o W ) è “grande”, il corrispondente p-value sarà “piccolo”. Il criterio che si usa di solito è quella di preferire il modello libero a quello vincolato se il p-value è minore di 0.05. Anzi, a volte si usa un trucchetto, che vedremo più avanti dal vivo, che serve a rendere ancora più semplice la lettura della statistica, basato sulle cosiddette stelline, o asterischi. I programmi econometrici a volte stampano, vicino alla statistica, una o più stelline, che si leggono così: Stelline (nessuna) * ** *** Significato p-value maggiore del 10% p-value fra 5% e 10% p-value fra 1% e 5% p-value sotto l’1% 1.4.1 Un interessante caso particolare Un caso particolare della teoria delineata al paragrafo precedente che si presenta molto spesso è il seguente: se il nostro modello libero è m(xi ) = x0i β, ci potremmo chiedere quanto sia preferibile un modello vincolato con β j = 0. In pratica, un modello in cui l’influenza della j -esima variabile sulla funzione 36 m(xi ) sia 0 per ipotesi. In questo caso, d è lo scalare 0, e la matrice R è un vettore riga fatto in modo particolare, che si chiama la j -esima base canonica: un vettore fatto tutto di zeri a parte la j -esima posizione, dove c’è 1. La particolarità di una base canonica è che estrae una riga o una colonna di ciò per cui viene moltiplicata (è per questo che una base canonica a volte viene anche chiamata vettore estrattore). Per esempio, se b2 è la seconda base canonica, il prodotto A ·b2 ha come risultato la seconda colonna di A, e il prodotto b02 A ha come risultato la seconda riga.23 Evidentemente, b0i Ab j = A i j Torniamo a noi: usando l’equazione (1.25), si nota che, nel caso in esame, £ ¤ b − d )0 R(X0 X)−1 R 0 −1 (R β b− d) = ẽ ẽ − ê ê = (R β 0 b2 (b0j β) 0 b0j (X0 X)−1 b j = β̂2j δj , dove δ j è l’i -esimo elemento sulla diagonale di (X0 X)−1 . Poiché in questo caso p = 1, le corrispondenti statistiche W ed F possono essere ottenute semplicemente dividendo il rapporto nell’equazione precedente per σ̂2 o s 2 rispettivamente. In questo secondo caso, anzi, possiamo definire una statistica, detta statistica t , o t-ratio, come β̂ j (1.26) q s · δj che ha la proprietà di fornire immediatamente la statistica F se elevata al quadrato. Il denominatore del rapporto si chiama errore standard del coefficiente β̂ j . Di nuovo: se mi fossi concesso il lusso di parlare di inferenza, vi spiegherei il perché, ma in questa dispensa è un nome come un altro.24 In questo caso, non c’è nemmeno bisogno di guardare il p-value: la regola a occhio che si segue fra economisti applicati è quella di rifiutare il vincolo se il t -ratio è, in valore assoluto, maggiore di 2. Poiché il vincolo equivale in pratica, all’irrilevanza della variabile esplicativa in questione, si dice che tale regressore è significativo nel modello, il che vuol dire in pratica che il suo influsso sulla funzione m(·) non può essere trascurato senza che il modello peggiori in modo sostanziale. Naturalmente, nessuno impedisce di usare anche in questo caso il trucchetto delle stelline (che anzi, sono la prima cosa che molti guardano). 1.5 Come si legge l’output Vediamo ora come le cose che vi ho raccontato fin a qui funzionano in un caso pratico: la Tabella 1.2 contiene un regressione effettuata su un dataset di 549 23 Come sempre, il lettore è invitato a controllare, anziché fidarsi. 24 Uno si potrebbe chiedere: c’è un motivo per usare s 2 anziché σ̂2 , e cioè la statistica F anziché la W ? Risposta: in realtà, no, se non la tradizione. E comunque, per un valore di n tale per cui abbia senso porsi il problema di voler sintetizzare i dati davvero non fa alcuna differenza. 37 studenti della facoltà di Economia di Ancona che hanno sostenuto l’esame di Economia Politica I (d’ora in poi, EP1) nell’anno accademico 2008/2009; la variabile dipendente è il voto che hanno preso.25 Il software usato è, come al solito, gretl, ma qualsiasi altro pacchetto econometrico restituisce un output che non è troppo diverso. Le variabili esplicative usate sono: sesso eta votomg votomat Legenda variabili 1 = maschio, 0 = femmina Età in anni Voto di Matematica Generale Voto di maturità (in 100esimi) Dependent variable: votoep1 coefficient std. error t-ratio p-value -------------------------------------------------------const 14.2526 2.33784 6.096 2.06e-09 *** sesso 0.265843 0.297672 0.8931 0.3722 eta -0.0546321 0.0631395 -0.8653 0.3873 votomg 0.297902 0.0421685 7.065 4.95e-12 *** votomat 0.0612471 0.0134888 4.541 6.91e-06 *** Mean dependent var Sum squared resid R-squared F(4, 544) Log-likelihood Schwarz criterion 25.60291 5981.851 0.168660 27.59138 -1434.609 2900.759 S.D. dependent var S.E. of regression Adjusted R-squared P-value(F) Akaike criterion Hannan-Quinn 3.623583 3.316029 0.162548 7.09e-21 2879.219 2887.637 Tabella 1.2: Esempio: il voto di Economia Politica I Cominciamo con le cose facili: sulla prima riga della parte inferiore della tabella trovate delle statistiche descrittive della variabile dipendente: media (circa 25.6) e scarto quadratico medio (circa 3.6). Qui c’è poco da interpretare e passo avanti. La riga seguente riporta la ESS del modello (pari a 5981.851) con, accanto, la radice quadrata di s 2 , che risulta in questo caso di circa 3.3. Ricordo, infatti, che s 2 = e0 e/(n −k). In questo caso, n = 549 e k = 5, per cui il conto è presto fatto. Insomma, la dimensione “tipica” degli errori di approssimazione a cui perviene questo modello è di circa 3 punti; considerando che il voto è in trentesimi, non un gran che. Nella riga ancora sotto, trovate l’indice R 2 e la sua variante aggiustata (vedi eq. 1.16). In entrambi i casi, siamo intorno al 16%-17%. Di nuovo, non un gran che, ma insomma meglio che niente. A questo punto, cominciamo a chiederci: come possiamo leggere il modello? Che informazioni ci ritorna sulle relazioni che intercorrono fra caratteristi25 Il 30 e lode è, piuttosto arbitrariamente, codificato come 31. 38 che del singolo studente e voto di EP1? Come cambierebbe il fit del modello se modificassimo la composizione dei regressori? 1.5.1 La lettura dei coefficienti È il momento di dare un’occhiata alla parte superiore della tabella, quella organizzata in colonne. Per ciascuno dei regressori abbiamo: 1. il corrispondente elemento di β̂, ossia β̂i ; p 2. il relativo errore standard, ossia s · δi ; 3. il loro rapporto, ossia il t -ratio (vedi eq. 1.26); 4. il p-value relativo, con tanto di stelline. Prendiamo ad esempio la variabile eta: la prima cosa da notare è che il coefficiente è negativo, per cui la funzione m(·) è decrescente nell’età dell’individuo. In pratica, a parità di altre condizioni, persone più in là negli anni tendono a prendere voti più bassi; peraltro, l’effetto è piuttosto lieve: un ventesimo di punto circa all’anno. Insomma, il voto medio dei quarantenni (di nuovo, ceteris paribus) è circa di un punto inferiore a quello dei ventenni. Ciò detto, ci sono tre domande che vengono in mente: 1. Perché succede questo? 2. Quanto è significativo questo fenomeno? 3. È corretto dire che questo vale in generale? La risposta alla prima domanda non ce l’ho: forse, quelli più vecchi sono più somari; forse, quelli più vecchi sono gente che lavora e ha meno tempo di frequentare e studiare; forse, semplicemente quelli che lavorano non si possono permettere di rifiutare un voto basso; forse, un quarantenne non ha amici che si siedono vicino a lui allo scritto e non può copiare da nessuno; forse, i docenti hanno una preferenza per gli studenti giovani; forse, è soltanto un caso. I dati non ci dicono quale di queste congetture è corretta: ci dicono che nel nostro dataset succede questo, punto. E peraltro, vale la pena di considerare la risposta alla domanda numero 2: cosa succederebbe se specificassimo una versione alternativa di questo modello, in cui l’età dell’individuo non viene presa in considerazione? È presto detto: la SSR, naturalmente, salirebbe, ma non di molto. Infatti, la statistica t relativa a questo coefficiente ammonta ad un misero -0.8653, il cui valore assoluto è ben al di sotto della soglia magica del 2; tant’è vero che il p-value è circa del 39%, degno di neanche una stellina. In pratica: l’omissione di questa variabile dal modello non fa peggiorare di molto la sua capacità di sintetizzare i dati. Come direbbe un economista applicato, la variabile età non è significativa. 39 La domanda numero 3 è davvero un coltello nella carne viva: abbiamo stabilito che, mediamente, gli studenti anagraficamente più anziani nel nostro campione prendono dei voti un pochino più bassi. Peraltro, l’effetto non sembra molto forte, tant’è che potremmo ignorare l’età dello studente e trovarci con un modello il cui potere descrittivo rimane grosso modo invariato. È assolutamente naturale interpretare il risultato come indicazione che l’età dello studente è, in generale, irrilevante per il voto di EP1: i docenti non fanno parzialità, i giovani non copiano più dei vecchi eccetera. In altre parole, la debolezza dell’effetto che l’età ha sul voto è una conseguenza del fatto che ciò che vediamo nel nostro campione è un caso, un volgare scherzo del destino quando invece in generale l’età di un candidato all’esame di EP1 non ha effetto sul voto. Il debole effetto che vediamo nel nostro campione non è più che un episodio. La conclusione di cui sopra è del tutto naturale e del tutto ingiustificata. Almeno, usando l’interpretazione dell’OLS che abbiamo usato fino ad ora. Infatti, tale conclusione sarebbe un esempio da manuale di ragionamento indu tti vo, ossia: 1. Ho visto la tal cosa succedere in passato. 2. Il futuro si ripeterà come il passato. 3. Di conseguenza, la tal cosa accadrà anche in futuro. Come notoriamente argomentò il filosofo scozzese David Hume, l’affermazione numero 2 è un puro e semplice atto di fede. Uno può scegliere di crederci, ma non ha nessun argomento razionale per convincerne chiunque altro. Eppure, a tutti noi piacerebbe poter ragionare dando per ovvio che la 2 valga: la nostra vita è piena di situazioni nelle quali noi ci comportiamo prendendo per certe delle cose che, a rigor di logica, non lo sono affatto. Se non lo facessimo, diventeremmo matti. Hume, addirittura, sosteneva che la tendenza all’induzione è un dato bioD AVID H UME logico dell’essere umano, argomento che io trovo molto persuasivo. L’inferenza statistica, che abbiamo bandito da questa dispensa, è appunto un modo per rendere passabilmente rigoroso un ragionamento di tipo induttivo, e si fonda sulla sostituzione dell’affermazione numero 2 fatta poc’anzi con una serie di assunzioni (e cioè affermazioni indimostrabili che scegliamo arbitrariamente di considerare come vere) che traducono in linguaggio formalizzato la nostra (naturale, direbbe Hume) tendenza a generalizzare. E quindi: a rigor di logica, l’evidenza empirica mostrata nella Tabella 1.2 non ci autorizza a dire che l’età è irrilevante anche al di fuori del nostro dataset, per quanto ragionevole questo ci sembri. Per poterlo fare, dovremmo fare delle opportune ipotesi sui motivi per cui abbiamo osservato i dati che abbiamo osservato (e non altri) e su quanto sarebbe stato diverso un dataset raccolto in un altro 40 anno accademico, o in un altro ateneo, o su un altro pianeta. Come ho ripetuto fino alla noia, noi qui non lo facciamo, ma l’econometria “vera” si fonda sull’idea di poterlo e doverlo fare, ed ecco perché per fare le cose sul serio bisogna studiare bene la teoria della probabilità. Ma mi fermo qui. Per controllare di aver capito bene, consideriamo il coefficiente associato ad un’altra variabile, e cioè votomg, il voto preso dallo studente in Matematica Generale. Il coefficiente vale circa 0.3, ciò che si traduce in: se due studenti con le stesse caratteristiche hanno preso 21 e 28 di Matematica Generale rispettivamente, il nostro modello ci suggerisce che il voto che il secondo studente ha preso di EP1 sarà di circa 2 punti superiore a quello del primo. Il conto della serva sarebbe: (28 − 21) × 0.297902 ' 2.09. Inoltre, il coefficiente è significativo: il t -ratio è un roboante 7.065, equivalente ad un p-value di circa 5 · 10−12 , che si merita tre stelline.26 Come direbbe un economista applicato, la variabile “voto di matematica” è molto significativa. Ciò premesso, possiamo dire che l’esclusione di questa variabile dal nostro modello produrrebbe un suo forte peggioramento? Assolutamente sì. Possiamo dire che quelli che prendono buoni voti in Matematica Generale prendono voti mediamente più alti degli altri in EP1? Nel nostro campione, assolutamente sì. Fuori dal nostro campione, no.27 Possiamo dire che, se gli studenti studiassero meglio matematica, andrebbero meglio di economia? Ci piacerebbe poterlo fare, ma non è un’affermazione che possiamo motivare in modo rigoroso. Possiamo dire che, se i docenti di Matematica Generale abbassassero le loro valutazioni di 2 punti, questo condurrebbe ad un abbassamento dei voti di EP1 intorno a 0.6? Certamente no. 1.5.2 Il resto dell’output Non restano molte cose da commentare, e sono tutte nelle ultime tre righe della Tabella 1.2. La statistica F alla quarta riga è semplicemente il confronto fra il modello e un modello assolutamente minimale, basato sulla sola media aritmetica, cioè un confronto fra e0 e e y0 Mι y. In pratica, il vincolo consiste nell’azzeramento contemporaneo di tutti i coefficienti ad esclusione del primo. In questo caso, il p-value è talmente infinitesimale da autorizzarci a preferire il modello libero.28 La riga seguente contiene il valore della log-verosimiglianza (in inglese, loglikelihood), che è calcolato come L=− ¤ n£ 1 + ln(2π) + ln(σ̂2 ) 2 26 Per dare l’idea: 5 · 10−12 è circa il rapporto che c’è fra il prezzo di una pizza e una birra e il debito pubblico dello Stato italiano. 27 Anche se non possiamo neanche dire che non sia vero; su questo argomento, non possiamo dire niente. 28 Il lettore entusiasta non tarderà a scoprire una semplice relazione, che dimostra che questa statistica è una funzione crescente dell’indice R 2 , e in pratica contiene la stessa informazione. 41 Nel nostro contesto, non si vede quale informazione questo numero aggiunga essendo, di nuovo, una trasformazione monotona della SSR. La sua utilità emerge soprattutto in un contesto probabilistico-inferenziale. Per noi, qui, è utile solo in quanto fornisce l’ingrediente di base per il calcolo dei cosiddetti criteri di informazione, che sono delle statistiche utili a confrontare modelli non annidati. Cosa vuol dire “modelli non annidati”? Sono modelli che non si possono esprimere in modo tale che uno dei due sia un caso particolare dell’altro. Per esempio, i due modelli visti alle equazioni (1.14) e (1.15) sono annidati perché, come abbiamo ampiamente argomentato, la (1.15) assieme al vincolo γ = 0 diventa la (1.14). Consideriamo però la situazione in cui dobbiamo scegliere fra yi ' x0i β yi ' z0i γ Di nuovo, vorremmo trovare un accettabile compromesso fra l’esigenza di approssimare le y i meglio che si può e quella di farlo usando un numero di parametri abbastanza piccolo da rendere la nostra approssimazione compatta e maneggevole. L’idea, pertanto, è di definire delle statistiche che bilancino queste due esigenze in modo ragionevole. Un primo esempio l’abbiamo già visto, ed è l’indice R̄ 2 (vedi eq. 1.16 nella sezione 1.3.2). I criteri di informazione prendono come base la log-verosimiglianza (moltiplicata per -2) e ci aggiungono una funzione (detta di penalizzazione) che è crescente nel numero di parametri del modello, e talvolta anche nel numero di osservazioni. I criteri che gretl riporta sono quelli di Akaike (AIC), quello di Schwartz (BIC) e quello di HannanQuinn (HQC), che , come si vede, si differenziano fra loro solo per la forma della funzione di penalizzazione. AIC = −2L + 2k (1.27) BIC = −2L + k log n (1.28) HQC = −2L + 2k log log n (1.29) Dovrebbe essere ovvio che ognuno di questi criteri dovrebbe essere, idealmente, più basso possibile. Per cui, fra due modelli non annidati tendenzialmente sceglieremo quello che presenta il criterio più basso. Forse potrei fare un esempio e rendere più chiaro il tutto, ma magari a questo punto se lo può anche inventare il lettore. 1.5.3 Il teorema di Frisch-Waugh Un’altra cosa che si vede molto bene usando le matrici di proiezione è il teorema di Frisch-Waugh: supponiamo di dividere le colonne di X in due gruppi, che chiamiamo X1 e X2 . Naturalmente, viene diviso di conseguenza anche il vettore 42 β, così che possiamo scrivere £ ŷ = X1 X2 · ¸ ¤ β̂1 β̂2 L’applicazione della (1.10) produce la seguente espressione: · ¸ · 0 X X1 β̂1 = 10 X2 X1 β̂2 X01 X2 X02 X2 ¸−1 · 0 ¸ X1 y X02 y Si possono, a questo punto, ricavare β1 e β2 in funzione di X1 , X2 e y andando a vedere che forma ha l’inversa della matrice X0 X; la cosa presenta anche un certo interesse didattico, ma c’è un modo più conciso ed elegante di recuperare il risultato che ci interessa. Consideriamo che y = ŷ + e = X1 β̂1 + X2 β̂2 + e e premoltiplichiamo l’espressione sopra per MX2 ; si ha MX2 y = MX2 X1 β̂1 + e perché MX2 X2 = 0 (per costruzione) e MX2 e = e (perché e = MX y, ma Sp (X2 ) ⊂ Sp (X), e quindi MX2 MX = MX ). Premoltiplicando ancora per X01 otteniamo X01 MX2 y = X01 MX2 X1 β̂1 perché X01 e = 0. Di conseguenza, ¡ ¢−1 0 β̂1 = X01 MX2 X1 X1 MX2 y (1.30) Si noti che la (1.30) potrebbe anche essere scritta £ ¤−1 0 β̂1 = (X01 MX2 )(MX2 X1 ) (X1 MX2 )(MX2 y) e quindi β̂1 è il vettore dei coefficienti della regressione che approssima i residui di y rispetto a X2 sui residui di X1 rispetto a X2 . Per ragioni di simmetria, è del tutto ovvio che risulta ¡ ¢−1 0 β̂2 = X02 MX1 X2 X2 MX1 y Cosa ci dice questo risultato? Ci dice che i coefficienti relativi ad un gruppo di regressori misurano la risposta di ŷ al netto degli altri. L’esempio che si fa in genere è: l’inclusione del vettore ι fra i regressori fa sì che i coefficienti associati agli altri regressori (chiamiamoli X1 ) sono quelli che si otterebbero facendo la regressione degli scarti dalla media di y sugli scarti di X1 dalla propria media. Dimostrazione: immediata, ponendo X2 = ι (e quindi, MX2 = Mι ). Un esempio più articolato, che forse aiuta un po’ di più la comprensione, è: immaginiamo che y contenga dati sui redditi di n individui, che X1 sia il loro livello di istruzione e che X2 contenga la costante e una dummy che vale 0 se gli 43 individui abitano al Nord e 1 se al Sud. Naturalmente MX2 y contiene gli scarti dal reddito medio della propria regione, così come MX2 X1 contiene gli scarti degli anni di istruzione dalla media della propria regione. In pratica, stiamo pulendo i dati dell’effetto Nord-Sud, e quindi stiamo implicitamente tenendo conto che differenze di reddito fra regioni posso dipendere da differenze nel livello di istruzione medio fra una regione e l’altra. Di conseguenza, stimando un modello che contiene sia la variabile “istruzione” che la dummy “regione”, il coefficiente relativo all’istruzione misura l’effetto dell’istruzione sul reddito al netto degli effetti territoriali. In gergo, si direbbe in questo caso che “stiamo controllando per la dummy regione”, il che significa che gli effetti delle altre variabili sono da considerarsi depurati dall’effetto di eventuali disparità geografiche. Un esempio pratico lo fornisce la coppia di modelli mostrata nella Tabella 1.3, in cui sono usati dati provenienti dal database dei World Development Indicators, curato dalla Banca Mondiale. Le variabili usate sono: l_inet l_wpoll l_gdp Legenda variabili Logaritmo della quota di popolazione che usa Internet (var. dipendente) Logaritmo dell’indice di inquinamento delle acque (var. esplicativa) Logaritmo del PIL pro capite (var. esplicativa) Variabile dipendente: l_inet (Errori Standard in parentesi) const l_wpoll (a) 5.100∗∗ (0.8758) (b) −5.748∗∗ (1.176) −0.7967∗∗ (0.3026) −0.1388 (0.1923) 61 0.1051 0.0900 100.7983 0.9451∗∗ (0.09169) 61 0.6840 0.6731 35.5991 l_gdp n R2 R̄ 2 SSR Tabella 1.3: Uso di Internet Il modello (a) ci informa che usare il dato dell’inquinamento delle acque per approssimare i diversi livelli di uso di Internet fra i paesi produce risultati non disprezzabili: i paesi con le acque più pulite sono quelli in cui più persone usano Internet. Il coefficiente dell’inquinamento nel modello (a) si pavoneggia, forte delle sue due stelline. Ora, non è che buttare diossina in un fiume provochi una diminuzione dei vostri contatti Facebook. È che i paesi più ricchi sono anche quelli che si posso44 no permettere la tecnologia anti-inquinamento (che costa un sacco di soldi). E infatti, guardando il modello (b) si vede che, una volta che si è controllato per il reddito pro capite, le stelline sull’inquinamento scomapiono. Fra l’altro, come si vede, la SSR diminuisce sensibilmente. Questo non vuol dire che il modello (a) sia sbagliato; è un modello parziale, se volete incompleto, in cui il dato statistico della correlazione negativa fra inquinamento e uso della rete produce il risultato ovvio di un coefficiente negativo e significativo. Non è che la correlazione fra inquinamento e uso di Internet non esista. È semplicemente che tale correlazione dipende da una causa a monte di ambedue, che è il livello di sviluppo economico. Una volta che introduciamo nel modello una variabile che spiega il perché di questa correlazione (a cui, evidentemente, non si può dare alcuna connotazione causale), l’effetto sparisce. Questo ci consente di dire che il modello (b) è “giusto”? Per me, in assoluto no. Tuttavia, ci consente di dire che è più giusto del modello (a) o, meglio ancora, meno sbagliato. 1.5.4 L’effetto leva I patiti della finanza non si eccitino anzitempo: parliamo di una cosa diversa. Supponiamo di voler ricalcolare l’OLS senza la i -esima osservazione e chiamiamo β̂(−i ) la statistica corrispondente. Anzi, usiamo la convenzione di usare il pedice “(−i )” per intendere “esclusa la i -esima osservazione”; quindi, con un certo qual abuso di notazione, X(−i ) è una matrice di n −1 righe e k colonne, data dalla matrice X alla quale abbiamo tolto la i -esima riga. Il motivo per cui lo facciamo è per vedere cosa succede al nostro modello se una certa osservazione, che in realtà abbiamo, non fosse stata disponibile. È chiaro che, se i risultati cambiassero drasticamente omettendo questa osservazione dal nostro dataset, quella osservazione merita di essere studiata in modo approfondito, perché rappresenta, per così dire, un caso a parte, e quindi potrebbe anche venirci il dubbio che stiamo sbagliando qualcosa: magari i dati sono sbagliati, magari il nostro modello è inapplicabile a quel certo individuo29 , magari ci siamo dimenticati di includere nel modello un qualche regressore importante, o non ce l’abbiamo. Come che sia, un modo elegante per vedere cosa succede è quello di considerare un modello in cui alla matrice dei regressori viene aggiunta una colonna d, che contiene tutti zeri, a parte la i -esima riga, che contiene 1. Senza perdita di generalità, supponiamo che i = n; quindi, d è un vettore di zeri con un 1 in fondo. In pratica, il modello diventa (1.31) y = Xβ + dα + e = Wγ + e dove · ¸ y(−i ) y= yi · X(−i ) W= x0i 29 Aaaaaaahhhh! La legge ad personam! 45 ¸ 0 1 · ¸ β γ= α Il modello di partenza è, ovviamente, il modello vincolato con α = 0. Alcuni risultati che ci faranno comodo nel prosieguo:30 X0 Md = h X0(−i ) i 0 X0 Md X = X0(−i ) X(−i ) = 0 X Md y = X0(−i ) y(−i ) = X j 6=i X j 6=i x j x0j x j y 0j 0 d MX d = m i 0 d MX y = d0 ẽ = ẽ i Dove ẽ sono i residui dell’OLS sul modello di partenza, che poi altro non è che il modello nell’equazione (1.31), vincolato ad α = 0; m i è l’i -esimo elemento sulla diagonale di MX , ossia 1 − x0i (X0 X)−1 xi . È anche utile introdurre la quantità h i = 1 − m i = x0i (X0 X)−1 xi , l’i -esimo elemento sulla diagonale di PX . I risultati dell’OLS applicato all’equazione (1.31) sono facili da trovare tramite il teorema di Frisch-Waugh: β̂ = (X0 Md X)−1 X0 Md y = (X0−1 X−1 )−1 X0−1 y−1 α̂ = (d0 MX d)−1 d0 MX y = ẽ i /m i Il vettore β̂ non è altro che la statistica OLS ottenuta omettendo l’i -esima osservzione. Per quanto invece riguarda α̂, invece, consideriamo il vettore dei residui ê = MW y; notiamo in primo luogo che d0 MW = 00 (vero per costruzione, visto che d ∈ Sp (W)) implica d0 ê = ê i = 0. Di conseguenza, α̂ = y i −x0i β̂, che si può vedere come l’errore commesso usando tutte le altre osservazioni per predire la i -esima. Chiamiamolo “errore di previsione”. Inoltre, dalla definizione di ê si ha y = Xβ̂ + dα̂ + ê, che, premoltiplicata per MX , dà MX y = ẽ = MX dα + ê e quindi ẽ0 ẽ = d0 MX dα2 + ê0 ê e infine ê0 ê = ẽ0 ẽ − ẽ i2 /m i che mostra come la SSR del modello senza la i -esima osservazione sia uguale alla SSR del modello completo meno ẽ i2 /m i . 30 Sono facili da dimostrare. Anzi: è un esercizio carino, sapete? Fatelo. 46 Si noti che tutte queste quantità possono essere calcolate senza ricalcolare l’OLS sull’equazione (1.31), ma semplicemente riutilizzando i risultati dell’OLS sul dataset completo. Si può dimostrare che β̂ = β̃ + (X0 X)xi ẽ i mi x0i β̂ = x0i β̃ + ẽ i hi mi di conseguenza, Sembra chiaro che la grandezza ẽ i /m i è suscettibile di un’interpretazione particolare: più è grande, più la i -esima osservazione impatta sulla stima complessiva. Ovviamente, questo succede tanto più è grande (in valore assoluto) ẽ i , ma ovviamente questo dipende anche da quanto è piccolo m i , e quindi da quanto è grande h i . Per dare un’ordine di grandezza, si può mostrare che la media aritmetica delle h i è uguale a k/n. Più precisamente: si chiama traccia di una matrice quadrata la somma degli elementi lungo la sua diagonale, e si scrive tr (A) = n X a i ,i , i =1 in cui naturalmente immaginiamo che A sia una matrice n × n. La funzione traccia ha un sacco di proprietà divertenti: in primo luogo, è lineare (ma questo è piuttosto ovvio), per cui tr (A + B ) = tr (A) + tr (B ); per di più, se A = BC , allora tr (A) = tr (BC ) = tr (C B ) in cui la prima uguaglianza è ovvia, ma la seconda lo è molto meno. Più in generale, vale quella che io chiamo “proprietà del trenino”, per cui dentro la funzione traccia si può staccare un vagone dalla cima e attaccarlo in testa e viceversa, cosicché tr (ABC ) = tr (BC A) = tr (C AB ) Questo risultato ci consente di dimostrare facilmente che tr (PX ) = k: infatti ¡ ¢ ¡ ¢ tr (PX ) = tr X(X0 X)−1 X0 = tr (X0 X)−1 X0 X = tr (I ) = k Poiché h i non è che l’i -esimo elemento sulla diagonale di PX e quasta matrice ha n righe, chiaramente la media delle h i è k/n e m i è, in media 1 − k/n. Il criterio di cross-validation è un criterio che misura la “stabilità” del nostro modello misurando quanto grandi sarebbero gli errori di previsione per tutte le osservazioni. n n µ ẽ ¶2 X X i 2 e (−i ) = i =1 i =1 m i 47 1.6 La regressione dinamica Finora, abbiamo dato per scontato che le informazioni utili per costruire un’approssimazione del dato di nostro interesse y i fossero reperibili solo nel corrispondente elemento xi ; in certi casi, questa assunzione è del tutto naturale. In un dataset di tipo cross-section, ad esempio, questa è la norma. Perché mai le caratteristiche del signor Rossi dovrebbero essere utili nel sintetizzare il dato relativo al signor Bianchi? Certo, in alcuni frangenti non saremmo così sicuri. Forse il tasso di disoccupazione in Emilia-Romagna può avere degli effetti sui salari in Toscana. Forse nel libretto di Pinco Pallino il voto di Statistica I ha qualche cosa a che fare con il numero di ore passate a studiare Matematica Generale. Se proprio volessimo trattare questo punto in modo generale, allora potremmo dire che, in astratto, nessuno ci vieta di pensare a modelli in cui la funzione m(·), che usiamo per approssimare l’i -esimo elemento del vettore y, possa dipendere dall’intera matrice X. Ma, come spesso accade, perseguire la generalità porta rapidamente a porsi dei problemi che non hanno soluzione. Perché si possa dire qualcosa di sensato, il problema va delimitato in qualche modo. Nell’econometria “per davvero”, la soluzione più generale ed elegante porta ai cosiddetti modelli spaziali, che oggi godono di una certa popolarità e di cui però non parlo. Un caso che, invece, è ben noto da lungo tempo è quello dei campioni di serie storiche. In questo caso, il problema risulta molto semplificato per via di due caratteristiche: 1. I dati hanno un ordinamento naturale. 2. In un dato istante di tempo, possiamo ritenere noto ciò che accade nel presente e che è accaduto nel passato, ma non quello che accadrà nel futuro. Facendo violenza a ciò che c’è di più sacro nell’analisi probabilistica delle serie storiche, a questo punto introduco una definizione: chiamiamo set informativo al tempo t l’insieme delle informazioni note al tempo t e usiamo per indicarlo il simbolo ℑt . In pratica, se usiamo, come di consueto, il vettore y per raccogliere i dati sulla variabile dipendente e la matrice X per le variabili esplicative, possiamo dire che il set informativo al tempo t è l’insieme © ª ℑt = x1 , x2 , . . . xt , y 1 , y 2 , . . . , y t −1 Si noti che non solo, come è ovvio, l’insieme ℑt contiene le prime t righe di X, ma contiene anche i dati sulla y fino al tempo t − 1. Questo perché il problema dell’approssimazione viene visto implicitamente in chiave sequenziale: vogliamo approssimare y t sulla base delle informazioni che abbiamo al tempo t . È evidente che, per definizione, ℑt −1 ⊂ ℑt ⊂ ℑt +1 , per cui, in linea di principio, ad ogni istante la funzione che usiamo per approssimare y t può essere 48 diversa da tutte le precedenti; più passa il tempo, più cose sappiamo. Tuttavia, potremmo anche decidere di ignorare per semplicità le informazioni provenienti da un passato “troppo” remoto, ed autolimitarci a considerare solo un p sottoinsieme di ℑt dato da tutto ciò che è avvenuto nel passato recente: © ª p ℑt = xt −p , x y−p+1 , . . . xt , y t −p , y t −p+1 , . . . , y t −1 dove lo scalare p è la traduzione del nostro concetto di “recente”. Se aggiungiamo un piccolo livello di flessibilità nell’ammettere che il limite all’indietro per la y t non deve necessariamente essere uguale a quello per la xt , il problema è abbastanza delimitato da permetterci di approssimare y t per mezzo della funzione p q X X yt ' αi y t −i + β0i xt −i (1.32) i =1 i =0 così che possiamo scrivere una cosa del tipo α1 α2 . . . . x0p−q+1 e p+1 .. . . . x0p−q+2 αp e p+2 + e . . . x0p−q+3 β0 p+3 .. β 1 . . . . βq yp y p+1 y y p+2 p+1 y p+3 = y p+2 .. . y p−1 yp y p+1 ... ... ... y1 y2 y3 x0p+1 x0p+2 x0p+3 .. . x0p x0p+1 x0p+2 e rientrare così nello schema analitico che abbiamo seguito fino a qui, con la conseguenza che possiamo continuare ad usare l’OLS. Un modello così si chiama modello ADL(p,q), dove ADL sta per Autoregressive Distributed Lags. Spiegare perché è pedante e noioso e probabilmente inutile, per cui non lo faccio. Dico invece che il calcolo di parametri avviene, di nuovo, per mezzo della tecnica OLS, e quindi non c’è molto da dire in più di quanto abbiamo già detto. È interessante, invece, porsi un’altra domanda, che deriva dal fatto che stiamo usando come approssimazione della variabile dipendente una funzione che non è più una semplice funzione lineare, ma è un oggetto più complesso noto come equazione alle differenze. Ciò apre un problema di interpretazione: se nel modello statico il coefficiente β j ha un’interpretazione naturale in termini di derivata parziale (vedi (1.6) a pag. 15), un’operazione analoga è un po’ più difficile per un’equazione alle differenze. Come vedremo, dovremo estendere il concetto da statico a dinamico, ossia chiederci, per un’equazione del tipo yt = p X αi y t −i + i =1 q X i =0 49 β0i xt −i quale sia l’effetto della x sulla y t dopo un dato lasso di tempo. In pratica, la domanda da porsi è: che effetto ha un movimento nella xt su y t + j ? Che poi, dal momento che i coefficienti αi e βi non dipendono da t , è la stessa cosa che chiedersi: che effetto ha avuto su y t un evento avvenuto j periodi fa, ossia xt − j ? Ovvio che, per j = 0, questa domanda comprende come caso particolare il modello statico, ossia l’equazione lineare, ma consente anche di descrivere meccanismi più complessi, in cui le cose non succedono necessariamente all’istante. Dobbiamo trovare un modo, pertanto, di calcolare delle grandezze del tipo di = ∂y t ∂y t +i = , ∂xt −i ∂xt (1.33) che si chiamano moltiplicatori dinamici, o anche semplicemente moltiplicatori. Il primo, cioè d 0 si chiama anche moltiplicatore d’impatto. Per risolvere il problema dobbiamo imparare a manipolare le equazioni alle differenze. Coraggio e rimbocchiamoci le maniche. 1.6.1 L’operatore ritardo In fin dei conti, le serie storiche non sono altro che sequenze di numeri, ordinate attraverso il tempo. In molti casi, è comodo poter manipolare le sequenze con degli appositi attrezzi, detti operatori. L’operatore ritardo viene generalmente indicato con la lettera L nella letteratura econometrica (gli statistici preferiscono la B ); è un operatore che si applica a sequenze di oggetti, e trasforma una sequenza x t in un altra sequenza che ha la curiosa caratteristica di avere gli stessi valori di x t , ma sfalsati di un periodo.31 Se applicato ad una grandezza costante nel tempo, la lascia invariata. In formule, Lx t = x t −1 L’applicazione ripetuta n volte di L viene indicata con la scrittura L n , e quindi si ha L n x t = x t −n . Per convenzione si pone L 0 = 1. L’operatore L è un operatore lineare, nel senso che, se a e b sono costanti, si ha L(ax t + b) = aLx t + b = ax t −1 + b. La caratteristica più graziosa dell’operatore L è che le sue proprietà appena enunciate permettono, in molte circostanze, di manipolarlo algebricamente come se fosse un numero. Questo avviene soprattutto quando si considerano polinomi nell’operatore L. Facciamo un paio di esempi semplici. Esempio 3 Una squadra di calcio ha in classifica tanti punti quanti ne aveva alla giornata precedente, più quelli che ha guadagnato nell’ultimo turno. Chiamando rispettivamente queste sequenze c t e u t , si avrà c t = c t −1 + u t 31 In certi contesti, si utilizza anche il cosiddetto operatore anticipo, usualmente indicato con la lettera F e definito come l’inverso dell’operatore ritardo (F x t = x t +1 ). Noi non lo useremo mai, ma è bello sapere che c’è. 50 La stessa cosa si sarebbe potuta scrivere adoperando l’operatore ritardo: c t = Lc t + u t → c t − Lc t = (1 − L)c t = ∆c t = u t L’operatore ∆, che dovrebbe essere una vecchia conoscenza, è definito come (1 − L), ossia un polinomio di primo grado in L. L’espressione precedente non dice altro che la variazione dei punti in classifica è data dai punti guadagnati in ogni giornata. Esempio 4 Chiamiamo q t il saldo demografico trimestrale per il comune di Rocca Cannuccia. È evidente che il saldo demografico annuale (cioè le nascite degli ultimi 12 mesi meno le morti nello stesso periodo) sono date da a t = q t + q t −1 + q t −2 + q t −3 = (1 + L + L 2 + L 3 )q t Poiché (1 + L + L 2 + L 3 )(1 − L) = (1 − L 4 ) (moltiplicare per credere), “moltiplicando” l’espressione precedente32 per (1 − L) si ha ∆a t = (1 − L 4 )q t = q t − q t −4 la variazione del saldo demografico annuale tra un trimestre ed il successivo non è che la differenza fra il saldo dell’ultimo trimestre e il corrispondente trimestre dell’anno precedente. Le manipolazioni possono essere anche più complesse; in particolare ci sono due risultati di routine: il primo è che n X i =0 ai = 1 − a n+1 1−a P 1 i per a 6= 1. Se poi |a| < 1, si ha che a n → 0 e quindi ∞ i =0 a = 1−a . Ponendo a = αL, si può dire che, per |α| < 1, i due operatori (1 − αL) e (1 + αL + α2 L 2 + · · · ) sono uno l’inverso dell’altro. In pratica, se |a| < 1, vale (1 − αL)(1 + αL + α2 L 2 + · · · ) = 1, da cui l’espressione (1 − αL)−1 = ∞ X αi L i , i =0 che spesso si abbrevia anche in ∞ X αi L i = i =0 1 . 1 − αL 32 Ad essere precisi, si dovrebbe dire: ‘applicando all’espressione precedente l’operatore (1 − L)’. 51 Il secondo risultato riguarda i polinomi. Prendiamo un polinomio di nesimo grado, e chiamiamolo P (x). Per definizione, si ha P (x) = n X pjxj j =0 Se P (0) = p 0 = 1, allora è possibile esprimere il polinomio di n-esimo grado come il prodotto di n polinomi di primo grado: P (x) = n Y (1 − λ j x) (1.34) j =1 i coefficienti λ j non sono altro che i reciproci delle radici di P (x), ossia quei valori per cui P ( λ1j ) = 0. Nessuno assicura che queste radici siano reali (per n > 1 possono anche essere numeri complessi), ma dal punto di vista teorico questo non ha alcuna rilevanza. Questo risultato è importante perché, unito al precedente, permette di stabilire le condizioni di invertibilità per polinomi di qualunque grado. In particolare, si vede facilmente che il polinomio P (x) è invertibile se e solo se ognuno degli elementi della produttoria nell’equazione (1.34) lo è. Di conseguenza, P (x) è invertibile se e solo se |λ j | < 1 per ogni j , ciò che, a sua volta, è vero se e solo se tutte le radici del polinomio sono maggiori di 1 in valore assoluto. In pratica: se una sequenza è a t è definita come trasformazione di un’altra sequenza u t attraverso il polinomio P (L), ciò che in formule si scrive a t = P (L)u t , allora è possibile ritrovare la sequenza u t partendo da a t solo se l’operatore P (L) ha un’inverso, cioè se i valori z che rendono vera P (z) = 0 sono tutti numeri maggiori di 1 in modulo. In questo caso, si può scrivere u t = P (L)−1 a t = 1 at . P (L) Un altro trucchetto di uso comune è quello di valutare un polinomio P (L) in L = 1. Evidentemente, l’espressione P (1) è uguale a P (1) = n X p j 1j = j =0 n X pj j =0 e quindi è semplicemente uguale ad un numero, dato dalla somma dei coefficienti del polinomio. Questo torna comodo quando si applica un polinomio ad una costante, visto che P (L)µ = n X pjµ = µ j =0 n X j =0 Vediamo un altro esempio: 52 p j = P (1)µ. Esempio 5 (Il moltiplicatore keynesiano) Supponiamo che Yt = Ct + It Ct = αY t −1 Dove α è la propensione marginale al consumo, compresa fra 0 e 1. Combinando le due equazioni si ha Y t = αY t −1 + I t → (1 − αL)Y t = I t ; in questo modello, quindi, applicando alla sequenza Y t (la serie storica del reddito) il polinomio di primo grado A(L) = (1 − αL) si ottiene la serie storica degli investimenti, semplicemente perché I t = Y t −C t = Y t − αY t −1 . Un risultato più interessante si ha invertendo l’operatore A(L) = (1 − αL): Y t = (1 + αL + α2 L 2 + · · · )I t = ∞ X αi I t −i : i =0 la domanda aggregata al tempo t può essere vista come una somma ponderata dei valori presenti e passati dell’investimento. Se poi il flusso di investimenti è costante nel tempo, allora I t = I¯ può essere tirato fuori dalla sommatoria, e si ottiene il risultato standard da libro di macro elementare: ∞ X I¯ Y t = I¯ αi = . 1−α i =0 In questo ultimo caso si sarebbe anche potuto scrivere A(1)Y t = I¯ =⇒ Y t = I¯ . 1−α Il fatto che spesso si può maneggiare l’operatore L come se fosse un numero non vuol dire che lo si possa far sempre: bisogna sempre ricordare che Lx t non è ‘L per x t ’, ma ‘L applicato a x t ’. L’esempio seguente dovrebbe servire a mettere in guardia. Esempio 6 Date due sequenze x t e y t , definiamo una terza sequenza z t = x t y t . È del tutto chiaro che z t −1 = x t −1 y t −1 . Tuttavia, potremmo essere tentati di fare il seguente ragionamento: z t −1 = x t −1 y t −1 = Lx t Ly t = L 2 x t y t = L 2 z t = z t −2 che è evidentemente assurdo. L’operatore L può essere applicato in modo del tutto analogo anche nel caso in cui x t sia un vettore: Lxt = xt −1 . Le cose si fanno più articolate se consideriamo espressioni del tipo xt + Axt −1 = (I + AL)xt dove A è una matrice. In questo caso l’espressione (I + AL) è un operatore — funzione dell’operatore L — matriciale. Esso può essere visto in due modi equivalenti: 53 Polinomio matriciale L’operatore (I + AL) è la somma di due matrici, ognuna delle quali “moltiplica” l’operatore L per una potenza diversa. Si può pensare a (I + AL) come ad un polinomio di ordine 1 nell’operatore L in cui il primo coefficiente è la matrice identità ed il secondo è la matrice A. Matrice di polinomi L’operatore (I + AL) è una matrice i cui elementi sono polinomi di ordine 1; ad esempio, l’elemento i j di (I + AL) è d i j + a i j L, dove d i j è il cosiddetto ‘delta di Kronecker’, che è uguale a 1 per i = j e 0 altrimenti. La generalizzazione al caso di polinomi di ordine p dovrebbe essere immediata, così che un’espressione del tipo yt = C (L)xt = C 0 xt +C 1 xt −1 + · · · +C p xt −p non dovrebbe destare alcuno stupore. Se il vettore xt ha n elementi e le C i sono matrici (r × n), allora yt è una sequenza di vettori di r elementi. Il problema dell’invertibilità in questo contesto è però un tantino più complicato, per cui glisso. 1.6.2 Equazioni alle differenze Ora che i polinomi in L non hanno per noi più segreti, possiamo passare al problema che davvero ci interessa. Partiamo da un’equazione alle differenze, che possiamo scivere come A(L)y t = B (L)x t dove A(L) e B (L) sono polinomi in L di ordine p e q rispettivamente. In generale, y t e x t possono essere vettori, nel qual caso A(L) e B (L) sono polinomi matriciali. Qui, per far le cose semplici, assumerò che siano scalari. Se il polinomio A(L) è invertibile, possiamo definire D(L) = B (L)/A(L), che per A(L) 6= A(0) è infinito e quindi ∞ X y t = D(L)x t = d i x t −i i =0 A questo punto, il problema da cui eravamo partiti, e cioè quello di dare un’interpretazione ai parametri di un’equazione alle differenze, è risolto: infatti, i moltiplicatori dinamici definiti all’equazione (1.33), che riporto qui sotto di = ∂y t ∂y t +i = , ∂x t −i ∂x t sono semplicemente i coefficienti del polinomio D(L). Questi, volendo, si possono calcolare analiticamente invertendo il polinomio A(L), ma non è né interessante né divertente. Invece, si può fare la stessa cosa in modo rapido ed istruttivo usando un algoritmo ricorsivo, e ora vi spiego come. Cominciamo col dire che il moltiplicatore di impatto è facile da trovare, perché è semplicemente d 0 , ossia D(0), ossia B (0)/A(0), ossia β0 (visto che A(0) = 54 1). Tutti gli altri moltiplicatori possono essere trovati da lì in funzione di quelli già disponibili semplicemente sfruttando la definizione (1.33); per essere più chiari, la (1.33) permette di esprimere d i per mezzo di d i −1 , d i −2 eccetera. Una volta trovato il primo, gli altri seguono. Faccio un esempio che mi sa che è meglio. Nel caso dell’ADL(1,1), y t = αy t −1 + β0 x t + β1 x t −1 , (1.35) usando il fatto che un moltiplicatore non è che una derivata, si ha d0 = d1 = d2 = ¢ ∂y t ∂ ¡ = αy t −1 + β0 x t + β1 x t −1 = β0 ∂x t ∂x t ¢ ∂y t ∂ ¡ ∂y t −1 = αy t −1 + β0 x t + β1 x t −1 = α + β1 = αd 0 + β1 ∂x t −1 ∂x t −1 ∂x t −1 ¢ ∂y t ∂ ¡ ∂y t −1 = αy t −1 + β0 x t + β1 x t −1 = α = αd 1 ∂x t −2 ∂x t −2 ∂x t −2 eccetera, eccetera, eccetera, eccetera, eccetera, . . . Esempio 7 (Inversione di polinomi) Supponiamo che y t = 0.2y t −1 + 0.4x t + 0.3x t −2 . In questo caso A(L) = 1 − 0.2L e B (L) = 0.4 + 0.3L 2 . L’inverso di A(L) è A(L)−1 = 1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · per cui B (L) = (0.4 + 0.3L 2 ) × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · ) A(L) È evidente che il calcolo a mano si può fare, e risulta B (L) A(L) = 0.4 × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · ) + +0.3L 2 × (1 + 0.2L + 0.04L 2 + 0.008L 3 + · · · ) = = 0.4 + 0.08L + 0.016L 2 + 0.0032L 3 + · · · + +0.3L 2 + 0.06L 3 + 0.012L 4 + 0.0024L 5 · · · = = 0.4 + 0.08L + 0.316L 2 + 0.0632L 3 + · · · Ma si fa prima a fare il calcolo ricorsivo: d0 = B (0)/A(0) = 0.4/1 = 0.4 d1 = 0.2 · d 0 = 0.08 d2 = 0.2 · d 1 + 0.03 = 0.016 + 0.3 = 0.316 d3 = 0.2 · d 2 = 0.0632 e così via. 55 In molte circostanze, è interessante applicare i moltiplicatori per rispondere ad una domanda ben specifica: cosa succede a y t se si verifica una variazione permanente in x t . Chiaramente, al tempo zero l’effetto sarà dato dal moltiplicatore d’impatto d 0 , ma dopo un periodo bisognerà sommare l’effetto istantaneo con quello derivante dal periodo precedente, e quindi l’effetto sarà dato da d 0 + d 1 . Procedendo per induzione, è naturale definire una nuova sequenza di moltiplicatori come j X c j = d0 + d1 + · · · + d j = di . i =0 La grandezza c j si chiama moltiplicatore interinale e misura l’effetto su y t di una variazione permanente di x t avvenuta j periodi fa. Naturalmente, è interessante calcolare c = lim j →∞ c j , che è noto come moltiplicatore di lungo periodo. La cosa è più semplice di quanto sembri, visto che cj = ∞ X d i = D(1) i =0 ossia c è il valore del polinomio D(z) valutato in z = 1; ma poiché D(z) = B (z)/A(z), (1) . se ne deduce che c = BA(1) Esempio 8 (Moltiplicatori interinali) Riprendiamo l’esempio precedente in cui y t = 0.2y t −1 + 0.4x t + 0.3x t −2 . I moltiplicatori interinali si calcolano facilmente partendo da quelli dinamici: c0 = d 0 = 0.4 c1 = d 0 + d 1 = c 0 + d 1 = 0.48 c2 = d 0 + d 1 + d 2 = c 1 + d 2 = 0.796 eccetera. Il limite di questa sequenza sembra difficile da calcolare, ma in realtà è davvero molto semplice: c = D(1) = B (1) = 0.7/0.8 = 0.875 A(1) Et voilà. Il moltiplicatore di lungo periodo c è molto importante, perché dice la proporzionalità che c’è fra y t e x t in stato stazionario: immaginiamo di fissare x t ad un dato valore e di fare modo che rimanga fisso a quel valore per sempre. Esiste un valore limite per y t ? Se la risposta è affermativa, allora il sistema ammette uno stato stazionario (anche noto come steady state), che si può considerare come equilibrio di lungo periodo, nel senso che se il sistema si trova in stato stazionario, allora cessa di muoversi finché non arrivano shock dall’esterno a turbare l’equilibrio. 56 Per vedere il motivo per cui c è il parametro di stato stazionario, immaginiamo che il sistema sia in tale condizione: ambedue le variabili restano ferme nel tempo, e possiamo scrivere y t = Y e x t = X ; per conseguenza, A(L)y t = B (L)x t ⇒ A(L)Y = B (L)X ⇒ A(1)Y = B (1)X ⇒ Y = B (1) X = cX A(1) e il sistema non è in equilibrio ogni qual volta che y t 6= c X . Come vedremo, questa banale osservazione sarà piuttosto importante in seguito. 1.6.3 La rappresentazione ECM Come si è visto, il modo più efficace di leggere i parametri di un’equazione alle differenze è quello di trasformarli in una sequenza di moltiplicatori (ed eventualmente cumularli). Fra tutti i moltiplicatori, quelli che presumibilmente interessano di più sono il moltiplicatore d’impatto (perché dice cosa succede istantaneamente) e quello di lungo periodo (perché dice cosa succede una volta che tutti gli aggiustamenti sono terminati). Ambedue sono piuttosto semplici da calcolare, essendo pari, rispettivamente, a B (0)/A(0) e B (1)/A(1). Tuttavia, c’è un modo di riscrivere un modello ADL che rende il tutto ancora più evidente, ed è la cosiddetta rappresentazione ECM. La sigla ECM può significare varie cose:33 quello che D AVID H ENDRY per consenso pressoché unanime è considerato il papà dell’ECM, e cioè Sir David Hendry, insiste nel dire che significa Equilibrium Correction Mechanism. Peccato però che questa sia una trovata posteriore alla sua introduzione in econometria, avvenuta ad opera dello stesso Hendry con un manipolo di sodali tutti provenienti dalla London School of Economics, nel 1978. All’epoca, l’avevano chiamato Error Correction Model, e molti continuano a chiamarlo così. Per far vedere come funziona, partiamo dal caso più semplice di tutti, e cioè un ADL(1,1), e cioè l’equazione (1.35), che ripropongo qui in forma un tantino più generale, e cioè con x t vettore: y t = αy t −1 + β00 xt + β01 xt −1 è evidente che si può riscrivere y t = y t −1 + ∆y t e xt = xt −1 + ∆xt . Sostituendo, si ha ∆y t = (α − 1)y t −1 + β00 ∆xt + (β0 + β1 )0 xt −1 che può essere a sua volta riscritto come · ¸ (β0 + β1 )0 0 ∆y t = β0 ∆xt + (α − 1) y t −1 − xt −1 1−α 33 Niente a che vedere con Pat Metheny o Keith Jarrett. 57 (1.36) Il senso è: la variazione di y t nel tempo può essere provocata da un movimento della xt , nel qual caso la risposta è β0 , il moltiplicatore di impatto; tuttavia, può anche darsi che la xt resti ferma (e quindi ∆xt = 0), ma il termine fra parentesi quadre sia diverso da 0, ciò che evidentemente provoca ugualmente un movimento nella y t . Il termine fra parentesi quadre può essere anche scritto come y t −1 − c0 xt −1 β +β 0 1 dove c = 1−α , ossia il vettore dei moltiplicatori di lungo periodo. In pratica, tale termine, noto come termine ECM, misura se c’era, al tempo t − 1, uno scostamento tra il valore effettivo di y t −1 ed il valore che, data la xt −1 , sarebbe stato necessario affinché il sistema si trovasse in equilibrio. Posto che |α| < 1, allora (α − 1) è un numero negativo: se il termine ECM è positivo (e quindi la y t −1 era più grande del suo valore di equilibrio), allora ∆y t sarà negativo (e quindi la y t tende a riavvicinarsi verso la situazione di equilibrio). Evidentemente, tale situazione è simmetrica nel caso in cui il termine ECM sia negativo, per cui si può dire che in ogni caso, se (α − 1) < 0, il sistema tende a tornare verso uno stato di quiete. Anzi, il numero 1 − α può essere visto come la frazione di disequilibrio che viene riassorbita in un periodo, e quindi l’aggiustamento verso l’equilibrio sarà tanto più rapido tanto più α è vicino a 0. La trasformazione da ADL ad ECM può essere effettuata sempre, qualsiasi siano gli ordini dei polinomi A(L) e B (L); ora ve lo dimostro. Cominciamo da un risultato preliminare (che non dimostro): Teorema 1 Se P (x) è un polinomio qualsiasi di grado n > 0, allora si può sempre trovare un polinomio Q(x) di grado (n − 1) tale per cui valga P (x) = P (a) +Q(x)(a − x); quando n = 0, ovviamente Q(x) = 0. Forti di questo risultato preliminare, consideriamo un polinomio nell’operatore ritardo di grado n ≥ 1, che chiamiamo P (L), e applichiamo due volte di fila il teorema appena enunciato, una volta con a = 0 e la seconda volta con a = 1: P (L) = P (0) −Q(L) · L ∗ Q(L) = Q(1) + P (L)(1 − L) (1.37) (1.38) Nel caso n = 1, evidentemente P ∗ (L) = 0. Altimenti, Q(L) è un polinomio di ordine (n − 1) e P ∗ (L) è un polinomio di ordine (n − 2). Valutando la (1.37) in L = 1, si ha P (1) = P (0) −Q(1), cosicché la (1.38) diventa Q(L) = P (0) − P (1) + P ∗ (L)(1 − L) e quindi, usando di nuovo la (1.37), £ ¤ P (L) = P (0) − P (0) − P (1) + P ∗ (L)(1 − L) · L = P (0)∆ + P (1)L − P ∗ (L)∆ · L. 58 Non ci interessa particolarmente come sia fatto il polinomio P ∗ (L): ci basta sapere che esiste, ovvero che la scomposizione di P (L) effettuata sopra non dipende da ipotesi particolari, ma è valida in generale. Queste manipolazioni apparentemente insensate ci permettono di scrivere ogni sequenza del tipo P (L)z t come segue: P (L)z t = P (0)∆z t + P (1)z t −1 − P ∗ (L)∆z t −1 . Applichiamo ora questo risultato alla nostra equazione alle differenze A(L)y t = B (L)xt ; si ha ∆y t + A(1)y t −1 − A ∗ (L)∆y t −1 = B (0)∆xt + B ∗ (L)∆xt −1 + B (1)xt −1 . Con un sapiente riarrangiamento dei vari termini, si perviene all’ECM vero e proprio: £ ¤ ∆y t = B (0)∆xt + A ∗ (L)∆y t −1 + B ∗ (L)∆xt −1 − A(1) y t −1 − c0 xt −1 (1) dove naturalmente c0 = BA(1) contiene i moltiplicatori di lungo periodo. In pratica, il movimento nella variabile dipendente viene scomposto in un impatto istantaneo, altre componenti di breve periodo ed una componente di lungo periodo in cui l’ingrediente base è il moltiplicatore di stato stazionario c. Niente male, eh? Esempio 9 (Rappresentazione ECM) Usiamo di nuovo l’equazione alle differenze y t = 0.2y t −1 + 0.4x t + 0.3x t −2 e calcoliamone la rappresentazione ECM. Il modo più rapido è quello di ri-esprimere tutto in funzione del periodo (t − 1), e cioè: yt = y t −1 + ∆y t xt = x t −1 + ∆x t x t −2 = x t −1 − ∆x t −1 da cui y t −1 + ∆y t = 0.2y t −1 + 0.4(x t −1 + ∆x t ) + 0.3(x t −1 − ∆x t −1 ) e quindi ∆y t = −0.8y t −1 + 0.7x t −1 + 0.4∆x t − 0.3∆x t −1 e infine £ ¤ ∆y t = 0.4∆x t − 0.3∆x t −1 − 0.8 y t −1 − 0.875x t −1 ; il moltiplicatore d’impatto è 0.4, quello di lungo periodo è 0.875; la frazione di squilibrio che si riaggiusta in ogni periodo è 0.8. E non venitemi a dire che era difficile. 59 È importante notare che l’ADL e l’ECM non sono due modelli diversi, ma soltanto due modi diversi di scrivere la stessa equazione alle differenze, tant’è che possono essere usati indifferentemente come modelli empirici senza che uno risulti migliore dell’altro in termini di fit (seguirà esempio). La differenza fra i due sta solo nel fatto che l’ECM rende più immediato all’occhio umano valutare i parametri di più notevole interesse interpretativo, cioè i moltiplicatori d’impatto e di lungo periodo, mentre l’ADL consente di calcolare in modo semplice e meccanico l’intera sequenza dei moltiplicatori dinamici. 14.6 y c 14.4 14.2 14 13.8 13.6 13.4 13.2 13 1980 1985 1990 1995 2000 2005 2010 Figura 1.5: Reddito e consumo nell’area Euro (in logaritmi) Esempio 10 (ADL-ECM su dati veri) La figura 1.5 rappresenta le serie storiche (in logaritmi) del PIL reale e dei consumi privati, indicati con y e c rispettivamente, dal primo trimestre 1976 al quarto trimestre 2009.34 Decidiamo di modellare il consumo attraverso il reddito usando un modello ADL(1,3). In pratica, si avrà c t ' k + αc t −1 + β0 y t + β1 y t −1 + β2 y t −2 + β3 y t −3 e il risultato dell’OLS su questo modello lo trovate nella Tabella 1.4. Ne consegue che α̂ = 0.882, β̂0 = 0.638, eccetera. Con un po’ di buona volontà si può anche calcolare che la sequenza dei moltiplicatori, che risulta 34 Fonte: EACBN, Area Wide Model database, vers. 16 update 10. 60 adl: OLS, using observations 1976:1-2009:4 (T = 136) Dependent variable: c coefficient std. error t-ratio p-value -------------------------------------------------------const 0.0138955 0.0220090 0.6314 0.5289 c_1 0.882331 0.0452090 19.52 1.87e-40 y 0.637865 0.0606835 10.51 4.41e-19 y_1 -0.678971 0.0998675 -6.799 3.45e-10 y_2 0.271915 0.0985160 2.760 0.0066 y_3 -0.118637 0.0614148 -1.932 0.0556 Mean dependent var Sum squared resid R-squared F(5, 130) Log-likelihood Schwarz criterion 13.52360 0.001742 0.999699 86327.74 573.0659 -1116.656 *** *** *** *** * S.D. dependent var 0.207026 S.E. of regression 0.003661 Adjusted R-squared 0.999687 P-value(F) 5.3e-227 Akaike criterion -1134.132 Hannan-Quinn -1127.030 Tabella 1.4: Esempio di regressione dinamica i 0 1 2 3 4 5 6 7 8 .. . di 0.63787 -0.11616 0.16942 0.03085 0.02722 0.02401 0.02119 0.01870 0.01650 .. . ci 0.63787 0.52170 0.69112 0.72197 0.74919 0.77320 0.79439 0.81309 0.82958 .. . Inoltre, si ha che A(1) = 1−0.882331 = 0.117669, B (1) = 0.112171, e quindi il moltiplicatore di lungo periodo risulta uguale a c = 0.953273. La rappresentazione ECM di questa equazione alle differenze si calcola facilmente una volta fatte le seguenti sostituzioni: ct = c t −1 + ∆c t yt = y t −1 + ∆y t y t −2 = y t −1 − ∆y t −1 y t −3 = y t −1 − ∆y t −1 − ∆y t −2 da cui ∆c t ' k + (α − 1)c t −1 + β0 ∆y t + ( 3 X βi )y t −1 − (β2 + β3 )∆y t −1 − β3 ∆y t −2 i =0 61 ossia £ ¤ ∆c t ' k + β0 ∆y t − A(1) c t −1 − cy t −1 − (β2 + β3 )∆y t −1 − β3 ∆y t −2 Si noti, peraltro, che questa rappresentazione avrebbe potuto benissimo essere calcolata direttamente applicando l’OLS alla rappresentazione ECM: considerando la Tabella 1.5, si vede bene che quello che viene calcolato è lo stesso modello scritto in altra forma. Infatti, non solo i valori dei parametri di una rappresentazione possono essere ricavati esattamente a partire dai parametri dell’altra, ma anche la funzione obiettivo (la SSR) è del tutto identica (in ambedue i modelli, è pari a 0.001742), e così tutte le statistiche da essa derivate. Le uniche differenze sono una conseguenza del fatto che il modello è trasformato in modo tale che la variabile dipendente non è la stessa fra ADL (dove è il livello di c t ) ed ECM (dove è la sequenza ∆c t ). ecm: OLS, using observations 1976:1-2009:4 (T = 136) Dependent variable: d_c coefficient std. error t-ratio p-value -------------------------------------------------------const 0.0138955 0.0220090 0.6314 0.5289 d_y 0.637865 0.0606835 10.51 4.41e-19 d_y_1 -0.153277 0.0618298 -2.479 0.0145 d_y_2 0.118637 0.0614148 1.932 0.0556 c_1 -0.117669 0.0452090 -2.603 0.0103 y_1 0.112171 0.0437532 2.564 0.0115 Mean dependent var Sum squared resid R-squared F(5, 130) Log-likelihood Schwarz criterion 0.004970 0.001742 0.538954 30.39349 573.0659 -1116.656 *** ** * ** ** S.D. dependent var 0.005291 S.E. of regression 0.003661 Adjusted R-squared 0.521221 P-value(F) 2.28e-20 Akaike criterion -1134.132 Hannan-Quinn -1127.030 Tabella 1.5: Esempio di regressione dinamica in forma ECM 1.7 E adesso? E adesso, sarebbe il caso di cominciare la parte più interessante, cioè quella in cui ricominciamo tutto da capo, ma usiamo i metodi della statistica inferenziale. Se vogliamo che i dati ci parlino non solo del mondo che abbiamo già visto, ma anche di tutto quel che non abbiamo visto ancora, dobbiamo fare delle ipotesi sul processo generatore dei dati, e quindi dobbiamo studiare probabilità e statistica inferenziale per dire qualcosa di sensato. Ma alla fine andremo, in moltissimi casi, ad usare le stesse statistiche che qui abbiamo imparato a leggere come statistiche descrittive e a dar loro una nuova interpretazione molto, molto 62 più interessante. Il vettore β̂, la statistica W e tutte le altre quantità che qui abbiamo usato per parlare dei dati verranno utilizzate per parlare della macchina che li ha generati (e che magari ne genererà di nuovi). E dopo, sarebbe il caso anche di parlare di econometria in senso stretto, e cioè: una volta che ho descritto non solo i miei dati, ma anche il processo che li genera, come posso fare a dire qualcosa di sensato sulle relazioni che intercorrono fra il mondo che c’è nei libri di micro e di macro e il mondo in cui abito io? Posso usare i miei modelli per validare/confutare i miei modelli economici astratti? Posso usare i miei dati per fare previsioni sul futuro? Posso usare i miei dati per misurare l’effetto delle politiche economiche? Posso usare i miei dati per chiedermi cosa avrebbe fatto quel certo individuo se le condizioni sotto le quali ha fatto la sua scelta fossero state diverse? La risposta in molti casi è affermativa ma, come scrisse Évariste Galois, “je n’ai pas le temps” (io, però, dai duelli mi guardo bene). 63 Appendice A La Licenza L’OPERA (COME SOTTO DEFINITA) È MESSA A DISPOSIZIONE SULLA BASE DEI TERMINI DELLA PRESENTE LICENZA “CREATIVE COMMONS PUBLIC LICENCE” ("CCPL" O "LICENZA"). L’OPERA È PROTETTA DAL DIRITTO D’AUTORE, DAGLI ALTRI DIRITTI ATTRIBUITI DALLA LEGGE SUL DIRITTO D’AUTORE (DIRITTI CONNESSI, DIRITTI SULLE BANCHE DATI, ECC.) E/O DALLE ALTRE LEGGI APPLICABILI. OGNI UTILIZZAZIONE DELL’OPERA CHE NON SIA AUTORIZZATA AI SENSI DELLA PRESENTE LICENZA E/O DELLE ALTRE LEGGI APPLICABILI È PROIBITA. CON IL SEMPLICE ESERCIZIO SULL’OPERA DI UNO QUALUNQUE DEI DIRITTI QUI DI SEGUITO ELENCATI, TU ACCETTI E TI OBBLIGHI A RISPETTARE INTEGRALMENTE I TERMINI DELLA PRESENTE LICENZA. IL LICENZIANTE CONCEDE A TE I DIRITTI QUI DI SEGUITO ELENCATI A CONDIZIONE CHE TU ACCETTI DI RISPETTARE I TERMINI E LE CONDIZIONI DI CUI ALLA PRESENTE LICENZA. Art. 1 - Definizioni Ai fini e per gli effetti della presente licenza, si intende per a. “Collezione di Opere”, un’opera, come un numero di un periodico, un’antologia o un’enciclopedia, nella quale l’Opera nella sua interezza e forma originale, unitamente ad altri contributi costituenti loro stessi opere distinte ed autonome, sono raccolti in un’unità collettiva. Un’opera che costituisce Collezione di Opere non verrà considerata Opera Derivata (come sotto definita) ai fini della presente Licenza; b. “Opera Derivata”, un’opera basata sull’Opera ovvero sull’Opera insieme con altre opere preesistenti, come una traduzione, un arrangiamento musicale, un adattamento teatrale, narrativo, cinematografico, una registrazione di suoni, una riproduzione d’arte, un digesto, una sintesi, o ogni altra forma in cui l’Opera possa essere riproposta, trasformata o adattata. Nel caso in cui un’Opera tra quelle qui descritte costituisca già Collezione di Opere, essa non sarà considerata Opera Derivata ai fini della presente Licenza. Al fine di evitare dubbi è inteso che, quando l’Opera sia una composizione musicale o registrazione di suoni, la sincronizzazione dell’Opera in relazione con un’immagine in movimento (“synching”) sarà considerata Opera Derivata ai fini di questa Licenza; c. “Licenziante”, l’individuo, gli individui, l’ente o gli enti che offre o offrono l’Opera secondo i termini e le condizioni della presente Licenza; d. “Autore Originario”, il soggetto o i soggetti che ha o hanno creato l’Opera; e. “Opera”, l’opera dell’ingegno o, comunque, qualsiasi bene o prestazione suscettibile di protezione in forza delle leggi sul diritto d’autore (diritto d’autore, diritti connessi, diritto sui generis sulle banche dati, ecc.), la cui utilizzazione è offerta nel rispetto dei termini della presente Licenza; 64 f. “Tu"/"Te”, l’individuo o l’ente che esercita i diritti derivanti dalla presente Licenza e che non abbia precedentemente violato i termini della presente Licenza relativi all’Opera o che, nonostante una precedente violazione degli stessi, abbia ricevuto espressa autorizzazione dal Licenziante all’esercizio dei diritti derivanti dalla presente Licenza; g. “Elementi della Licenza”, gli attributi fondamentali della Licenza scelti dal Licenziante ed indicati nel titolo della Licenza: Attribuzione, Condividi allo stesso modo; h. “Licenza Compatibile con Creative Commons”, una licenza elencata presso http://creativecommons. org/compatiblelicenses, che Creative Commons abbia riconosciuto come essenzialmente equivalente a questa Licenza, poiché tale licenza presenta almeno le seguenti caratteristiche: (i) le sue condizioni hanno lo stesso scopo, significato ed effetto degli Elementi della Licenza di questa Licenza; e (ii) tale licenza permette esplicitamente di licenziare le Opere Derivate dalle opere, che sono state rese disponibili tramite tale licenza, nei termini di questa Licenza o di una licenza Creative Commons “Unported” (non adattata) con gli stessi Elementi della Licenza di questa Licenza o di una licenza nazionale Creative Commons con gli stessi Elementi della Licenza di questa Licenza. Art. 2 - Libere Utilizzazioni La presente Licenza non intende in alcun modo ridurre, limitare o restringere alcuna utilizzazione non protetta dal diritto d’autore o alcun diritto di libera utilizzazione o l’operare della regola dell’esaurimento del diritto o altre limitazioni dei diritti sull’Opera derivanti dalle leggi applicabili. Art. 3 - Concessione della Licenza Nel rispetto dei termini e delle condizioni contenute nella presente Licenza, il Licenziante concede a Te una licenza per tutto il mondo, gratuita, non esclusiva e perpetua (per la durata del diritto d’autore applicabile) che autorizza ad esercitare i diritti sull’Opera qui di seguito elencati: a. riproduzione dell’Opera, incorporazione dell’Opera in una o più Collezioni di Opere e riproduzione dell’Opera come incorporata nelle Collezioni di Opere; b. creazione e riproduzione di un’Opera Derivata, a condizione che l’Opera Derivata (ivi incluse le traduzioni, con qualsiasi mezzo esse siano realizzate) contenga, nei modi appropriati alla forma dell’Opera Derivata, una chiara indicazione del fatto che sono state effettuate delle modifiche rispetto all’Opera originaria. Per esempio, una traduzione potrebbe contenere l’indicazione “questa è la traduzione in spagnolo dell’opera originaria, scritta in inglese”; una modifica potrebbe contenere l’indicazione “l’opera originaria è stata modificata”; c. distribuzione di copie dell’Opera o di supporti fonografici su cui l’Opera è registrata, noleggio e prestito di copie dell’Opera o di supporti fonografici su cui l’Opera è registrata, comunicazione al pubblico, rappresentazione, esecuzione, recitazione o esposizione in pubblico, ivi inclusa la trasmissione audio digitale dell’Opera, e ciò anche quando l’Opera sia incorporata in Collezioni di Opere; d. distribuzione di copie dell’Opera Derivata o di supporti fonografici su cui l’Opera Derivata è registrata, noleggio e prestito di copie dell’Opera Derivata o di supporti fonografici su cui l’Opera Derivata è registrata, comunicazione al pubblico, rappresentazione, esecuzione, recitazione o esposizione in pubblico, ivi inclusa la trasmissione audio digitale di Opere Derivate. e. Al fine di evitare dubbi è inteso che, se l’Opera sia di tipo musicale: (i) Compensi per la comunicazione al pubblico o la rappresentazione o esecuzione di opere incluse in repertori. Il Licenziante rinuncia al diritto esclusivo di riscuotere compensi, 65 personalmente o per il tramite di un ente di gestione collettiva (ad es. SIAE), per la comunicazione al pubblico o la rappresentazione o esecuzione, anche in forma digitale (ad es. tramite webcast) dell’Opera. (ii) Compensi per versioni cover. Il Licenziante rinuncia al diritto esclusivo di riscuotere compensi, personalmente o per il tramite di un ente di gestione collettiva (ad es. SIAE), per ogni disco che Tu crei e distribuisci a partire dall’Opera (versione cover). f. Compensi per la comunicazione al pubblico dell’Opera mediante fonogrammi. Al fine di evitare dubbi, è inteso che se l’Opera è una registrazione di suoni, il Licenziante rinuncia al diritto esclusivo di riscuotere compensi, personalmente o per il tramite di un ente di gestione collettiva (ad es. IMAIE), per la comunicazione al pubblico dell’Opera, anche in forma digitale. g. Altri compensi previsti dalla legge italiana. Al fine di evitare dubbi, è inteso che il Licenziante rinuncia al diritto esclusivo di riscuotere i compensi a lui attribuiti dalla legge italiana sul diritto d’autore (ad es. per l’inserimento dell’Opera in un’antologia ad uso scolastico ex art. 70 l. 633/1941). Al Licenziante spettano in ogni caso i compensi irrinunciabili a lui attribuiti dalla medesima legge (ad es. l’equo compenso spettante all’autore di opere musicali, cinematografiche, audiovisive o di sequenze di immagini in movimento nel caso di noleggio ai sensi dell’art. 18-bis l. 633/1941). I diritti sopra descritti potranno essere esercitati con ogni mezzo di comunicazione e in tutti i formati. Tra i diritti di cui sopra si intende compreso il diritto di apportare all’Opera le modifiche che si rendessero tecnicamente necessarie per l’esercizio di detti diritti tramite altri mezzi di comunicazione o su altri formati. Tutti i diritti non espressamente concessi dal Licenziante rimangono riservati. Tutti i diritti morali irrinunciabili riconosciuti dalla legge applicabile rimangono riservati. Qualora l’Opera concessa in licenza includa una o più banche dati sulle quali il Licenziante è titolare di un diritto sui generis ai sensi delle norme nazionali di attuazione della Direttiva 96/9/CE sulle banche dati, il Licenziante rinuncia a far valere il diritto corrispondente. Art. 4 - Restrizioni La Licenza concessa in conformità al precedente punto 3 è espressamente assoggettata a, e limitata da, le seguenti restrizioni: a. Tu puoi distribuire, comunicare al pubblico, rappresentare, eseguire, recitare o esporre in pubblico l’Opera, anche in forma digitale, solo alle condizioni della presente Licenza e, insieme ad ogni copia dell’Opera (o supporto fonografico su cui è registrata l’Opera) che distribuisci, comunichi al pubblico o rappresenti, esegui, reciti o esponi in pubblico, anche in forma digitale, devi includere una copia della presente Licenza o il suo Uniform Resource Identifier. Non puoi proporre o imporre alcuna condizione relativa all’Opera che restringa i termini della presente Licenza o la capacità da parte di chi riceve l’Opera di esercitare gli stessi diritti concessi a Te con la presente Licenza. Non puoi concedere l’Opera in sublicenza. Devi mantenere intatte tutte le informative che si riferiscono alla presente Licenza ed all’esclusione delle garanzie. Quando distribuisci, comunichi al pubblico, rappresenti, esegui, reciti o esponi in pubblico l’Opera, non puoi utilizzare alcuna misura tecnologica tale da limitare la capacità di chiunque riceva l’Opera da Te di esercitare gli stessi diritti concessi a Te con la presente licenza. Questo art. 4.a si applica all’Opera anche quando questa faccia parte di una Collezione di Opere, anche se ciò non comporta che la Collezione di Opere di per sé ed indipendentemente dall’Opera stessa debba essere soggetta ai termini ed alle condizioni della presente Licenza. Qualora Tu crei una Collezione di Opere, su richiesta di qualsiasi Licenziante, devi rimuovere dalla Collezione di Opere stessa, ove materialmente possibile, ogni riferimento in accordo con quanto previsto dall’art. 4.c, come da richiesta. Qualora Tu crei un’Opera Derivata, su richiesta di qualsiasi Licenziante devi rimuovere dall’Opera Derivata stessa, nella misura in cui ciò sia possibile, ogni riferimento in accordo con quanto previsto dall’art. 4.c, come da richiesta. 66 b. Tu puoi distribuire, comunicare al pubblico, rappresentare, eseguire, recitare o esporre in pubblico un’Opera Derivata, anche in forma digitale, solo alle condizioni (i) della presente Licenza, (ii) di una versione successiva di questa Licenza dotata degli stessi Elementi della Licenza di questa Licenza, (iii) della licenza Creative Commons “Unported” (non adattata) o di una licenza Creative Commons di un’altra giurisdizione (sia la presente versione 3.0 che una successiva) che contenga gli stessi Elementi della Licenza di questa Licenza (ad es. Attribuzione-Condividi allo stesso modo 3.0 “Unported”) (la “Licenza Applicabile”), (iv) di una Licenza Compatibile con Creative Commons. Se Tu concedi in licenza un’Opera Derivata con una delle licenze di cui a questo punto (iv) devi rispettare i termini di tale licenza. Se Tu concedi in licenza un’Opera Derivata con una delle licenze di cui ai punti (i), (ii) o (iii) (la “Licenza Applicabile”) Tu devi rispettare tutte le condizioni della Licenza Applicabile oltre alle seguenti condizioni. Insieme ad ogni copia dell’Opera Derivata (o supporto fonografico su cui è registrata l’Opera Derivata) che distribuisci, comunichi al pubblico o rappresenti, esegui, reciti o esponi in pubblico, anche in forma digitale, Tu devi includere una copia della Licenza Applicabile, o il suo Uniform Resource Identifier. Non puoi proporre o imporre alcuna condizione relativa all’Opera Derivata che restringa i termini della Licenza Applicabile o la capacità di chiunque riceva l’Opera Derivata da Te di esercitare gli stessi diritti concessi a Te con la Licenza Applicabile. Devi mantenere intatte tutte le informative che si riferiscono alla Licenza Applicabile ed all’esclusione delle garanzie. Quando Tu distribuisci, comunichi al pubblico, rappresenti, esegui, reciti o esponi in pubblico l’Opera Derivata, non puoi utilizzare sull’Opera Derivata alcuna misura tecnologica tale da limitare la capacità di chiunque riceva l’Opera Derivata da Te di esercitare i diritti concessi a tale soggetto in forza della Licenza Applicabile. Questo art.4.b si applica all’Opera Derivata anche quando questa faccia parte di una Collezione di Opere, ma ciò non comporta che la Collezione di Opere di per sé ed indipendentemente dall’Opera Derivata debba esser soggetta ai termini ed alle condizioni della Licenza Applicabile. c. Qualora Tu distribuisca, comunichi al pubblico, rappresenti, esegua, reciti o esponga in pubblico, anche in forma digitale, l’Opera (come definita dal succitato art. 1) o qualsiasi Opera Derivata (come definita dal succitato art. 1) o Collezione di Opere (come definita dal succitato art. 1), a meno che sia stata avanzata una richiesta ai sensi dell’art. 4.a, devi mantenere intatte tutte le informative sul diritto d’autore sull’Opera. Devi riconoscere una menzione adeguata rispetto al mezzo di comunicazione o supporto che utilizzi: (i) all’Autore Originario citando il suo nome (o lo pseudonimo, se del caso), ove fornito; e/o (ii) alle terze parti designate, se l’Autore Originario e/o il Licenziante hanno designato una o più terze parti (ad esempio, una istituzione finanziatrice, un ente editoriale, un giornale) (“Parti Designate”) perché siano citate nell’informativa sul diritto d’autore del Licenziante o nei termini di servizio o con altri mezzi ragionevoli; (iii) il titolo dell’Opera, se indicato; (iv) nella misura in cui sia ragionevolmente possibile, l’Uniform Resource Identifier, che il Licenziante specifichi dover essere associato con l’Opera, salvo che tale URI non faccia alcun riferimento alla informativa sul diritto d’autore o non dia informazioni sulla licenza dell’Opera; (v) inoltre, in conformità a quanto previsto dall’art. 3.b, in caso di Opera Derivata, devi menzionare l’uso dell’Opera nell’Opera Derivata (ad esempio, “traduzione francese dell’Opera dell’Autore Originario”, o “sceneggiatura basata sull’Opera originaria dell’Autore Originario”). 67 La menzione richiesta dal presente art. 4.c può essere realizzata in qualsiasi maniera ragionevole possibile; in ogni caso, in ipotesi di Opera Derivata o Collezione di Opere, qualora compaia una menzione di tutti i coautori dell’Opera Derivata o della Collezione di Opere, allora essa deve essere parte di tale menzione e deve apparire con lo stesso risalto concesso alla menzione degli altri coautori. Al fine di evitare dubbi, è inteso che la menzione di cui al presente articolo ha lo scopo di riconoscere la paternità dell’Opera nei modi sopra indicati e che, esercitando i Tuoi diritti ai sensi della presente Licenza, Tu non puoi implicitamente o esplicitamente affermare o fare intendere un qualsiasi collegamento con l’Autore Originario, il Licenziante e/o le Parti Designate, o che l’Autore Originario, il Licenziante e/o le Parti Designate sponsorizzino o avallino Te o il Tuo utilizzo dell’Opera, a meno che non sussista un apposito, espresso e preventivo consenso scritto dell’Autore Originario, del Licenziante e/o delle Parti Designate. d. Al fine di evitare dubbi, è inteso che le restrizioni di cui ai precedenti punti 4.a, 4.b e 4.c non si applicano a quelle parti dell’opera che siano da considerarsi Opera ai sensi della presente Licenza solo in quanto protette dal diritto sui generis su banca dati ai sensi delle norme nazionali di attuazione della Direttiva 96/9/CE sulle banche dati. Art. 5 - Dichiarazioni, Garanzie ed Esonero da responsabilità SALVO CHE SIA ESPRESSAMENTE CONVENUTO ALTRIMENTI PER ISCRITTO FRA LE PARTI, IL LICENZIANTE OFFRE L’OPERA IN LICENZA “COSÌ COM’È” E NON FORNISCE ALCUNA DICHIARAZIONE O GARANZIA DI QUALSIASI TIPO CON RIGUARDO ALL’OPERA, SIA ESSA ESPRESSA OD IMPLICITA, DI FONTE LEGALE O DI ALTRO TIPO, ESSENDO QUINDI ESCLUSE, FRA LE ALTRE, LE GARANZIE RELATIVE AL TITOLO, ALLA COMMERCIABILITÀ, ALL’IDONEITÀ PER UN FINE SPECIFICO E ALLA NON VIOLAZIONE DI DIRITTI DI TERZI O ALLA MANCANZA DI DIFETTI LATENTI O DI ALTRO TIPO, ALL’ESATTEZZA OD ALLA PRESENZA DI ERRORI, SIANO ESSI ACCERTABILI O MENO. ALCUNE GIURISDIZIONI NON CONSENTONO L’ESCLUSIONE DI GARANZIE IMPLICITE E QUINDI TALE ESCLUSIONE PUÒ NON APPLICARSI A TE. Art. 6 - Limitazione di Responsabilità SALVI I LIMITI STABILITI DALLA LEGGE APPLICABILE, IL LICENZIANTE NON SARÀ IN ALCUN CASO RESPONSABILE NEI TUOI CONFRONTI A QUALUNQUE TITOLO PER ALCUN TIPO DI DANNO, SIA ESSO SPECIALE, INCIDENTALE, CONSEQUENZIALE, PUNITIVO OD ESEMPLARE, DERIVANTE DALLA PRESENTE LICENZA O DALL’USO DELL’OPERA, ANCHE NEL CASO IN CUI IL LICENZIANTE SIA STATO EDOTTO SULLA POSSIBILITÀ DI TALI DANNI. NESSUNA CLAUSOLA DI QUESTA LICENZA ESCLUDE O LIMITA LA RESPONSABILITÀ NEL CASO IN CUI QUESTA DIPENDA DA DOLO O COLPA GRAVE. Art. 7 - Risoluzione La presente Licenza si intenderà risolta di diritto e i diritti con essa concessi cesseranno automaticamente, senza necessità di alcuna comunicazione in tal senso da parte del Licenziante, in caso di qualsivoglia inadempimento dei termini della presente Licenza da parte Tua, ed in particolare delle disposizioni di cui ai punti 4.a, 4.b e/o 4.c, essendo la presente Licenza condizionata risolutivamente al verificarsi di tali inadempimenti. In ogni caso, la risoluzione della presente Licenza non pregiudicherà i diritti acquistati da individui o enti che abbiano acquistato da Te Opere Derivate o Collezioni di Opere, ai sensi della presente Licenza, a condizione che tali individui o enti continuino a rispettare integralmente le licenze di cui sono parte. Le sezioni 1, 2, 5, 6, 7 e 8 rimangono valide in presenza di qualsiasi risoluzione della presente Licenza. Sempre che vengano rispettati i termini e le condizioni di cui sopra, la presente Licenza è perpetua (e concessa per 68 tutta la durata del diritto d’autore applicabile sull’Opera). Nonostante ciò, il Licenziante si riserva il diritto di rilasciare l’Opera sulla base dei termini di una differente licenza o di cessare la distribuzione dell’Opera in qualsiasi momento; fermo restando che, in ogni caso, tali decisioni non comporteranno recesso dalla presente Licenza (o da qualsiasi altra licenza che sia stata concessa, o che sia richiesto che venga concessa, ai termini della presente Licenza), e la presente Licenza continuerà ad avere piena efficacia, salvo che vi sia risoluzione come sopra indicato. Art. 8 - Varie Ogni volta che Tu distribuisci, o rappresenti, esegui o reciti pubblicamente in forma digitale l’Opera o una Collezione di Opere, il Licenziante offre al destinatario una licenza per l’Opera nei medesimi termini e condizioni che a Te sono stati concessi tramite la presente Licenza. Ogni volta che Tu distribuisci, o rappresenti, esegui o reciti pubblicamente in forma digitale un’Opera Derivata, il Licenziante offre al destinatario una licenza per l’Opera originaria nei medesimi termini e condizioni che a Te sono stati concessi tramite la presente Licenza. L’invalidità o l’inefficacia, secondo la legge applicabile, di una o più fra le disposizioni della presente Licenza, non comporterà l’invalidità o l’inefficacia dei restanti termini e, senza bisogno di ulteriori azioni delle parti, le disposizioni invalide o inefficaci saranno da intendersi rettificate nei limiti della misura che sia indispensabile per renderle valide ed efficaci. In nessun caso i termini e le disposizioni di cui alla presente Licenza possono essere considerati rinunciati, né alcuna violazione può essere considerata consentita, salvo che tale rinuncia o consenso risultino per iscritto da una dichiarazione firmata dalla parte contro cui operi tale rinuncia o consenso. La presente Licenza costituisce l’intero accordo tra le parti relativamente all’Opera qui data in licenza. Non esistono altre intese, accordi o dichiarazioni relative all’Opera che non siano quelle qui specificate. Il Licenziante non sarà vincolato ad alcuna altra disposizione addizionale che possa apparire in alcuna comunicazione da Te proveniente. La presente Licenza non può essere modificata senza il mutuo consenso scritto del Licenziante e Tuo. La presente licenza è stata redatta sulla base della legge italiana, in particolare del Codice Civile del 1942 e della legge 22 Aprile 1941, n. 633 e successive modificazioni sulla protezione del diritto d’autore e di altri diritti connessi al suo esercizio. Nota Finale Creative Commons non è parte della presente Licenza e non dà alcuna garanzia connessa all’Opera. Creative Commons non è responsabile nei Tuoi confronti o nei confronti di altre parti ad alcun titolo per alcun danno, incluso, senza limitazioni, qualsiasi danno generale, speciale, incidentale o consequenziale che sorga in connessione alla presente Licenza. Nonostante quanto previsto nelle due precedenti frasi, qualora Creative Commons espressamente identificasse se stesso quale Licenziante nei termini di cui al presente accordo, avrà tutti i diritti e tutti gli obblighi del Licenziante. Salvo che per il solo scopo di indicare al pubblico che l’Opera è data in licenza secondo i termini di una CCPL, nessuna parte potrà utilizzare il marchio “Creative Commons” o qualsiasi altro marchio correlato, o il logo di Creative Commons, senza il preventivo consenso scritto di Creative Commons. Ogni uso consentito sarà realizzato in osservanza delle linee guida per l’uso del marchio Creative Commons, in forza in quel momento, come di volta in volta pubblicate sul sito Internet di Creative Commons o altrimenti messe a disposizione a richiesta. Al fine di evitare dubbi, è inteso che questa restrizione all’uso del marchio non fa parte della Licenza. Creative Commons può essere contattata al sito http://creativecommons.org/. 69