Di Alessandro Demontis – 29 Agosto 2021

LO SCREENING ‘EX-POST’ E IL COEFFICIENTE R2

Torniamo per un attimo indietro, e ricolleghiamoci all’email scritta da Rob Wilson ed indirizzata a Ed Cook, Rosanne D’Arrigo, Gordon Jacoby, Jan Esper, Tim Osborn, Keith Briffa, Ulf Buentgen, David Frank, Brian Luckman, Emma Watson, e Philip Brohan. Ho evidenziato alcuni passaggi chiave in cui Wilson ammette di aver giocato con dei numeri ed ottenuto un preoccupante andamento a ‘mazza da hockey’ pur avendo usato numeri casuali (rumore bianco). Fu possibile attuando un aproccio ’ex post’ al vaglio e alla selezione dei dati. Questa locuzione latina, antitetica ad ‘ex ante’, indica una operazione di analisi o considerazione ‘dopo i fatti’, nel caso della analisi dei dati, quindi, indica un controllo o una azione ‘dopo aver ottenuto i risultati’. Quando applicato allo screening, che é il vaglio o la selezione dei dati, la locuzione ‘ex post screening’ indica dunque una selezione di dati successiva all’ottenimento di un risultato (la composizione di un grafico, la ricerca di una correlazione, etc). Ad un lettore superficiale, questa pratica potrebbe sembrare normale o giustificata, ma non lo é nel caso in cui la selezione ex post porti ad eliminare parte dei dati da un grafico o da una correlazione non soddisfacente, per eliminare gli ostacoli all’ottenimento di un andamento desiderato. Ed é esattamente ciò che Wilson stava segnalando di aver ottenuto dal rumore bianco: avendo preso dati non correlati, tramite metodi statistici applicati ‘ex post’, era riuscito a ottenere la Hockey Stick!


Nel campo della ricostruzione paleoclimatica, mentre effettuare screening sulla base della correlazione con la temperatura sembra superficialmente sensato, l’errore è facilmente comprensibile se si ipotizza che uno scienziato farmaceutico utilizzi lo screening ex post: immaginate uno studio farmacologico che riportasse risultati solo per i pazienti le cui condizioni migliorano in seguito ad assunzione di un farmaco. O un gestore di fondi finanziari che rendiconta solo gli investimenti che aumentano di valore. Una tale tecnica sarebbe ridicola ed i risultati fuorvianti. L’errore, nella letteratura statistica più ampia, è comunemente chiamato screening sulla variabile dipendente; gli studi che utilizzano questa tecnica fallace non hanno validità statistica. Non c’è niente di sbagliato nell’ipotizzare ‘ex ante’ che (per esempio) le larghezze degli anelli di abete rosso nei siti al limite del bosco siano un proxy sensibile alla temperatura. Ma una volta fatto, prendi il tuo campione di tutti gli alberi che ritieni adatti e usi tutti i dati risultanti. Se si escludono i siti in cui le larghezze degli anelli diminuiscono nel XX secolo, non è possibile utilizzare il fatto che la serie risultante salga nel XX secolo come prova di nulla, perché una tale tecnica darà la forma di una mazza da hockey anche ai dati che, in media, non ha tale andamento.

La distorsione dello screening ex post è illustrata nel diagramma seguente:

Questo diagramma mostra quattro serie che, se mediate, producono una linea retta. Ma quando vengono selezionate in base al fatto che la serie sia salita nel XX secolo (cerchio rosso), la loro media è una mazza da hockey.

Perché tutto questo é importante? Sia perché lo studio di Mann et al commise lo stesso reato di manipolazione statistica ‘ex post’, sia perché Wilson stava segnalando che con questa metodologia era possibile ottenere la Hockey Stick praticamente da qualsiasi cosa.


L’ email di Wilson fu facilmente e immediatamente liquidata da Ed Cook, che risposte (forse ironicamente) “sei un masochista!” [10]:

You are a masochist. Maybe Tom Melvin has it right: “Controversy about which bull caused mess not relevent. The possibility that the results in all cases were heap of dung has been missed by commentators”

Traduzione:

Sei un masochista. Forse Tom Melvin ha ragione: “La controversia su quale toro ha causato disordine non è rilevante. La possibilità che i risultati in tutti i casi fossero un mucchio di sterco è stata persa dai commentatori”.

Lo studio di Mann et al conteneva un secondo tipo di analisi e di operazione statistica: la ricostruzione tramite regressione, validata secondo Mann dal coefficiente di determinazione r2. [11] Di cosa si tratta? Non esiste una definizione concordata del coeficiente r2: in statistica, esso è una proporzione tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso misura la frazione della varianza della variabile dipendente espressa dalla regressione. Il suo valore varia tra 0 ed 1: quando è 0 il modello utilizzato non spiega per nulla i dati; quando è 1 il modello spiega perfettamente i dati.

Quel che però é importate sapere di questo coefficiente, é che questo coefficiente ha grosse limitazioni ben note (si veda ad esempio “The Coefficient of Determination—Some Limitations” di J.P. Barrett, 1974 [12]): ad esempio non permette di sapere né se una variabile sia statisticamente significativa, né se i regressori sono causa effettiva dei movimenti della variabile dipendente, né se c’è una distorsione da variabile omessa, né se è stato scelto il gruppo dei regressori più appropriato.

Ora, vediamo perché é importante parlare del coefficiente r2 ai fini della vicenda di Mann. In una famosa (e famigerata) e-mail del 2003 (discussa in dettaglio sul sito Climate Audit entro le prime due settimane di Climategate), Mann inviò alcuni calcoli – prima mai divulgati e provenienti dalla ricostruzione della temperatura di Mann et al 1998 – a Tim Osborn, un “collega fidato”, dicendogli che la serie rappresentava i suoi “panni sporchi” e i dati dovevano essere mantenuti strettamente confidenziali, per non cadere nelle “mani” sbagliate. Di seguito il contenuto dell’email (catalogata: email 1059664704):

From: “Michael E. Mann” mann@virginia.edu
To: Tim Osborn t.osborn@uea.ac.uk
Subject: Re: reconstruction errors
Date: Thu, 31 Jul 2003 11:18:24 -0400

Tim,
Attached are the calibration residual series for experiments based on available networks
back to:
AD 1000
AD 1400
AD 1600
I can’t find the one for the network back to 1820! But basically, you’ll see that the
residuals are pretty red for the first 2 cases, and then not significantly red for the 3rd
case–its even a bit better for the AD 1700 and 1820 cases, but I can’t seem to dig them up. In any case, the incremental changes are modest after 1600–its pretty clear that key predictors drop out before AD 1600, hence the redness of the residuals, and the notably larger uncertainties farther back…
You only want to look at the first column (year) and second column (residual) of the files.
I can’t even remember what the other columns are!
Let me know if that helps. Thanks,
mike
p.s. I know I probably don’t need to mention this, but just to insure absolutely clarify on this, I’m providing these for your own personal use, since you’re a trusted colleague. So please don’t pass this along to others without checking w/ me first. This is the sort of “dirty laundry” one doesn’t want to fall into the hands of those who might potentially try to distort things…

La traduzione:


Da: “Michael E. Mann” mann@virginia.edu
A: Tim Osborn t.osborn@uea.ac.uk
Oggetto: Re: errori di ricostruzione
Data: gio, 31 luglio 2003 11:18:24 -0400

Tim,
In allegato le serie residue di calibrazione per gli esperimenti basati sulle reti disponibili
torna a:
dC 1000
1400 d.C
1600 d.C
Non riesco a trovare quello per la rete fino al 1820! Ma fondamentalmente, vedrai che i residui sono piuttosto rossi per i primi 2 casi, e quindi non significativamente rossi per il terzo caso – è anche un po’ meglio per i casi AD 1700 e 1820, ma non riesco a scavarli. In ogni caso, i cambiamenti incrementali sono modesti dopo il 1600: è abbastanza chiaro che i predittori chiave scompaiono prima del 1600 d.C., da qui il rossore dei residui e le incertezze notevolmente più grandi più indietro…

Si desidera esaminare solo la prima colonna (anno) e la seconda colonna (residuo) dei file.
Non ricordo nemmeno quali sono le altre colonne!
Fammi sapere se questo aiuta. Grazie,
Mike

p.s. So che probabilmente non ho bisogno di menzionarlo, ma solo per essere assolutamente chiaro su questo, sto fornendo questi per il tuo uso personale, dato che sei un collega fidato. Quindi, per favore, non trasmetterlo ad altri senza prima aver controllato con me. Questo è il tipo di “biancheria sporca” che non si vuole far cadere nelle mani di coloro che potrebbero potenzialmente provare a distorcere le cose…

Le serie di dati che Mann chiama “biancheria sporca” sono chiamate residui. Sono le differenze tra le stime di ricostruzione tramite proxy delle temperature passate e i record di temperatura osservati durante le fasi di stima del modello (la “calibrazione”) e di test (la “verifica”). Poiché tali residui misurano la bontà di adattamento del modello, sono essenziali per calcolare i punteggi dei test di verifica. In questa e-mail, Mann forniva residui per ricostruzioni (che chiama impropriamente “esperimenti”) basate sugli intervalli post-1000, post-1400 e post-1600. I primi due sono importantissimi, poiché determinano se è legittimo fare la ricostruzione indietro fino a quel punto. In sostanza: se le prime due serie si dimostrassero inattendibili, verrebbe a cadere l’appiattimento ottenuto da Mann nel periodo medievale, e verrebbero a mancare circa 400 anni di ricostruzione, rendendo il lavoro di Mann molto meno utile ed attendibile.


Numerose autorità statistiche, comprese quelle citate in Mann et al 1998 (Fritts, Cook e Peters), raccomandano di testare la validità della ricostruzione utilizzando diversi punteggi basati sui residui. Mann dichiarò nel suo articolo del 1998 di aver calcolato due di questi punteggi, la statistica sulla riduzione dell’errore (chiamata RoE o RE) e il punteggio r2, proprio il coefficiente di cui abbiamo parlato poc’anzi. Ma nel suo articolo e nell’archivio allegato Mann elencò solo i valori dell’RE. Non aveva (e non ha mai) pubblicato i punteggi r2. Né potrebbero questi essere facilmente calcolati dalle informazioni divulgate con la pubblicazione originale, perché, contrariamente alla credenza diffusa tra gli scienziati del Clima, l’archivio di Mann non conteneva le ricostruzioni complete per ogni fase temporale. Per la tipica ricostruzione dell’emisfero settentrionale (NH), Mann archiviò solo i ‘segmenti di ricostruzione giuntati’ in cui, ad ogni passaggio temporale, i risultati di un passaggio successivo sono stati stampati sui risultati di passaggi precedenti. Senza la serie residua, nessuno sarebbe in grado di ricalcolare i punteggi r2 non riportati.


Verso la fine del 2003, solo pochi mesi dopo l’e-mail della “biancheria sporca”, McIntyre e McKitrick chiesero a Mann di fornire la serie residua per la fase AD1400 della sua ricostruzione. Mann rifiutò. I due ricercatori allora presentarono un reclamo alla rivista Nature, che aveva pubblicato lo studio originale del 1998, appellandosi alle loro politiche di divulgazione sia per le serie residue che per le fasi di ricostruzione. Vergognosamente, anche Nature rifiutò di fornire dati o fare pressione su Mann perché li fornisse. Il terzo step fu pr McIntyre e McKitrick il rivolgersi alla US National Science Foundation, perché richiedessero a Mann di fornire questi dati. Anche loro si rifiutarono. Nonostante la disinformazione messa in atto dai ‘warmisti’ colleghi e sostenitori di Mann, i risultati dei singoli passi di Mann rimangono non archiviati fino ad oggi.


Nel 2004, McIntyre e McKitrick finalmente scoprirono il motivo per cui Mann era così irremovibile nel trattenere la sua “biancheria sporca”. All’inizio del 2004, nonostante molti ostacoli, i due furono in grado di replicare la metodologia peculiare e scarsamente documentata di Mann abbastanza bene da calcolare le serie residue (e le statistiche di verifica) per il passo AD1400. Scoprirono, con notevole sorpresa, che la statistica di verifica r2 per il passo AD1400 era disastrosamente bassa (solo 0,018). La verifica tramite coefficiente r2 è una verifica statistica banale, che dovrebbe essere facilmente superata da qualsiasi ricostruzione che pretendesse di avere rilevanza statistica nello stabilire un minimo di correlazione. Valori vicini a 1 vengono spesso ottenuti anche in grafici che mostrano correlazioni reali senza reale consequenzialità. E’ facile, ad esempio, trovare misure correlate non legate da nessi causali che condividono un r2 anche di 0.6 o 0.8 (si veda ad esempio i grafici ironici del sito “Spurious Correlations”). Come abbiamo già detto, l’r2 non è una garanzia di validità del modello, ma il suo fallimento (valori molto vicini a 0) è più o meno una garanzia di invalidità del modello. I valori di r2 ottenuti da McIntyre e McKitrick usando le procedure di Mann, erano praticamente uguali a zero!


I due riportarono le loro scoperte in due articoli del 2005 (“Hockey sticks, principal components, and spurious significance” e “The M&M critique of the mbh98 northern hemisphere climate index: update and implications”). Questi due articoli, passati quasi inosservati nella comunità climatica, sollevarono diverse reazioni dai media e da enti influenti, compreso un articolo in prima pagina sul Wall Street Journal che attirò l’attenzione del Comitato per l’Energia e il Commercio della Camera degli Stati Uniti. Il Comitato inviò una serie di domande a Mann, comprese quelle sul codice sorgente e sulle statistiche di verifica r2. Queste domande provocarono vigorose proteste da parte dell’AAAS, dell’AGU e di altre istituzioni scientifiche. Ralph Cicerone, allora presidente della National Academy of Sciences, scrisse al House Energy and Commerce Committee offrendo i propri servizi, incluso, in particolare, l’esame della verifica tramite coefficiente r2. Tale richiesta non venne accettata.


In risposta parziale alle domande del Comitato, Mann archiviò online alcune porzioni del codice sorgente per il suo articolo del 1998. Sebbene incompleto, questo codice confermò la supposizione di McIntyre e McKitrick che Mann avesse calcolato le statistiche di verifica r2 per ogni passaggio della ricostruzione dell’emisfero settentrionale (NH) e le avesse trattenute dalla divulgazione. Ad oggi, Mann non ha mai archiviato le ricostruzioni NH per singoli passaggi, le serie residue equivalenti (appunto, la “biancheria sporca”) e nemmeno i risultati della verifica tramite r2.

[10] http://di2.nu/foia/foia2011/mail/4241.txt
[11] https://it.wikipedia.org/wiki/Coefficiente_di_determinazione#Interpretazione
[12] https://www.tandfonline.com/doi/abs/10.1080/00031305.1974.10479056

Alessandro Demontis
Perito Chimico Industriale (1992)
Tecnico Ambientale certificato CEE (1997)