Pardis, again

Su Science, c’è un paper sensazionale. David Reshef, studente di Harvard, suo fratello Yakir adesso al Weizmann et al. diretti da Pardis Sabeti, descrivono un nuovo “coefficiente di massima informazione”, detto MIC che correla saldamente due variabili non lineari (e indipendenti, ovvio).

Un po’ come l’indice di correlazione inventato da Galton e rivisto da Pearson per quelle lineari. Il MIC  però va oltre (1). Deriva dalla “mutua informazione” di Shannon, quindi è molto più complicato e i suoi algoritmi richiedono una potenza di calcolo mica da ridere. D’altronde più l’insieme di dati è mastodontico e meglio è.

Gli autori lo hanno usato per estrarre relazioni significative da insiemi con centinaia di variabili e decine di migliaia di abbinamenti possibili:

indici sociali, economici, sanitari e politici dell’Organizzazione mondiale della sanità; i trascritti dell’espressione genica nel lievito di birra che cambiano con i cicli cellulari; i risultati del baseball in prima divisione nel 2008…

Erano già stati analizzati con varie tecniche statistiche, per il controllo ne hanno usate altre due oltre al MIC. Questo produceva il maggior numero di relazioni nuove (tasso massimo di falsi positivi 5%) tra variabili. Per esempio tra reddito e obesità femminile in alcuni paesi dove l’obesità è positivamente correlata allo status sociale. Le differenze tra i risultati ottenuti con altri metodi sono interessanti sia nell’attività dei geni del lievito che nel baseball:

Sulla base dell’indice di correlazione rho (Pearson) le tre correlazioni più robuste con il salario del giocatore sono le walks, le walks intenzionali e i runs con battuta. Con il MIC invece  sono i punti segnati, le basi totali e una popolare statistica aggregata dell’attacco, chiamata Replacement level marginal lineup value. Lasciamo ai tifosi decidere quale di queste statistiche è do dovrebbe essere più legata al salario..

(Il valore marginale per la formazione ecc. non ho idea di cosa sia, ma ho capito che i New York Yankees non si meritano lo stipendio, mentre i Milwaukee Brewers si meritano un aumento).

Finito il rodaggio, hanno provato il MIC sulle rispettive abbondanze dei batteri intestinali umani (in topi “umanizzati” – grazie Caravan). Prima saltano fuori le correlazioni lineari, più numerose, ma la parte notevole sono le altre, associate e non, alla dieta.

Credo che lo proveranno in tanti. Pardis Sabeti è quella degli algoritmi per interpretare mutazioni genetiche, adottati nelle altre discipline “omiche”.  Matematica, è una delle rarissime donne uscite dalla Harvard School of Medicine summa con laude, informatica, genetista, ex campionessa universitaria di tennis, ex allenatrice della squadra di calcio femminile di Oxford ecc.

“Jack of all trades, master of none”
Lo dice lei che non si monta la testa. Tanto se al Broad-MIT-Harvard non la vogliono più, sa già in quale Ong farà la volontaria. Non solo finora non ne ha sbagliata una, ma è pure la cantante e leader del gruppo Thousand Days. E nel 2006 aveva rinunciato per mesi alla propria ricerca per mobilitare gli amici e controllare con loro quelle di Bruce Lahn. Lui sosteneva che per le mutazioni recenti di due geni legati alle dimensioni del cervello, i caucasici avevano facoltà cognitive superiori a quelle degli africani. Aveva preso una cantonata, oltre a dei brevetti…

Mitica.

(1) Aggiunta.
Anche su Oggi Scienza ho dimenticato di dire che
– il “supplemento” è un pezzo indispensabile del paper;
– il MIC è esempio di Maximum Information-based Nonparametric Exploration, quindi conviene farci un giro.