Probabilità anti-fuffa

Sarei curiosa di sapere cosa ne pensano gli esperti

. Ricercatori di Google hanno messo su arXiv “Knowledge Based Trust“, uno dei molti tentativi in corso d’opera per valutare l’accuratezza dell’informazione on-line. Da quello che capisco è una sequenza di algoritmi infilati in un “modello multistrato” per “stimare l’affidabilità delle fonti”, che viene reiterato da uno strato all’altro con una logica bayesiana. Lo hanno applicato a

2.8 billion triples (soggetto, predicato, oggetto, per es. Obama nato Kenya, ndr) extracted from the web, and were thus able to reliably predict the trustworthiness of 119 million webpages and 5.6 million websites.

Hanno paragonato la probabilità di accuratezza – che i fatti riportati fossero corretti perché la fonte era affidabile e vice versa – con la classifica di PageRank che conta i link ricevuti e quindi la popolarità di 2.000 siti, di cui 100 verificati “a mano” in base a 4 criteri

  • triple correctness (per 9 triplette)
  • extraction correctness (il modello non prende cantonate)
  • topic relevance (riferita al tema dichiarato dal sito)
  • non trivialness

Risultato:
Among the 100 websites, 85 are considered trustworthy; 2 are not topic relevant, 12 do not have enough non-trivial triples, and 2 have more than 1 extraction errors (one website has two issues). However, only 20 out of the 85 trustworthy sites have a PageRank over 0.5. This shows that KBT can identify sources with trustworthy data, even though they are tail sources with low PageRanks.

Alla fine gli autori descrivono i difetti del loro modello, e quanto resta da fare prima di arrivare a un fact-checking efficace. I fatti controllabili, cosa un po’ inquietante, sono quelli accumulati dai bot di Google nella Knowledge Vault.

Sempre secondo New Scientist, in agosto conteneva 1,6 miliardi di fatti, di cui 271 milioni con una probabilità pari o superiore al 90% di essere corretti.
Quattro su cinque…

Si discute parecchio del KBT da quando è stato citato da New Scientist la settimana scorsa. Da non addetta, trovo convincenti le critiche di SeoSkeptic e altre che raccoglie. Ma l’eventualità che il motore di ricerca Google vada a KBT, e non solo a PageRank, sta agitando noti disinformatori anti-scienza, dice Sou.

Parecchi business model sarebbero a rischio anche in Italia, sarei per far girare la notizia.

***

Da Science segnalo solo l’edizione speciale per il centenario della relatività generale di Einstein.

Invece c’è un bell’articolo dell’Economist sulla funzione dell’huntingtina. Il gene sul cromosoma X che codifica per la proteina ha una sovrabbondanza di nucleotidi CGA replicati, che portano a corrispondenti residui di glutamina. Da 36 repliche in poi, aumenta velocemente la probabilità di sviluppare il morbo di Huntington. Al contempo la proteina è essenziale per lo sviluppo embrionale del cervello e il numero di repliche è correlato alla sua dimensione, non solo nella nostra specie come Elena Cattaneo ha dimostrato con esperimenti sui ricci di mare, i pesci danio e i topi.

Le nuove generazioni umane tendono ad avere più repliche – da 9 a 35, in media 17 – dei genitori, e queste sono state correlate a migliori funzioni cognitive e coordinazione dei movimenti, stando a ricerche sui volontari sani e sui bambini. I risultati sembrano confermare l’ipotesi più generale di Elena, l’aumento delle repliche spiegherebbe quello del volume del cervello nell’evoluzione delle specie Homo. C’è un costo, però.

5 commenti

  1. Tentiamo con “22P”, “sfigda passerina” e “brufala” per vedere se il modello regge anche in caso di ricerca di una attendibilità di capitare nel mondo dell’assurdo? Da quelle parti, dove si crede che Rossi sia un sant’uomo di scienza, Atlantide e Mu l’abbiano fatta davvero da padroni e la medicina germanica sia una gallata pazzesca, si vorrebbe sostenere che il GSVIT sia un luogo di pseudoscienza…D’altronde, c’è chi sostiene la stessa cosa da un sito come il JonP, il quale (a differenza -secondo loro – del sito del GSVIT) non pubblicherebbe spezzoni di articoli scientifici (magari anche “unrelated”) per far credere di avere un valore reale e non presenterebbe interventi di persone farlocche che pontificano sul nulla o che vendono aria fritta o che truccano dati…
    Chissà se il modello reggerebbe ad una simile sfigda
    😀

  2. March 7, 2015 at 5:32 pm
    Your comment is awaiting moderation.
    And it took only 5 years of lies – and, after all, you still keep a 9% and a chance that “something amazing” could really happen in some nearby future…
    I gyess you will be able to sleep few time,: Rossi and Third Party Friends will surely set up a new miracle to renew faith of people herearound…
    Happy landing, after next 3/6/18 * n months of missed promises
    😀

I commenti sono chiusi.