13 aprile, 2009 | di in » Dati

Gli eventi abruzzesi mi hanno toccato molto. Non poteva essere diversamente.

Sono un geologo e mi occupo di sistemi informativi geografici; posso dare un piccolo aiuto anche io, sfruttando le mie attitudini e le mie competenze?
Per giorni non ho trovato la risposta, poi mi contatta in chat Alessio Di Lorenzo, un amico biologo abruzzese e curatore  del portale cartografico del Parco Nazionale della Majella, e mi chiede se conosco una fonte da cui estrapolare dei dati sugli eventi sismici di questi giorni. Li vuole elaborare e trasformare in una sorgente geoRSS, prendendo spunto proprio da quanto abbiamo scritto qui. Inizialmente la cosa mi ha fatto piacere, ma non mi ha stimolato nulla. In seguito,  aprendo l’URL che gli ho inviato, quello del Centro Nazionale Terremoti dell’Istituto Nazionale di Geofisica e Vulcanologia, qualcosa mi ha fatto “click” in testa. Ma “poco poco, piano piano”.

Mi sono passati davanti agli occhi, i dati sismici pubblicati in questi giorni. Quelli “ufficiali”, quelli presentati dai giornali online di tutto il mondo, quelli sui blog. Alcuni sono caratterizzati da piccole grandi carenze, potenzialmente superabili con poco sforzo, ma con origini che sono profonde.

Tim Berners-Lee, uno degli “inventori” del World Wide Web, ha presentato nello scorso Febbraio una relazione orale sul futuro del Web (grazie a Stefano Costa per la segnalazione). E’ visibile in diversi siti, e gli dovreste dedicare 15 minuti del vostro tempo (se la guardate qui ci sono i sottotitoli, ha un inglese “difficile”), qualsiasi mestiere facciate.  In quella sede ha lanciato uno slogan: “raw data now“, letteralmente “dati grezzi ora”. Ha invitato il “mondo”, gli enti pubblici e quelli privati, a “liberare” i propri dati e creare i presupposti affinché questi possano essere accessibili e mescolati tra loro. Ha invitato inoltre tutti noi a stimolare chi detiene dati, a muoversi in questo senso; senza la condivisione, questi perdono quasi del tutto la loro qualità.

Berners-Lee individua tre regole:

  1. deve bastare un semplice indirizzo web, un URL, per puntare ad un dato
  2. chiunque abbia accesso a quell’URL, deve poter scaricare i dati in qualche formato standard
  3. devono essere descritte le relazioni tra i dati (Andrea è nato a Palermo, Palermo è in Italia, etc.), e queste relazioni devono essere espresse ancora una volta tramite un’URL

Questo sarà il web 3.0, basato sui dati e (si spera) sulle relazioni semantiche tra gli stessi. Ma torniamo ai dati sismici sul nostro paese. Rispettano queste tre regole?

Questa non sarà una critica al CNR ed all’INGV. Leggo sul loro sito, che gran parte dei dati da loro pubblicati in questo contesto, sono affidati (ancora una volta) al volontariato. A molti dipendenti infatti sembra non sia stato rinnovato il contratto. Non conosco questa situazione, ma è molto triste anche soltanto immaginare che una funzione di questo tipo possa essere “relegata” a semplici attività di volontariato.
Quello dei dati sismici è per me solo uno spunto, ed il discorso va allargato a tutti i contesti in cui esistano dei dati pubblicati in modalità poco efficienti (o addirittura non pubblicati).

Il formato in cui sono accessibili gran parte dei dati sismici è il CSV :

è un formato di file basato su file di testo utilizzato per l’importazione ed esportazione (ad esempio da fogli elettronici o database) di una tabella di dati.  Non esiste uno standard formale che lo definisca, ma solo alcune prassi più o meno consolidate.

Un esempio pratico è quello delle date, espresso in alcuni file dell’INGV in questo formato YYYY/MM/DD (2009/04/13). Aprendo uno di questi file con un foglio elettronico, il campo “data” verrà quasi sicuramente interpretato in automatico ed adattato alle impostazioni “locali” del vostro PC. Su molti PC italiani, sarà infatti forzato questo formato: DD/MM/YYYY (13/04/2009). E’ la stessa data? Sembra di si. Ma se iniziassimo a scambiare questi dati con colleghi, che usano un semplice blocco note per aprire il file CSV (senza quindi che i dati siano “trasformati”), o che vivono in un altro paese (quindi con un’impostazione locale differente), in quanto tempo ne perderemmo l’integrità?
Usando degli standard, ad esempio per le date l’ISO 8601 , riusciremo a dare ai nostri dati una vita più lunga ed anche una “platea” molto più estesa.

Altre volte i dati sono pubblicati come tabelle HTML. Avete mai provato a fare copia ed incolla di una tabella, da una pagina web ad un foglio elettronico? Molte volte se ne esce con le ossa rotte.
E’ giusto pubblicare i dati in html, ma dovremmo sempre fornire anche altre possibilità. Il servizio geologico americano (“so forti li americani”), lo USGS, pubblica da tanti anni un catalogo di eventi sismici in tre formati: KML (il formato di Google Earth che è ormai uno standard OGC), CSV ed XML (geoRSS). E’ una scelta che mi sembra cristallina. Si conciliano infatti formati adatti ad un’immediata divulgazione, con un formato RAW (come direbbe Tim Berners-Lee).  Il file KML e quello XML consentono ai dati di essere interpretati correttamente da una macchina e di essere “mescolati” più facilmente con altri provenienti da altri pc, scritti con altri software e  prodotti da altri gruppi di lavoro. Questa opportunità è un aspetto molto importante, in quanto l’incrocio di dati diversi spesso fa saltare agli occhi significati inaspettati; a costo di essere noioso, se non definisco i miei dati in un formato standard, sarà difficile riuscire a correlarli “immediatamente” con altri. L’INGV si sta muovendo sullo stesso solco, e in questa pagina troverete i dati degli eventi sismici degli ultimi 90 giorni sia informato CSV, che KML. Ma troverete anche questo avviso:

Le informazioni contenute in queste pagine sono state sinora garantite dalla disponibilità del personale, precario e non dell’Istituto Nazionale di Geofisica e Vulcanologia. L’agitazione del personale dell’Istituto contro l’emendamento 37bis alla proposta di legge 1441 quater, che in sostanza provocherebbe il quasi immediato licenziamento del personale precario, porterà alla sospensione di tutte le attività. Nell’immediato si procederà al blocco di ogni tipo di informazione telematica e telefonica non istituzionale.

Ma torniamo un attimo alle tre regole di sopra. La prima può sembrare meno importante, ma nasconde nella sua semplicità di formulazione un grande potere (sembra Spiderman).
Usiamo ogni giorno gli indirizzi http, gli URL. Li usiamo in modo naturale e spontaneo, senza chiederci cosa siano, su cosa si basino e come funzionino. E non c’è nulla di male.
Quando cambio canale della mia TV con un telecomando, non devo avere alcuna nozione sulla trasmissione dell’infrarosso; devo soltanto saper che devo usare un determinato tasto. Se prendo il telecomando del mio nuovo stereo, mi viene naturale utilizzarlo allo stesso modo. Così per il lettore DVD e per la mia pompa di calore (dite che questa è una forzatura?).
Anche accedere a diversi tipi di dati, di diversa origine, dovrà essere una cosa così semplice e “spontanea”. Con lo stesso protocollo, l’http, non più accedere “soltanto” a pagine web ma anche a fonti di dati grezze.

Quello che gli eventi abruzzesi mi hanno stimolato, come uomo e come professionista, è l’attenzione alla politica della gestione dei dati. Le classi dirigenti del nostro paese dovrebbero allinearsi a quanto esposto da Tim Berners-Lee. Sia perché il cittadino possa essere informato, sia per dare forza e valore ai dati, i quali se chiusi in un hd o divulgati in modo inappropriato rischiano di essere inutili e di produrre uno spreco (non soltanto economico).
Dobbiamo tenere alta l’attenzione verso questi temi.

I fatti di questi giorni, il dialogo con i colleghi di TANTO, l’indiretto stimolo di Alessio, i post di altri blogger, mi hanno spinto anche a provare a realizzare una piccola cosa concreta, proprio a partire dai dati sismici della regione Abruzzo.
Si tratta di qualcosa che a prima vista è confrontabile alle interfacce di webmapping basate su Google Maps, in cui in coincidenza della posizione di ogni evento sismico è raffigurato un “pallino”. Quello che ho provato ad aggiungere è la possibilità di modificare e “mescolare” i criteri di visualizzazione del dato: a partire dalla serie di dati che ho estratto, poter visualizzare ad esempio soltanto gli eventi sismici di Marzo, di magnitudo maggiore di 4, di profondità compresa tra 5 e 10 km e del distretto sismico del “Gran Sasso”. L’utilizzo di questi filtri mi ha dato (da utente) la sensazione di potere leggere “meglio” i dati; spero che non dipenda dall’emotività con cui ho lavorato su questo piccolo progetto.
Ho aggiunto anche una timeline, che da la possibilità di passare dalla visualizzazione degli eventi in scala spaziale, ad una efficacissima in scala temporale. Anche qui potrete usare gli stessi filtri.
C’è una visualizzazione tabellare “dinamica” in HTML, ordinabile usando qualsiasi delle colonne presenti, ed anche questa “sensibile” ad i filtri.
Infine i dati sono esportabili in diversi formati, tra i quali: RDF/XML, Semantic wikitext, Tab Separated Values. Per attivare l’export basta andare con il mouse alla sinistra del modulo “Cerca”, e cliccare sull’icona a forma di forbice che verrà visualizzata (vedi figura).
Purtroppo ho riscontrato un problema con l’export nel formato a cui tenevo di più – RDF/XML – ma spero di risolverlo nei prossimi giorni (è un piccolo autogol ;-) ).

L’interfaccia sviluppata ha però un vero grande difetto (e magari non sarà l’unico): non si aggiornerà in automatico, ogni volta che verranno pubblicati nuovi dati dall’INGV. Questo perché sono partito dai quelli pubblicati qui (una tabella HTML), e non da quelli in CSV o KML. Nei prossimi giorni proverò a partire da quelli in CSV, darli in pasto a Yahoo! Pipes ed automatizzare il processo di pubblicazione.

L’applicazione è visibile qui, e qui sotto vedete uno screenshot della timeline.

E’ realizzata con Exhibit, e ci scriverò a breve un tutorial di dettaglio. In questo post volevo “fare” altro.

Chiudo dando la disponibilità di collaborazione mia e dei miei colleghi, a chiunque ritenga che le nostre competenze possano essere d’aiuto in questo momento.

Un abbraccio forte a tutti quelli che stanno vivendo questo terribile momento; uomini, donne e bambini con una compostezza ed una dignità fuori dal comune.

Sopra le nuvole c’è il sereno” diceva Endrigo in una meravigliosa canzone  “d’amore”.

Attenzione! Questo è un articolo di almeno un anno fa!
I contenuti potrebbero non essere più adeguati ai tempi!

6 Responses to “Dati: pubblici, standard e interconnessi (dedicato)”

  1. By Gerlando Gibilaro on apr 14, 2009

    Caro Andrea,
    scrivo questo commento perché il tuo articolo mi ha particolarmente toccato e perché rimanga una traccia di alcune riflessioni che voglio sottoporre all’attenzione dei lettori di TANTO.

    Eventi come un terremoto rappresentano un paradigma generale a partire dal quale possono essere effettuate alcune considerazioni valide per qualunque campo della vita politica e sociale.

    Mi spiego meglio:
    se è vero, (non sono un esperto, ma mi riferisco all’opinione che credo sia comunemente diffusa in ambito scientifico), che eventi di tal genere non possono essere previsti, ma possono essere programmati, allora non si può che rimanere perplessi innanzi al comportamento del “sistema politico/scientifico Italia”.
    Comportamenti che si ripercuotono a catena su diversi campi della vita di una Nazione:
    1. quello della ricerca e del mondo accademico;
    2. quello della politica e dell’economia;
    3. quello della vita sociale.

    Una prima riflessione è di carattere generale.
    Non sono un esperto, ma molto mi ha colpito il modo con cui è stato trattato il ricercatore che diceva di aver “previsto” il detto evento.
    E’ stato trattato dalla comunità scientifica come un pazzo esaltato.
    Un comportamento scientificamente corretto sarebbe stato, credo, quello di convocarlo e sottoporre i suoi dati ad un attento vaglio scientifico.

    Non so se ricordate il famoso “caso Di Bella” relativamente alla cura del cancro. All’epoca, ricordo, Ministro della salute era l’on. Bindi, che nell’uragano accademico (e molto poco scientifico) che si era scatenato fece l’unica cosa, a mio avviso, corretta: vagliare il caso secondo una prassi ed una metodologia empirico/scientifica e quindi trarre le dovute conclusioni.

    Non so se qualcuno ha mai sentito parlare del. professore di economia Nouriel Roubini docente alla New York University .
    Già il 7 settembre del 2006 aveva previsto nei minimi dettagli tutte le fasi di questa crisi finanziaria.
    Dal mondo accademico era stato soprannominato in modo fumettistico “Doctor Doom”.
    Non dico altro.

    Ripeto per l’ennesima volta, non sono un esperto, ma quello che, in questa dolorosa vicenda, mi è arrivato e quello che ho percepito è stata l’assoluta supponenza del mondo accademico, l’assenza di una qualunque riflessione.

    Una seconda considerazione, conseguente alla prima, attiene sempre al mondo accademico relativamente all’assenza di una corretta prospettiva e lungimiranza programmatica.
    Due sono gli elementi che mi hanno fatto rabbrividire:
    a) l’incapacità, o forse cosa ancora più grave la non volontà, di divulgare i dati raccolti secondo formati standard e liberamente usufruibili da parte di tutta la comunità;
    b) il fatto che molto del lavoro scientifico e realmente divulgativo (e forse la parte realmente più utile) viene svolto dal “personale, precario e non dell’Istituto Nazionale di Geofisica e Vulcanologia”.
    Questo “modus operandi” è una costante della maggior parte del mondo accademico e delle istituzioni nazionali (come non pensare ai dati sulla giustizia trattati in precedente post su TANTO).

    Una terza riflessione nasce proprio dalla notazione sopra effettuata ed è di carattere politico:
    Se è vero che gli istituti di ricerca sono sovvenzionati con denaro pubblico, allora perché questi dati non sono pubblici e liberamente usufruibili ? Mi spiego meglio: mettere a disposizione della comunità un oggetto non significa “semplicemente” renderlo “pubblico”, ma renderlo “effettivamente” utilizzabile dalla collettività o da parte di essa.
    In questo caso, così come in molti altri, non basta mettere a disposizione i dati perché si possa dire “Ecco, il dato è pubblico”, ma è necessario che lo stesso sia usufruibile. Per cui non posso che unirmi al coro: “RAW DATA NOW”, rammentando il secondo comma dell’art. 3 della nostra Costituzione che recita:
    È compito della Repubblica rimuovere gli ostacoli di ordine economico e sociale, che, limitando di fatto la libertà e l’eguaglianza dei cittadini, impediscono il pieno sviluppo della persona umana e l’effettiva partecipazione di tutti i lavoratori all’organizzazione politica, economica e sociale del Paese.

    Una quarta considerazione è di carattere economico: se è vero che la programmazione rappresenta a volte l’unica soluzione, è altrettanto vero che la programmazione stessa può costituire la migliore forma di investimento.
    Immaginiamo un investimento dello Stato in valori assoluti di 100 diciamo sulla ricerca, che valore avrebbe in termini relativi se i risultati di questo investimento fossero resi, come sopra detto, non solo pubblici e liberamente usufruibili da tutti, ma anche utilizzabili (anche sotto il profilo economico)? Per consentire questa possibilità il presupposto inevitabile è sempre quello di rendere i dati fruibili secondo uno o più standard di condivisione.
    L’investimento di 100 diventerebbe realmente un volano capace di mettere in moto un circolo virtuoso sia in ambito scientifico, ma anche in ambito economico: come non pensare a tutto il movimento dell’open source, alle licenze GNU o CC.
    In questa maniera non si finanzierebbe solo la ricerca, ma anche le imprese, i professionisti, ed anche, inevitabilmente, il mondo del lavoro subordinato

    Concludo le superiori riflessioni rilanciando una idea di programmazione fatta di condivisione.

    Non posso unirmi, in ultimo, all’abbraccio rivolto da Andrea a tutti quelli che stanno vivendo questo terribile momento.

  2. By Alessio on apr 14, 2009

    Questo probabilmente è uno dei post più belli che io abbia mai letto su TANTO (senza nulla togliere agli altri articoli!) e sono veramente contento che sia stata una mia (banale) richiesta a stimolarne indirettamente la scrittura… :)

    Gerlando ha già fatto delle giustissime considerazioni nel suo commento, considerazioni che che, personalmente, non posso che quotare in pieno.

    Dal canto mio aggiungo solo una microscopica considerazione:
    ho sempre sostenuto (e sempre sosterrò) l’importanza della standardizzazione dei dati che vengono messi a disposizione del pubblico dagli Enti preposti.
    Un dato che rispetta uno standard aperto e condiviso significa vera interoperabilità ed usabilità dello stesso con efficacia e in tempi rapidi (fondamentale in casi di emergenza). Poco importa, secondo me, che questo dato venga prodotto con un software proprietario o con uno libero (e qui già mi vedo mezza ML gfoss che chiede la mia testa :) ).
    Per chiarire questo concetto al prossimo, spesso faccio l’esempio della benzina per far andare le automobili: ogni automobilista sceglierà se comprarsi un’automobile o un’altra, in base al proprio portafogli e alle proprie necessità, l’importante è che quando si fermerà a fare rifornimento potrà essere sicuro che, indipendentemente da marca e modello della propria macchina, quel carburante la farà muovere. Senza carburante, anche una Ferrari rimane solo un (bel) “pezzo di latta” [*]

    [*] lo so, non c’è solo la benzina (e meno male…), ma è solo un’esempio! :D

  3. By amalia on apr 14, 2009

    A parte l’orgoglio di mamma per il post di Andrea,desidero dire che condivido quanto scritto da Gerlando e da Alessio .
    Semplicemente, cosa antica sin fai tempi di Socrate,il mondo accademico, il mondo politico e quello economico in perfetto accordo hanno sempre ignorato la vita sociale .Il mondo accademico,la casta, è impegnata ad usare l’Università -anzi a consumarla-per il proprio profitto o potere,il mondo economico sembra che non capisca nulla di economia-è anche qui gestione di potere ed il mondo politico usa gli altri due mondi sempre per il potere.E come dice Elias Canetti ,in suo saggio, chi ha sete di potere ha bisogno di servi mentre chi è maestro ha bisogno di collaboratori.Noi siamo privi di maestri e mi fa una rabbia immensa pensare che tutte le tragedie della “natura” sono soltanto dovute a questa gestione del potere.Avremmo bisogno degli indiani d’America che rispettavano la madre Terra ,senza consumarla……

  4. By Pietro Blu Giandonato on apr 14, 2009

    Intanto complimenti ad Andrea, per l’ennesimo lavoro davvero ben fatto. Penso che con questo TANTO si proietti nel web 3.0, non con le chiacchiere, ma con i fatti.

    Casomai ce ne fosse bisogno, condivido poi senza alcun dubbio i commenti di Gerlando, Alessio e di mamma Amalia. Il caso del buon Giuliani, vilipeso e accusato di fare la Cassandra, meriterebbe diversi approfondimenti, ma a me – da “esperto” diciamo così – non è mai passato per la mente di bollarlo come un buffone o un esibizionista, cosa che purtroppo ho sentito fare a colleghi che si pregiano anche di essere vicini al “mondo accademico”.

    La verità è che anche tra i professoroni si menano sberle, biecamente screditandosi l’un l’altro. L’italianissimo gettarsi feccia addosso non risparmia nessuno, e il bene comune (qui la ricerca pubblica) viene sacrificato al mero orgoglio personale.

    Per ciò che concerne la possibilità di accedere ai RAW DATA, credo nasconda una questione un pò spinosa, che forse noialtri addetti ai lavori tendiamo a trascurare eccessivamente. I dati grezzi, in quanto tali, per essere correttamente utilizzati hanno certo bisogno di essere resi disponibili in formati aperti e condivisi, oltre che corredati dei metadati. E su questo in Italia abbiamo ancora tanta, tantissima strada da fare, sebbene sempre più soggetti pubblici stiano lentamente progredendo.

    La questione spinosa della quale accennavo è la reale utilizzabilità stessa dei dati grezzi, ovvero la possibilità di poterne comprendere il significato (scientifico o meno) da parte degli utenti. Ciò che manca, insomma, è la consapevolezza di cosa si ha a disposizione e come lo si può utilizzare. In un mio modestissimo precedente post lanciavo velleitariamente una sorta di gara per la realizzazione di mappe utili o per lo meno interessanti. Proponevo la mia su Geocommons proprio recuperando e riutilizzando i dati messi a disposizione dall’INGV sui terremoti italiani. Gli stessi che Andrea ha usato per questo lavoro. Si tratta di dati che, grazie alla formattazione in CSV, in pochissimi click è possibile importare e utilizzare immediatamente, pressochè ovunque.

    Ecco, chi è geologo sa bene cos’è la magnitudine di un sisma e anche l’importanza della profondità del suo ipocentro. La differenza tra terremoti crostali e profondi. Ma un qualunque altro utente? Avrebbe colto la portata e il possibile utilizzo dei dati dell’INGV?

    Cos’è che manca? Non i semplici metadati, ma il significato pratico, reale, il potenziale divulgativo – parafrasando Gerlando – dei dati stessi. Ecco che dunque i RAW DATA sono (sarebbero) cosa buona e giusta, ma rimarrebbero in ambito accademico (e sarebbe già un gran risultato) in mancanza di un loro inserimento in un contesto più ad ampio raggio, più vicino al pubblico, al cittadino.

    C’è voluto il terremoto in Abruzzo perchè a scuola i ragazzi mi chiedessero come mai è avvenuto, se possa succedere anche da noi in Puglia, e capissero che ciò che accade sotto i nostri piedi, tutto sommato val la pena di capirlo.

    Ad maiora!

  1. 2 Trackback(s)

  2. set 3, 2010: inDiritto.it » Blog Archive » Legislazioni: accesso e ricerca delle norme
  3. giu 15, 2011: inDiritto.it » Blog Archive » Regione Sicilia: legge 5/2011 sul procedimento amministrativo ed in materia di trasparenza, la semplificazione, l’efficienza, l’informatizzazione della P.A.

Lascia un commento

Tag html consentiti: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>


3 + = 10


TANTO non rappresenta una testata giornalistica ai sensi della legge n. 62 del 7.03.2001, in quanto non viene aggiornato con una precisa e determinata periodicita'. Pertanto, in alcun modo puo' considerarsi un prodotto editoriale.