Verso i Linked Open Data Geografici
Un numero sempre più ampio di soggetti pubblici e privati rende disponibile i propri dati geografici in modalità open con licenze d’uso che ne consentono la libera fruizione ed utilizzo.
Gli open data sono la naturale evoluzione della semplice libera condivisione delle banche dati in quanto i dati, e relativi metadati, sono forniti in un formato standard ed organizzati in una struttura dati standard, secondo regole definite a livello internazionale. Queste caratteristiche li rendono utilizzabili direttamente da applicazioni software senza alcun intervento umano. Gli open data, grazie a questa caratteristica, possono essere utilizzati, ad esempio, dalle App degli smartphone, essere indicizzati sui motori di ricerca di open data e integrati con portali di dati aperti.
Per sostenere questo movimento di liberalizzazione dei dati noi di Planetek Italia e i colleghi di SINERGIS abbiamo deciso di avviare una iniziativa congiunta unendo le nostre competenze per realizzare una soluzione utile a pubblicare Open Data geografici sotto forma di Linked Open Data.
Abbiamo così progettato un’applicazione software che consente di trasformare dati e servizi web cartografici in open data conformi alla classificazione “a cinque stelle” di Tim Berners-Lee, ovvero con un formato ed una struttura standard che siano direttamente utilizzabili da applicazioni informatiche senza interventi manuali.
Rendendo fruibili le informazioni geografiche sotto forma di open data, con particolare attenzione per il formato RDF/XML, assicuriamo così la fruizione dei dati come Linked Open Data, e quindi il loro riuso, l’ indicizzazione sui motori di ricerca di open data e l’integrazione con portali di dati aperti o con il Comprehensive Knowledge Archive Network (CKAN), il catalogo di dataset e progetti liberi.
Abbiamo voluto realizzare una soluzione OPEN e riusabile, che si può integrare in modalità standard a qualsiasi Geoportale cartografico o ad Infrastrutture di Dati Territoriali basate sugli standard per l’interoperabilità definiti dall’Open Geospatial Consortium (OGC). I dati geografici aperti possono inoltre essere valorizzati sia in formato RDF che in altri formati di interscambio (ad esempio in formato Shape File).
Le prime componenti di questa soluzione sono state realizzate nell’ambito di una iniziativa congiunta di sviluppo dell’infrastruttura di dati territoriali (IDT) della Regione Emilia-Romagna. (vedi la presentazione al Forum PA 2012).
L’obiettivo dell’iniziativa è quello di rendere disponibili come Open Data (con particolare attenzione per il formato RDF/XML e quindi come Linked Open Data) i Dati ed i Metadati gestiti dall’infrastruttura di dati territoriali (IDT) della Regione Emilia-Romagna. La generazione dinamica degli RDF partendo dai webservice esposti dal Geoportale assicura il costante allineamento dei dati con il portale dati.emilia-romagna.it, che funge da repository/indicizzatore di dati e metadati liberi a livello regionale (anche per RDF).
Con riferimento ai Dati disponibili nella IDT della Regione Emilia-Romagna, si è scelto di pubblicare come Linked Open Data solo alcune classi di oggetti territoriali, ed in particolare quelle che individuano i principali oggetti territoriali di riferimento, quali Edifici, Numeri Civici, Limiti Amministrativi comunali e Toponimi stradali.
Propedeutica alla vera e propria pubblicazione dei dati RDF/XML è naturalmente la definizione dell’ontologia regionale che descriva il significato dei dati da pubblicare. Nel caso dell’Emilia-Romagna la modellazione concettuale degli oggetti da pubblicare non è stata definita ex-novo, ma piuttosto mutuata da quella utilizzata nei Data Mart di consultazione del DB Topografico. Durante la fase di definizione dell’ontologia è opportuno provare ad individuare i possibili collegamenti con i dataset LOD già esistenti ed appartenenti alla cosiddetta LOD Cloud, in modo da trasformare il dataset regionale in un nodo aggiuntivo del nuvola stessa.
Parimenti, nel caso dei Metadati, è necessario definire una ontologia che descriva il significato dei metadati ISO 19115. Questi sono scaricabili dal Geoportale regionale in formato XML secondo lo schema definito dallo standard ISO 19139, ed è possibile mappare lo schema in questione in una ontologia OWL e così tradurre ciascuna scheda metadati in un file RDF/XML basato su questa ontologia. La definizione dell’ontologia sui metadati sarà svolta in collaborazione con DigitPA.
Mentre la pubblicazione in formato Linked Open Data dei metadati, disponibili attualmente in formato XML secondo lo schema ISO 19139, ha senso a prescindere dal particolare dato a cui ci si riferisce, perché nota e codificata la semantica del metadato stesso, per i dati il discorso è differente. La pubblicazione di dati come dati aperti linkabili assume significato quando questi dati sono collegati a dati esistenti già pubblicati e sono a loro volta potenzialmente riferibili da altri. Questo vale per tutti i dati in generale ma in particolare per quelli territoriali che sono, per loro natura, base per la correlazione di informazioni.
I servizi di estrazione di dati e metadati sono basati sull’utilizzo degli standard definiti dall’OGC® – Open Geospatial Consortium per i webservices geografici. I dati, interessati dalla pubblicazione in Linked Open Data, vengono quindi estratti in formato RDF utilizzando i servizi standard OGC-WFS (Web Feature Service), messi a disposizione dalla Infrastruttura Dati Territoriale per l’accesso ai dati geografici. L’estrazione dei metadati geografici in formato RDF viene invece effettuata utilizzando i servizi standard di catalogo OGC-CSW (Catalog Service for the Web), con i metadati che possono essere così associati agli RDF (Linked Open Data) e agli shapefile dei dati.
La soluzione prevede l’utilizzo di software libero per garantire la riusabilità del sistema, ed in particolare vengono adottati i tool open source Protegè per la definizione dell’ontologia; Jena e Sesame per la gestione del OWL/RDF; Silk per l’Interlinking; il CKAN come Catalogo dei dati Open; OpenLink Virtuoso per l’archiviazione degli RDF nel Triple Store; infine Sparallax come Browser dei Linked Open GeoData. Per la definizione dell’ontologia dei concetti geometrici, infine, viene utilizzata l’ontologia contenuta nelle specifiche standard GeoSPARQL, di recente adozione da parte dell’OGC.
Il tema avrà modo di essere approfondito nei prossimi mesi, non solo sui nostri canali web, ma anche nei principali convegni ed eventi del settore Geomatico.
Vi segnaliamo il prossimo interessante evento organizzato a Bologna, Venerdì 6 luglio 2012, dall’Associazione Stati Generali dell’Innovazione e Regione Emilia Romagna dal titolo ““Diritti digitali e dati aperti: le basi per Città e Comunità smart”“.
Giovanni Perego
I miei complimenti per il grande lavoro svolto, e per la sua illustrazione.
Quello che mi lascia un po’ perplesso è quale sia l’effettiva fruibilità dei Linked Open Data Geografici realizzati in questo modo.
Indubbiamente potranno essere utilizzati da altri Geoportali cartografici o da Infrastrutture di Dati Territoriali basate sugli standard OGC.
Non capisco, a meno che on mi sia perso qualcosa, come questi dati divengano utilizzabili dai software GIS desktop, ovvero dalla gran parte degli operatori.
Penso che gli OpenGeoData, per raggiungere il massimo utilizzo debbano arrivare fin nei computer degli operatori e dei professionisti, in un formato di scambio utilizzabile.
Grazie e buon lavoro!
GimimGIS
Alfredo Abrescia
Ciao,
la nostra soluzione GetLOD permette di esportare il dato open sia in formato shapefile che in formato rdf.
Il formato shapefile consente l’utilizzo di quel dato open all’interno del mio software GIS ed, eventualmente, mi consente di scambiare quel dato con altri operatori.
Però, non raggiungo l’obiettivo dell’interoperabilità del dato.
“I dati, se isolati, hanno poco valore; viceversa, il loro valore aumenta sensibilmente quando data set differenti, prodotti e pubblicati in modo indipendente da diversi soggetti, possono essere incrociati liberamente da terze parti.” (fonte http://www.linkedopendata.it)
Il vantaggio di avere un dato in formato rdf è quello di facilitare il “merging” di dati anche eterogenei e di utilizzare gli URI(Uniform Resource Identifier) come “punti di aggregazione” delle informazioni.
E’ di recente pubblicazione, inoltre, da parte di OGC della specifica riguardante “GeoSPARQL: A Geographic Query Language for RDF Data” che supporta la rappresentazione e l’interrogazione dei dati geospaziali sul Semantic Web.
In futuro si svilupperanno sempre più applicazioni in grado di utilizzare questi dati in modi e per scopi non preventivati prima.
Il futuro è appena iniziato!
Buon lavoro anche a te!
Alfredo