Share-PSI 2.0 logo

Jó gyakorlat: A statisztikai adatokat kapcsolt adat formátumban tegyük közzé

Ez a verzió
http://www.w3.org/2013/share-psi/bp/stats-20160725/
Legfrissebb verzió
http://www.w3.org/2013/share-psi/bp/stats/
Előző verzió
http://www.w3.org/2013/share-psi/bp/stats-20160627/

Ez a dokumentum a (felülvizsgált) PSI Direktíva megvalósítására a által készített jó gyakorlatok gyűjtemény része.

Creative Commons Licence Share-PSI Jó gyakorlat: A statisztikai adatokat kapcsolt adat formátumban tegyük közzé Share-PSI 2.0 licensz: Creative Commons Attribution 4.0 Nemzetközi.


Célok

A statisztikai adatok kapcsolt adatokként történő közzététele a W3C RDF Adatkocka szókészlet alapján, mely meghatározza az adatok megjelenítésének szabványos, gép által olvasható módját, emellett felsorol egy ajánlott metaadat kifejezés-készletet az adathalmazok leírására.

Kihívás

A statisztikai adatokat jelenleg számos formátumban és szabvány szerint publikálják, melyek nem teszik lehetővé ezen adatok adathalmazokon átívelő összekapcsolását. Emellett pedig, számos politikai előrejelzés, tervezés és igazodás alapjául szolgálnak, így jelentős hatással vannak a társadalomra (az állampolgároktól kezdve az üzleti szférán át a kormányzatig). A szocio-gazdasági indikátorok gyűjtésének és figyelemmel kísérésének folyamata jelentősen javulna, ha a kormányzati szervek, mint a Statisztikai Hivatal, Nemzeti Bank, Foglalkoztatásügyi szolgálatok, stb., által előállított adatok kapcsolt adat formátumban lennének közzétéve.

Megoldás

A Kapcsolt Adat paradigma új lehetőségeket és perspektívát nyitott a kormányzati szervek előtt, hogy nyílttá tegyék az adatokat és információt cseréljenek. Egy adat akkor nyílt, ha technikailag nyílt (gép által olvasható formátumban elérhető, vagyis visszakereshető és értelmesen feldolgozható egy számítógépes alkalmazás által), valamint jogilag nyílt (egyértelműen engedélyezett kereskedelmi és nem-kereskedelmi célú felhasználása és újrafelhasználása, korlátozások nélkül), lásd például a Világbank Nyílt Adat Fő Szempontok (World Bank Open Data Essentials) dokumentumot.

A kapcsolt adat megközelítés lehetővé teszi az adathalmazok közös fogalmak mentén történő összekapcsolását. Az adathalmaz gráf formában reprezentált, RDF-et használva, mint általános leíró nyelvet. A kapcsolt adat közzétételi eljárás egy teljes tevékenységi körre vonatkozik, amely felöleli a weben különböző forrásokból (pl. adatbázisokból) származó RDF adathalmazok vonatkozásában az adatkinyerést, átalakítást, validálást, kereshetővé tételt és közzétételt. A felhasználásra kész RDF adathalmazokat tárolhatjuk helyileg vagy regisztrálhatjuk egy metaadat-katalógusban, amely épülhet például a CKAN nyílt forráskódú eszközzel.

2014-ben a W3C Kormányzati Kapcsolt Adatok Munkacsoportja (Government Linked Data Working Group) megjelentette az RDF Adatkocka Szókészlet (RDF Data Cube Vocabulary) W3C Ajánlást a többdimenziós adatok weben való közzétételéről.

Miért ez a jó gyakorlat?

Ez a megközelítés hozzájárul a többdimenziós adatok webes közzététele és újrafelhasználása gyakorlatának szabványosításához. A megközelítés az RDF Adatkocka Szókészleten alapszik, amely elég fejlett ahhoz, hogy a statisztikai adatok közzétételéhez használják, mivel javítja az interoperabilitást és lehetővé teszi a különböző statisztikai forrásokból származó adatok összehasonlítását. A szókészlet az SDMX-et (Statistical Data and Metadata eXchange), egy ISO szabványt használ a statisztikai adatok és metaadatok szervezetek közötti cseréjére és megosztására, valamint egy adatok feletti réteget biztosít a szakterület szemantika, adathalmaz metaadatok és más fontos információk leírására, melyek a statisztikai adatok cseréje során szükségesek.

Költségvonatkozások: a közzététel költségeit minimalizálni kell, hacsak nincsenek egyértelmű üzleti előnyök. Az állami szervezeteknek elemezniük kell az adatelérhetőség aktuális helyzetét, az adatok iránti igényt és ezáltal elkerülni az adatok kapcsolt adat formátumba történő átalakításának felesleges költségeit. Az állami szervezeteknek az információt az alábbi módok egyikén kell biztosítaniuk:

  • A lehető legalacsonyabb költségek mellett közzétenni az adatokat, hatékonyan és nyíltan elérhetővé téve azokat, vagy
  • Költség-haszon elemzést végezni a lehetséges felhasználást, megosztást, közzétételi módokat és közzétételi formátumokat megbecsülve, majd az elemzés alapján kiválasztani a tennivalókat, a közzétételi módokat és formátumokat.

Annak eldöntése, hogy milyen közzétételi forma közvetíti leginkább a közadat (kereskedelmi vagy egyéb) értékét, valamint az ebbe a formátumba történő átalakítás munkája maradhat a kereskedelmi termékek és szolgáltatások forgalmazóira, valamint más felhasználókra. Ha a költségvonatkozások miatt nem lehetséges a statisztikai adatokat a kívánt formátumban közzétenni, akkor fontos annak biztosítása, hogy harmadik fél a rendelkezésre álló formátumból az RDF Adatkocka Szókészlethez alakíthassa át az információt. Az RDF Adatkocka Szókészlet által használt többdimenziós adatmodell (n-dimenziós adatkockákkal mint a megfigyeléssel, dimenzióval és mértékekkel ellátott adathalmazok) kellően általános ahhoz, hogy ne jelentsen korlátokat a közzétevők számára.

A statisztikai adatok más általános adatformátumba történő lehetséges átalakítására láttunk példát az alábbi formátumok esetében: SDMX, XBRL, és a Dataset Publishing Language. Ha megfelelő metaadat biztosított, az átalakítási szkriptekkel megoldható CSV-ből vagy táblázatos (pl. Microsoft Excel) adatokból is.

Hogyan implementáljuk ezt a jó gyakorlatot?

Ez a jó gyakorlat az automatikus adatkinyerés és a közzétételi folyamat eszközkészletén alapszik. Az EU kutatási közössége számos nyílt forráskódú eszközt fejlesztett a statisztikai adatok kapcsolt adat formátumban való közzétételére, lásd például a LOD2 Statistical Workbenchet, vagy az OpenCube eszközkészletet.

Hol implementálták már ezt a jó gyakorlatot?

Ország Megvalósítás Kapcsolat
Olaszország LOD ISTAT (residency population) Istat
Olaszország LinkedStat (a project between ISTAT and SpazioDati) SpazioDati and Istat
UK Scottish Government Statistics Scottish Government
Finnország Semangtic hri.fi Page includes contact information
Csehország Publikace dat statistických ročenek ve standardu otevřených dat Jan Kučera

Referenciák

Nemzeti iránymutatások

Erre a jó gyakorlatra hivatkoznak, vagy ezzel megegyező tanácsot adnak a következő iránymutatások:

Kapcsolat

Eredeti szerző és szerkesztő: Valentina Janev, Institute Mihajlo Pupin; közreműködő: Benedikt Kämpgen, FZI Research Center for Information Technology

Feladatkezelő

Bármilyen, a fenti jó gyakorlathoz kapcsolódó észrevétel, mint például a megvalósítás, az ahhoz kapcsolódó tapasztalat, levont tanulságok, vagy iránymutatások melyek erre a jó gyakorlatra hivatkoznak, felvihetők és megvitathatók a projekt GitHub-on.

$Id: Overview.php,v 1.4 2016/08/20 07:03:01 phila Exp $