Share-PSI 2.0 logo

Jó gyakorlat: Azonosítsuk a már közzétett adatokat

Ez a verzió
http://www.w3.org/2013/share-psi/bp/iwyap-20160725/
Legfrissebb verzió
http://www.w3.org/2013/share-psi/bp/iwyap/
Előző verzió
http://www.w3.org/2013/share-psi/bp/iwyap-20160627/

Ez a dokumentum a (felülvizsgált) PSI Direktíva megvalósítására a által készített jó gyakorlatok gyűjtemény része.

Creative Commons Licence Share-PSI Jó gyakorlat: Azonosítsuk a már közzétett adatokat Share-PSI 2.0 Licensz: Creative Commons Attribution 4.0 Nemzetközi.


Célok

Sok szervezet számára annak eldöntése, hogy mely információkat tegye elérhetővé újrafelhasználásra gép által olvasható formátumban gondot okozhat. Azonban az általuk már korábban közzétett információk jó példái lehetnek a nyílt adatként megjelenítendő adathalmazra. Ezért a szervezetek számára fontos, hogy a már közzétett információkról "leltárt" készítsenek és azt folyamatosan vezessék. Mivel az ilyen jellegű információk mennyisége túl nagy lehet a manuálisan történő katalogizáláshoz, célszerű egy automatizált ún. scraping (adatgyűjtő) technikát alkalmazni a már közzétett információk dokumentálására és követésére.

Kihívás

Hogyan kezdjünk hozzá annak eldöntéséhez, mely információkat tegyük elérhetővé újrafelhasználásra gép által olvasható formátumban?

Annak azonosítása, hogy mely információkat kell elérhetővé tennünk gondot jelenthet, ha nem tudjuk milyen információt tettünk már közzé, illetve ha az információ mennyisége túl nagy a manuálisan történő katalogizáláshoz.

Megoldás

Hozzunk létre a már közzétett adatokról egy leltárt vagy katalógust, melyet folyamatosan vezetünk. Ezt megtehetjük manuálisan vagy automatizált scraping (adatgyűjtő) technikát használva, mely a weblapon már megjelent adathalmazok katalógusadatait gyűjti össze.

Miért ez a jó gyakorlat?

Információk rendszeresen jelennek meg a tartalomkezelő rendszerek elosztott folyamatai révén. A már közzétett információkészletekről készült leltár azonban hiányozhat és nehézkes lehet ennek manuális előállítása. Ezért sok szervezetnek okozhat gondot az, hogyan kezdjen hozzá annak eldöntéséhez, mely információkat tegyen elérhetővé újrafelhasználásra.

A már közzétett adatokról készült leltár segíti a szervezetet abban, hogy átlássa milyen információt nyújt és mely adatokat tehet még alkalmasabbá az újrafelhasználásra. Annak megértése, hogy mely adatkészleteket jeleníthet meg nyílt adatként, nélkülözhetetlen ahhoz, hogy ki tudja jelölni a közzétenni szánt adatkészleteket. Az olyan technológiák, mint a weboldalról történő adatgyűjtés (site scraping) lehetővé teszik a szervezetek számára honlapjaik rendszeres átnézését, és hogy tudják, mely információkészleteket tettek közzé milyen formában (nyíltan, zártan, stb.).

Hogyan valósítsuk meg ezt a jó gyakorlatot?

Egy egyszerű táblázatkezelő is alkalmas lehet az adatkészletek listájának vezetésére, de az adatok mennyiségét valamint a szervezet igényeit figyelembe véve, olyan katalogizálási megoldások is alkalmazhatók, mint például a CKAN .

Szükség van adatgyűjtő szofverre/könyvtárra, mint a Scrapy. Az adatgyűjtő szoftver által kigyűjtött metaadatok fazettaként is használhatók a hivatkozások rendezésére és csoportosítására. Fazettás böngésző tulajdonságokat nyújtanak az olyan alkalmazások, mint az Exhibit. Amennyiben az adatbiztonság fő szempont, az adatgyűjtő szoftvert egy izolált, elszigetelt gépen kell futtatni, csak az adatok fejállományait feldolgozva.

Akár manuális, akár automatizált eszközökkel kerül kialakításra, a leltárnak tartalmaznia kell legalább az adat- és információkészletek alapvető metaadatait, mint a név, elhelyezkedés, jelenlegi formátum és a felhasználás feltételei. További metaadatok mint a felelős személy/egység, céladat-formátum vagy a frissítés gyakorisága segíthet a jövőbeni közzétételi folyamat irányításában, valamint pontosabb kalkulációt tehet lehetővé a nyílt adathalmazok közzétételének és kezelésének munka- és költségigénye vonatkozásában.

Hol valósult már meg ez a jó gyakorlat?

Ország Megvalósítás Kapcsolat
Skócia The Scottish Government Dr Peter Winstanley, The Scottish Government.
Helsinki Region Inforshare Open Data Pipeline Comment box included in the page

Referenciák

Nemzeti iránymutatások

Erre a jó gyakorlatra hivatkoznak, vagy ezzel megegyező tanácsot adnak a következő iránymutatások:

Kapcsolat

Dr Peter Winstanley, The Scottish Government.

Feladatkezelő

Bármilyen, a fenti jó gyakorlathoz kapcsolódó észrevétel, mint például a megvalósítás, az ahhoz kapcsolódó tapasztalat, levont tanulságok, vagy iránymutatások melyek erre a jó gyakorlatra hivatkoznak, felvihetők és megvitathatók a projekt GitHub-on.

$Id: Overview.php,v 1.5 2016/08/20 06:56:09 phila Exp $