Leírás-alapú visszakeresés a World Wide Weben

Az eredeti dokumentum:
Finding things on the Web - Description-based Retrieval on the World Wide Web
http://www.w3.org/Conferences/WWW4/Panels/krp/macgregor.html
A lefordított dokumentum:
http://www.w3c.hu/forditasok/sikos/leiras/macgregor.html (mirror: http://www.leslie-sikos.net/fordit/leiras/macgregor.html)
Magyar fordítás (Hungarian translation):
Copyright © 2006 Sikos László (sikos kukac leslie-sikos pont net)
A fordítás státusa:
A W3C szerverén tárolt dokumentum fordítása a Szerző, Robert MacGregor tudomásával, a fordításokra előírt formai szabályok szerint, lelkiismeretes szakfordítói munkával készült. Ennek ellenére nem lehet kizárni, hogy hibák maradtak a fordításban.
Megjegyzések a fordításhoz:
1.) A fordítással kapcsolatos olvasói észrevételeket a fordító e-mail címére továbbíthatja.
2.) A fordítás során az eredeti dokumentum forráskódja nem lett megváltoztatva.

Leírás-alapú visszakeresés a World Wide Weben

Robert MacGregor
USC/Information Sciences Institute
macgregor@isi.edu

Bevezetés

Ahogy növekszik a Weben elérhető információ mennyisége, a hasznos információ mennyisége is nő, de azt - és tényleg csak azt - megtalálni, amit szeretnénk, fokozatosan sokkal nehezebbé válik. Egy információ-visszakereső eszköz teljesítménye a teljesség (mindent megtaláljunk, ami a vizsgálathoz kapcsolódik) és pontosság (csak azt találjuk meg, ami fontos) alapján értékelhető. A Webes lekérdezők mostani generációján még van mit javítani. Itt látható informáló értékelésünk teljesítményükről:
Technológia
Hiperhivatkozások (Webszörfözés)
Kategória-böngészők (pl. YAHOO)
Webes keresőgépek
Teljesség
Nagyon alacsony
Alacsony
Közepes
Pontosság
Közepes
Alacsony-közepes
Alacsony
Feltételezzük, hogy a kategória-hierarchiákon (taxonómiákon) alapuló indexelési sémákat használó Webes lekérdezők terjednek el, nagyon nagy taxonómiákat és nagyszámú, függetlenül felépített és kezelt taxonómiákat eredményezve.
WWW Háló

WWW

Jelenleg a nagy rendszerezések, mint amilyen a Library of Congress fejléc indexe, kézzel készülnek. Ahogy a webes rendszerezések átlagmérete a pár száz csomópontról több millióra nő, a manuális felépítés lehetetlenné válik. Ehelyett automatizált és félautomata technikák használata válik szükségessé. Új objektumok osztályozása egy taxonómiába automatikusan kell, hogy történjen, a kiegyensúlyozatlan hierarchiáknak pedig újra kell tudni építeni magukat. A rendszerezések méretbeli növekedésével szükségessé válik a jellegzetességek finomságának növelése is az információs objektumok között, hogy egy keresőmotor számára megkülönböztethetők maradjanak. A következőkben bemutatjuk a "tartalom-leírások" elképzelését, és leírjuk, hogyan könnyítik meg az igen nagyméretű taxonómiák felépítését.

Tartalom-leírások

A leírás egy olyan jelölés, ami egy információs objektum tartalmát teszi közzé. Az objektumok visszakeresése egy felhasználói kérésnek megfelelő leírások egyeztetésével történik. Egy szöveges dokumentumhoz mellékelt kulcsszó-lista egy informális stílusú leírást reprezentál. A kulcsszó-listák egy információs objektum tartalmának leírására vonatkozó képessége korlátozott. Például kétséges, hogy a kulcsszavak listája a benne szereplő témák kapcsolatát vagy vagylagosságát fejezi-e ki. A kulcsszólisták nem jelzik a szemantikus kapcsolatokat a kulcsszavak között. Ez az informalitás és a kifejezőerő hiánya miatt a kulcsszó-alapú keresések relatíve kis pontosságúak. A kifejezőerő és a leírások szemantikája formalitásának növelése lehetővé teszi a pontosabb visszakeresési séma kialakítását. A formális szemantika használata lehetőséget ad továbbá az automatizált osztályozási sémák létrehozására is.

Tegyük fel, hogy egy szervezetet a "cukorbeteg gyermekek szüleit támogató csoportok" leírással akarunk hirdetni. Adott a következő taxonómina-részlet:

Támogató csoport
Támogató csoport a csalókért
Szülői támogató csoport
Támogató csoport veleszületett betegségben szenvedő gyerekek szüleinek
Támogató csoport egyedülálló anyák számára

leírásunk a "támogató csoport veleszületett betegségben szenvedő gyerekek szüleinek" altémájába sorolható. Ha ezen leírások mindegyike formális definícióval rendelkezik, akkor ez az osztályozás automatizálható. A "cukorbeteg gyermekek szüleinek támogató csoportja" leírás formális verziója SQL-szerű szintaxisban kifejezve:

     select g in Tamogato-Csoport
     where forall m in cs.tagok
           always (exists v in t.gyerekek where v.cukorbeteg)

Millió csomópontos osztályozás

A formális leírások engedélyezik a tetszőleges finomságú megkülönböztetést az információ-elempárok között és engedélyezik az automatikus kategorizálást is. Mindkettő a nagyon nagy méretű taxonómiák kezeléséhez szükséges. Ezek biztosítják a szétterjedés csökkentésére használt "virtuális csomópontok" generálásához szükséges reprezentációs keretrendszert. Azok az információ-visszakeresési technikák, melyek bevezetik az attribútum-érték párosokat, részben hasonló célúak, mint leírásaink.

A formális leírások sajátossága, hogy automatikus vagy félig automatikus módon kell fejlesztenünk, hogy összefoglalhassuk őket. Néhány lehetőség:

  1. Webes hirdetők között azon "szokás" elterjesztése, hogy információkhoz formális leírást mellékeljenek (hasonlóan egy dokumentum kulcsszavának megadásához)
  2. Leírások generálása félig struktúrált objektumok szerkezeti részeiből
  3. Olyan tartalom-értelmezők fejlesztése, melyek megvizsgálják a dokumentumot (pl. szöveget vagy egy képet) és előállítják az azt összefoglaló formális leírást.

Keresés többszáz-féle osztályozással

A "dokumentumokat találni a cukorbeteg gyerekek szüleit támogató csoportokról" típusú lekérdezések végrehajtásához először is meg kell találni az összes olyan taxonómiát, ami releváns információt tartalmazhat. Ezután a lekérdezés motorjának végig kell nézni az összes ilyen taxonómiát, a lekérdezésnek megfelelő csomópontokat keresve. Az eszközök egy új generációja szükséges az ilyen keresések végrehajtásához (mivel a tradicionális adatbázis-lekérdező eszközök a keresési problémának csak egy részét oldják meg). A tudásreprezentáció osztályozó technológiája pontosan ilyen, csak még "ipari felhasználása" várat magára (sokkal hatékonyabb indexelési technikák, integráció relációs adatbázis-kezelő rendszerekkel (RDBMS), párhuzamos keresési algoritmusok).

A bábeli probléma

Ha minden taxonómia a saját egyéni szóanyagát használja és nem sorakoztatjuk fel ezeket a szóanyagokat más taxonómiákban használt szóanyagokkal, akkor bábeli helyzet alakul ki, ahol mindenki más nyelvet beszél, és senki sem érti más szavait, mint a sajátját. Ezen probléma legközvetlenebb megoldása egy áthidaló keretrendszer adaptálása, ami definiálja az összes taxonómiában használt szavakat (pl. adoptáljuk a Library of Congress sémát vagy a SENSUS taxonómiát vagy a Cyc taxonómiát saját egyéni taxonómiánk alapjául). Még jellemzőbb lehet az a megoldás, hogy számos félig szabványosított taxonómia fog létezni különféle domain-ekhez (vö. a MeSH taxonómiát az orvostudományban). Azoknak a kereséseknek, melyek több taxonómiát vonnak össze, a különböző szóanyagok összehangolásához bizonyos információkra van szükségük. Kisebb taxonómiák egyesítésével létrehozott nagyobb taxonómiák közös helyen lesznek, és egy újfajta eszközkészletre lesz szükség ezen integráció végrehajtásához. Az egyesítés egyszerűbb, az eredmény pedig megbízhatóbb lesz, ha egy formális szemantika eltér minden egyesített taxonómiától.

Konklúziók

A leírás-alapú technológia saját szervezésű webindexek fejlesztésére kínál stratégiát. Ezek az indexek nélkülözhetetlenek az óriási méretű taxonómiák felépítéséhez. A visszakeresés elérhető pontosságának mértéke a leírások használatával a leírónyelvtől és a leírási szemantika formalitásának fokától függ. Ez a terület számos technológiát kínál, melyek segítenek a webes lekérdezőeszközök egy új generációjának fejlesztésében.