A World Wide Web Consortium Magyar Iroda logója

Tippek "nemzetközi-magyar" weboldalak készítéséhez

A Weben található információk a világ számos országában hozzáférhetőek. A különböző helyeken különböző operációs rendszereket, nyelveket, karakterkészleteket és karkaterkódolást használnak.

A karakterek megjelenítését tekintve a magyar nyelvben leggyakrabban az ő, Ő, ű, Ű betűk, de tipográfiai/helyesírási szabályaink is okozhatnak problémát.

Ezen az oldalon néhány tippet szeretnénk adni ahhoz, hogy hogyan készítsünk el helyesen megjelenő oldalakat.

Röviden a karakterkódolásról

A karakter egy absztrakt fogalom (és nem egy numerikus gépi kód, nem egy jel a papíron, vagy egy bit a kepernyőn megjelenítve). Bizonyos karaktereket összefogva egy karakterkészletet (character set) kapunk. Az angol nyelvterületeken az egyik legelterjedtebb az ASCII karakterkészlet. Később az eredeti ASCII karakterkészletből kezdetben egy-egy karakter lecserélésével, majd az eredeti ASCII karakterkészlet kibővítésével nyelvspecifikus karakterkészleteket alakítottak ki. Mivel sok nyelvnek nagyon hasonló karakterkészlete volt, érdemesnek tűnt néhány nyelv karakterkészletét összevonva egy kibővített karakterkészletet létrehozni. Így jöttek létre például a szabványos Latin karakterkészletek.

Minden karakterhez hozzárendelhető egy szám, amely a számítógépek memóriájában tárolható. A szöveges adatok byte-sorozatként továbbítódnak a neten, és a lemezeken is byte-sorozatként vannak tárolva. A kialakult karakterkódolással kapcsolatos szabványok meghatározzák mely karakterekkel foglalkoznak, ezeket pontos névvel látják el, egy-egy számot rendelnek azokhoz, és megadják a karakterek byte-sorozattá való leképezését is.

Karakterkódolás a weben

Egy egyszerű szövegfájlban semmilyen plusz adat nem áll rendelkezésünkre az adott fájl karakterkódolására vonatkozóan. Az XML, (X)HTML dokumentumoknál nagyon fontos, hogy adjuk meg ezek kódolását.

Ezt háromféleképpen is megtehetjük.

Jó gyakorlat mind az xml deklrációban, mind a meta elemben beállítani a karakterkészletet. Sajnos a szerver beállításától függően, a szerver "felülírhatja" a fájlban lévő kódolási utasítasokat. Azaz mégha a fájl utf-8-ban is van, a http header-je az iso-8859-1 utasitást tovabbítja a böngészőnek, és a böngészők egy része (például a Mozilla) ezt bizony komolyan veszi, mint legmagasabb prioritást. Ebben az esetben pedig a megjelenítes rossz lesz. Alapvetően fontos, hogy a szerver beállítása megegyezzen a karakterkódolással.

A Unicode és az ISO 10646 szabványban definiáltak egy Univerzális karakterkészletet (UCS), amely az összes többi karakterkészletnek az uniója. Nemcsak az európai, hanem kínai, japán, afrikai stb. nyelvek karaktereit is tartalmazza. Ennek egyik lehetséges kódolása az UTF-8. Emellett még az ISO-8859-2:1999 (Latin 2) és a windows-1250 (közép-európai) karkaterkészletek azok, amelyek tartalmazzák az ő, Ő, ű, Ű karaktereket. Ez utóbbiak karakterei 1 byte-on kerülnek ábrázolásra. A W3C HTML szabványa nem írja elő, hogy melyik karakterkészletet és milyen kódolást kell használni, de annyi megszorítást tesz, hogy annak leképezhetőnek kell lennie a Unicode karakterkészletére. A W3C ajánlja a Unicode használatát, mint a legáltalánosabb karakterkészletet. Azon belül a magyar nyelv számára az UTF-8 kódolás a legelőnyösebb, míg például az ázsiai nyelveknek az UTF-16 az előnyösebb. A HTML dokumentumokban a karakter referenciák segítségével további módon is megadhatunk karaktereket.

Nyelvi beállítások (X)HTML-ben

Nem igazán az oldalak megjelenése, mint inkább a további feldolgozás számára megadhatjuk, hogy milyen nyelven készítjük a dokumentumot. Ezt a lang (nyelv) és a dir (direction - irány) attribútumok segítségével tehetjük meg.

Az általános XML attribútum xml:lang és nem lang. Az "átmeneti" időszakban XHTML-ben jó gyakorlat mindkettőt beállítani.

Egy nyelvet megadhatunk

Ebben a sorrendben fognak érvényesülni a nyelvi beállítások. Azaz ha egy elem lang attribútuma be van állítva, akkor az fog érvényesülni, függetlenül a böngésző alapértelmezett beállításaitól.

A dir attribútummal a szöveg irányát módosíthatjuk, amely például az arab nyelveknél fontos.

További információk

Webmaster Utolsó módosítás: 2004.04.13.

Valid XHTML 1.0! Valid CSS!