OZ 2006/1-2

ORGANIZACIJA ZNANJA 2006, LETN. 11, ZV. 1–2

METAPODATKI

S pojmom metapodatki (angl.

metadata

) največkrat ozna-

čujemo podatke o podatkih ali informacije o informaci-

jah. To so strukturirani podatki ali informacije, s katerimi

opisujemo, pojasnjujemo in lociramo informacijske

vire in ki nam omogočajo enostavnejše iskanje, dostop,

uporabo in upravljanje s temi informacijskimi viri [1]. V

knjižničarstvu se izraz metapodatki uporablja tudi za vsa-

ko formalno shemo za opis različnih tipov knjižničnega

gradiva. Na primer bibliografski format MARC 21 skupaj

s katalogizacijskimi pravili AACR predstavlja formalno

shemo za katalogizacijo različnih tipov gradiva (mono-

grafskih publikacij, serijskih publikacij, neknjižnega

gradiva, kontinuiranih in integrirnih virov itn.). Sheme za

opis knjižničnega gradiva pa so obstajale še pred nastan-

kom bibliografskih formatov MARC (

Machine Readable

Cataloguing

) [2], ki so se začeli razvijati v šestdesetih le-

tih prejšnjega stoletja za potrebe avtomatizacije knjižnič-

nega poslovanja. Tako so se kataložni listki, ki vsebujejo

metapodatke za opis knjižničnega gradiva (bibliografski

podatki), lociranje knjižničnega gradiva (lokacijski poda-

tki) in iskanje knjižničnega gradiva (različne klasifikacije

in indeksi), uporabljali v knjižničnih katalogih že dolgo

pred začetkom avtomatizacije knjižnic.

Z avtomatizacijo knjižnic so formalne metapodatkovne

sheme dobile še pomembnejšo vlogo, saj so omogočile

nove funkcije v knjižnični praksi in podprle razvoj digi-

talnih knjižnic. Tako je v Kongresni knjižnici (

Library

of Congress

) leta 1966 nastal tudi bibliografski format

MARC za izmenjavo bibliografskih in njim sorodnih

podatkov v strojno čitljivi obliki med različnimi raču-

nalniškimi sistemi. Iz tega formata so se kasneje za po-

trebe drugih okolij in držav razvile različice formatov:

USMARC v ZDA, CAN/MARC v Kanadi (iz njiju je

leta 1999 nastal format MARC 21), UKMARC v Veliki

Britaniji, UNIMARC in njegove različice v evropskih

državah. Format UNIMARC, ki ga je IFLA (

International

Federation of Library Associations and Institutions

) prvič

objavila leta 1977, je glede na starejše formate MARC

vseboval s stališča metapodatkov, nekaj naprednejših zna-

čilnosti, kot je na primer mehanizem povezovanja preko

povezovalnih polj [3].

V času nastanka bibliografskega formata MARC je bil

magnetni trak glavni fizični nosilec podatkov v računal-

niških sistemih. Podatki so se na magnetni trak zapiso-

vali in z njega odčitavali sekvenčno [4]. Format MARC

je podpiral ta način shranjevanja podatkov z ustrezno

strukturo bibliografskih zapisov. Tako so podatkovni ele-

menti s kataložnih listkov preneseni v določene elemente

formata MARC – polja bibliografskih zapisov s trošte-

vilčnim identifikatorjem. Takšna struktura bibliografskih

zapisov je bila kasneje prevzeta v standard ISO 2709

(

Format for information exchange

) za izmenjavo poda-

tkov med različnimi računalniškimi sistemi [5]. Format

zapisov ISO 2709 pa ni primeren za obdelavo zapisov

znotraj računalniških sistemov, ker je zelo kompleksen,

za uporabnike nečitljiv in zahteva razvoj zapletenih pro-

gramov za obdelavo vsebine takšnih zapisov.

Razvoj računalništva in novih fizičnih medijev za shra-

njevanje podatkov je omogočil nesekvenčno shranjevanje

podatkov in njihovo obdelavo v računalniških sistemih.

Pojavili so se formalni označevalni jeziki, ki so omogoča-

li strukturiranje podatkov. Eden od prvih standardiziranih

označevalnih jezikov je bil GML (

Generalized Markup

Language

) [6], ki so ga konec šestdesetih let prejnjega

stoletja razvili v podjetju IBM. Na njegovi osnovi je leta

1986 mednarodna organizacija za standardizacijo ISO

(

International Organization for Standardization

) razvila

jezik SGML (

Standard Generalized Markup Language

)

[7, 8] pod oznako ISO 8879:1986. SGML se je hitro začel

uporabljati tudi kot format bibliografskih zapisov. Ker pa

se je SGML pokazal kot preobširen in prekompleksen za

implementacijo v informacijskih sistemih in svetovnem

spletu, je konzorcij W3C (

World Wide Web Consortium

)

na osnovi njega razvil nov označevalni jezik XML (

eX-

tensible Markup Language

) [9]. XML je enostaven,

fleksibilen, tekstovni format, ki je presegel svoj prvotni

namen, da pokrije široko področje založništva [10].

Na področju knjižničarstva se formirajo različni projekti

za uporabo formata XML v knjižničnih informacijskih

sistemih. O uporabi formata XML v digitalnih knjižnicah

je na svetovnem spletu formiran tudi forum XML4Lib

[11]. Največ projektov se nanaša na definiranje ustreznih

specifikacij formata XML bibliografskih in njim sorodnih

zapisov za določene formate MARC. Nekateri od njih se

ukvarjajo tudi z razvojem programskih orodij za konver-

zijo obstoječih zapisov v format XML in obratno, ter za

prenos, validacijo in predstavitev teh zapisov. Prednosti

strukture zapisov MARC v sintaksi XML so: prenos in

konverzija zapisov v druge metaformate je enostavnejši

(npr. s transformacijami XSLT); z obdelavo zapisov v

formatu XML je lažje pridobiti analitične podatke in vali-

dirati zapise; zapisi XML so čitljivejši za uporabnika kot

zapisi ISO 2709; programe za obdelavo teh zapisov je

dosti lažje razvijati kot programe za obdelavo zapisov

ISO 2709, ker je za delo z dokumenti XML razvitih že

veliko orodij v različnih programskih jezikih in za različ-

ne platforme. MARC Standards Office v okviru Kongres-

ne knjižnice, ki skrbi za razvoj formata MARC 21, inten-

zivno razvija različne formate XML - zapisov po formatu

MARC 21 in ustrezna orodja za njihovo obdelavo, ki jih

uporabniki lahko uporabijo v svojih sistemih kot odprto

kodo [12].