M
T
3
ORGANIZACIJA ZNANJA 2006, LETN. 11, ZV. 1–2
METAPODATKI
S pojmom metapodatki (angl.
metadata
) največkrat ozna-
čujemo podatke o podatkih ali informacije o informaci-
jah. To so strukturirani podatki ali informacije, s katerimi
opisujemo, pojasnjujemo in lociramo informacijske
vire in ki nam omogočajo enostavnejše iskanje, dostop,
uporabo in upravljanje s temi informacijskimi viri [1]. V
knjižničarstvu se izraz metapodatki uporablja tudi za vsa-
ko formalno shemo za opis različnih tipov knjižničnega
gradiva. Na primer bibliografski format MARC 21 skupaj
s katalogizacijskimi pravili AACR predstavlja formalno
shemo za katalogizacijo različnih tipov gradiva (mono-
grafskih publikacij, serijskih publikacij, neknjižnega
gradiva, kontinuiranih in integrirnih virov itn.). Sheme za
opis knjižničnega gradiva pa so obstajale še pred nastan-
kom bibliografskih formatov MARC (
Machine Readable
Cataloguing
) [2], ki so se začeli razvijati v šestdesetih le-
tih prejšnjega stoletja za potrebe avtomatizacije knjižnič-
nega poslovanja. Tako so se kataložni listki, ki vsebujejo
metapodatke za opis knjižničnega gradiva (bibliografski
podatki), lociranje knjižničnega gradiva (lokacijski poda-
tki) in iskanje knjižničnega gradiva (različne klasifikacije
in indeksi), uporabljali v knjižničnih katalogih že dolgo
pred začetkom avtomatizacije knjižnic.
Z avtomatizacijo knjižnic so formalne metapodatkovne
sheme dobile še pomembnejšo vlogo, saj so omogočile
nove funkcije v knjižnični praksi in podprle razvoj digi-
talnih knjižnic. Tako je v Kongresni knjižnici (
Library
of Congress
) leta 1966 nastal tudi bibliografski format
MARC za izmenjavo bibliografskih in njim sorodnih
podatkov v strojno čitljivi obliki med različnimi raču-
nalniškimi sistemi. Iz tega formata so se kasneje za po-
trebe drugih okolij in držav razvile različice formatov:
USMARC v ZDA, CAN/MARC v Kanadi (iz njiju je
leta 1999 nastal format MARC 21), UKMARC v Veliki
Britaniji, UNIMARC in njegove različice v evropskih
državah. Format UNIMARC, ki ga je IFLA (
International
Federation of Library Associations and Institutions
) prvič
objavila leta 1977, je glede na starejše formate MARC
vseboval s stališča metapodatkov, nekaj naprednejših zna-
čilnosti, kot je na primer mehanizem povezovanja preko
povezovalnih polj [3].
V času nastanka bibliografskega formata MARC je bil
magnetni trak glavni fizični nosilec podatkov v računal-
niških sistemih. Podatki so se na magnetni trak zapiso-
vali in z njega odčitavali sekvenčno [4]. Format MARC
je podpiral ta način shranjevanja podatkov z ustrezno
strukturo bibliografskih zapisov. Tako so podatkovni ele-
menti s kataložnih listkov preneseni v določene elemente
formata MARC – polja bibliografskih zapisov s trošte-
vilčnim identifikatorjem. Takšna struktura bibliografskih
zapisov je bila kasneje prevzeta v standard ISO 2709
(
Format for information exchange
) za izmenjavo poda-
tkov med različnimi računalniškimi sistemi [5]. Format
zapisov ISO 2709 pa ni primeren za obdelavo zapisov
znotraj računalniških sistemov, ker je zelo kompleksen,
za uporabnike nečitljiv in zahteva razvoj zapletenih pro-
gramov za obdelavo vsebine takšnih zapisov.
Razvoj računalništva in novih fizičnih medijev za shra-
njevanje podatkov je omogočil nesekvenčno shranjevanje
podatkov in njihovo obdelavo v računalniških sistemih.
Pojavili so se formalni označevalni jeziki, ki so omogoča-
li strukturiranje podatkov. Eden od prvih standardiziranih
označevalnih jezikov je bil GML (
Generalized Markup
Language
) [6], ki so ga konec šestdesetih let prejnjega
stoletja razvili v podjetju IBM. Na njegovi osnovi je leta
1986 mednarodna organizacija za standardizacijo ISO
(
International Organization for Standardization
) razvila
jezik SGML (
Standard Generalized Markup Language
)
[7, 8] pod oznako ISO 8879:1986. SGML se je hitro začel
uporabljati tudi kot format bibliografskih zapisov. Ker pa
se je SGML pokazal kot preobširen in prekompleksen za
implementacijo v informacijskih sistemih in svetovnem
spletu, je konzorcij W3C (
World Wide Web Consortium
)
na osnovi njega razvil nov označevalni jezik XML (
eX-
tensible Markup Language
) [9]. XML je enostaven,
fleksibilen, tekstovni format, ki je presegel svoj prvotni
namen, da pokrije široko področje založništva [10].
Na področju knjižničarstva se formirajo različni projekti
za uporabo formata XML v knjižničnih informacijskih
sistemih. O uporabi formata XML v digitalnih knjižnicah
je na svetovnem spletu formiran tudi forum XML4Lib
[11]. Največ projektov se nanaša na definiranje ustreznih
specifikacij formata XML bibliografskih in njim sorodnih
zapisov za določene formate MARC. Nekateri od njih se
ukvarjajo tudi z razvojem programskih orodij za konver-
zijo obstoječih zapisov v format XML in obratno, ter za
prenos, validacijo in predstavitev teh zapisov. Prednosti
strukture zapisov MARC v sintaksi XML so: prenos in
konverzija zapisov v druge metaformate je enostavnejši
(npr. s transformacijami XSLT); z obdelavo zapisov v
formatu XML je lažje pridobiti analitične podatke in vali-
dirati zapise; zapisi XML so čitljivejši za uporabnika kot
zapisi ISO 2709; programe za obdelavo teh zapisov je
dosti lažje razvijati kot programe za obdelavo zapisov
ISO 2709, ker je za delo z dokumenti XML razvitih že
veliko orodij v različnih programskih jezikih in za različ-
ne platforme. MARC Standards Office v okviru Kongres-
ne knjižnice, ki skrbi za razvoj formata MARC 21, inten-
zivno razvija različne formate XML - zapisov po formatu
MARC 21 in ustrezna orodja za njihovo obdelavo, ki jih
uporabniki lahko uporabijo v svojih sistemih kot odprto
kodo [12].