OZ 2012/1

M T ORGANIZACIJA ZNANJA 2012, LETN. 17, ZV. 1 Odločili smo se, da bomo posebej klasificirali angleška in slovenska besedila in rezultate med seboj primerjali. Osnovno učno množico predstavljajo pari podatkov (besedilni opis – koda): • opis področja in pripadajoča klasifikacija področja, • opis podpodročja in pripadajoča klasifikacija področja. Osnovna učna množica podatkov je majhna, 253 slovenskih in 253 angleških opisov področij in podpodročij s pripadajočo klasifikacijo. Za razširitev učne množice smo uporabili ključne besede raziskovalcev, raziskovalnih skupin, projektov in programov (v nadaljevanju ključne besede entitet) iz baze SICRIS in klasifikacije ARRS. Posamezne ključne besede smo upoštevali za vsako klasifikacijo posebej, če je entiteta imela dodeljenih več področij (v povprečju 1,5 klasifikacije ARRS na entiteto). Učna množica je tako vsebovala dodatnih 21.000 slovenskih in 19.000 angleških zapisov. Za razvrščanje smo izbrali dve skupini besedil: • klasifikacija raziskovalne dejavnosti CERIF – za 363 slovenskih in 363 angleških zapisov z namenom transformirati klasifikacijo ARRS v klasifikacijo CERIF; • ključne besede bibliografskih enot raziskovalcev iz sistema COBISS, in sicer za 850.000 enot v slovenskem in 230.000 enot v angleškem jeziku z namenom klasificirati bibliografske enote. Priprava podatkov Podatke, namenjene tako učenju kot razvrščanju, smo pridobili iz baz SICRIS in COBISS ter jih združili. Uvozili smo jih s programom Oracle data miner v tabelo s petimi stolpci: • Koda področja klasifikacije ARRS (stolpec CODE, podatkovni tip VARCHAR2 dolžine 5). • Koda izvora podatkov ključnih besed (stolpec TYPE, podatkovni tip VARCHAR2 dolžine 3) za razdelitev podatkov glede na skupine področij in podpodročij v klasifikaciji ARRS; ključne besede raziskovalcev, projektov, programov, raziskovalnih skupin; področje klasifikacije CERIF, ključne besede v bibliografskih enotah. • Koda jezika za slovenska oz. angleška besedila (stolpec LANG, podatkovni tip VARCHAR2 dolžine 3). • Unikatna identifikacijska številka (ID); število, generirano kot funkcija kode jezika, kode izvora podatkov ter šifre entitete oz. kode klasifikacije (stolpec IDENT s primarnim ključem, podatkovni tip NUMBER dolžine 22). • Besedilo (stolpec KEYWS, podatkovni tip VARCHAR2 dolžine 4000) – v primeru klasifikacije vsebuje polje opis klasifikacije, v drugih primerih ključne besede. Posamezni stolpci tabele so v procesu podatkovnega rudarjenja poimenovani atributi. Cilj rudarjenja je preslikava ključnih besed iz bibliografskih enot v klasifikacijo ARRS za slovenski in angleški jezik posebej. Atribut "Koda področja v klasifikaciji ARRS" smo izbrali kot ciljni atribut ter atribut "Besedilo" kot atribut, po katerem se izvede klasifikacija. Izbira klasifikacijskega algoritma V orodju Oracle data miner edino metoda podpornih vektorjev (Support Vector Machine) podpira razvrščanje besedil [1]. V primerjavi z drugimi algoritmi daje nadpovprečne rezultate, tako pri razvrščanju [5, 8] kot pri hitrosti izvajanja [6]. Klasifikacijski algoritem vsako besedilo predstavi kot vektor besed, v katerem so elementi obteženi glede na pogostost pojavitve besede v besedilu in glede na lastnosti medsebojne odvisnosti [5]. Postopek se izvaja v procesu učenja in pri procesu razvrščanja. Zaradi hitrejšega izvajanja algoritma se v procesu učenja iz besedila izberejo najbolj reprezentativne besede, ki imajo pri razvrščanju največji pomen (angl. feature selection ) [9]. Oblikujejo se podporni vektorji glede na posamezno kategorijo (klasifikacijo), tako da je med njimi maksimalna razlika. V procesu razvrščanja besedila se za izdelan vektor besed preštejejo pojavitve besed, zbrane v podpornih vektorjih. Glede največje stopnje ujemanja s podpornim vektorjem se besedilo ustrezno razvrsti. Pri nastavitvah parametrov modela smo večinoma ohranili privzete nastavitve [2]: • 60 % podatkov je namenjenih izgradnji modela in 40 % testiranju. • Vključeno je aktivno učenje, ki nadzoruje rast modela in optimizira čas izgradnje modela. • Izbira odločitvene funkcije je avtomatska – sistem sam izbere med linearno in gaussovo funkcijo. • Maksimalno število besed v besedilu je 50. • Maksimalno število različnih besed za posamezno Andrej Korošec: KLASIFIKACIJA KLJUČNIH BESED IZ BIBLIOGRAFSKIH ENOT

RkJQdWJsaXNoZXIy MTAxMzI5