OZ 2012/1

ORGANIZACIJA ZNANJA 2012, LETN. 17, ZV. 1 Izbira podatkov Za namen razvrščanja ključnih besed bibliografskih enot raziskovalcev je treba na osnovi učnih podatkov (učne množice) izdelati ustrezni model. Uporabili smo različne vire, tako klasifikacije raziskovalnih dejavnosti, kot ključne besede iz baze SICRIS. Pri izdelavi modela smo za osnovno učno množico uporabili klasifikacijo ARRS, in sicer seznam parov, opis klasifikacije in petmestno številčno kodo iz klasifikacije. Klasifikacija, predstavljena na straneh ARRS, 1 vsebuje okoli 500 parov šifra klasifikacije – opis. Prva števka petmestne šifre določa vedo, druga in tretja področje ter četrta in peta podpodročje. Klasifikacija ARRS ima sedem ved: • naravoslovje (1), Klasifikacija klju^nih besed iz bibliografskih enot Izvle~ek Iz bibliografskih podatkov slovenskih raziskovalcev v sistemu COBISS ni preprosto določiti raziskovalnega področja, ki je obravnavano v bibliografskem viru. Podatek, iz katerega je mogoče razbrati raziskovalno področje, so ključne besede. Za cilj smo si postavili razvrščanje (klasificiranje) ključnih besed iz bibliografskih enot raziskovalcev. Za izhodišče smo izbrali klasifikacijo ARRS. Da bi dosegli najboljše rezultate, smo posebno pozornost namenili izbiri in pripravi besedil za strojno učenje. Za razvrščanje ključnih besed iz bibliografskih enot raziskovalcev smo uporabili orodje Oracle data miner za podatkovno rudarjenje. Izbrali smo metodo podpornih vektorjev, ki se uspešno uporablja pri klasifikaciji besedil. Klju~ne besede podatkovno rudarjenje, rudarjenje besedil, metoda podpornih vektorjev (SVM) Abstract A research field dealt with in a bibliographic source is not easily identifiable from the COBISS bibliographic data on Slovenian researchers. Keywords are the best way to identify research fields. Our aim was to sort (classify) keywords of researchers’ bibliographic units. To this end, we have chosen as the classifier the classification of the Slovenian Research Agency. A special attention has been devoted to the selection and preparation of texts intended for machine learning in order to achieve best results. To classify keywords from the researchers’ bibliographical units, we have used Oracle Data Miner and the support vector machines method which has already proven to be useful for the classification of texts. Keywords data mining, text mining, support vector machine method (SVM) • tehnika (2), • medicina (3), • biotehnika (4), • družboslovje (5), • humanistika (6), • interdisciplinarne raziskave (7). Veda Interdisciplinarne raziskave za klasifikacijo ni primerna, ker gre za prepletanje ved, zato smo se odločili, da jo izločimo. S tem hkrati dosežemo enolično preslikavo v klasifikacijo CERIF, 2 ki je najbolj razširjena klasifikacija raziskovalne dejavnosti v Evropi. Posamezna veda je razdeljena v povprečju na več kot deset področij. Področja so v povprečju razdeljena na dve podpodročji ali tri, vendar zelo neenakomerno. Določena področja sploh nimajo podpodročij. To je dodaten razlog za odločitev, da smo za klasifikator izbrali nivo področja. Andrej Korošec Institut informacijskih znanosti Maribor Kontaktni naslov: andrej.korosec @ izum.si doi:10.3359/oz1201006 1.04: STROKOVNI ČLANEK

RkJQdWJsaXNoZXIy MTAxMzI5