Nova beseda - besedilni korpus pri ISJ ZRC SAZU

Inštitut za slovenski jezik Frana Ramovša ZRC SAZU
Laboratorij za korpus slovenskega jezika

nova beseda

O korpusu

Nova beseda je besedilni korpus, namenjen predvsem za slovaropisne potrebe Inštituta, obenem pa tudi vsem drugim, ki se ukvarjajo z izobraževanjem in raziskovanjem slovenskega jezika. Je ena izmed postaj na poti do Slovenskega nacionalnega korpusa, idealne zbirke elektronskih besedil, namenjene najširši raziskovalni in izobraževalni uporabi, ki bo med drugim obsegala vsa novejša besedila, zapisana v slovenskem jeziku ter vsa starejša, ki so se ohranila. Tehnično bi bil tak projekt že danes izvedljiv - glej npr. prispevek The feasibility of a complete text corpus. Korpus se je začel s spletno postavitvijo elektronske zbirke leposlovnih besedil v letu 1999, skupaj 3 milijone besed, zbranih in obdelanih v okviru doktorske disertacije Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku iz teorije informacij. Omejitev naloge na 200 strani je zahtevala spletno predstavitev gradiva, in da bi ga bilo mogoče uporabiti za jezikoslovne raziskave ter v slovaropisne namene na Inštitutu za slovenski jezik, na katerem je bil pripravljen večji del gradiva, je bilo seveda potrebno dodati še konkordančni iskalnik. Spomladi 2000 je bilo korpusu dodano še gradivo časopisa DELO, 1998-2000, kar je obseg povečalo na 28 milijonov besed; uporabljen je bil tudi izboljšan iskalnik, ki je omogočil sprejemljive odzivne čase tudi pri večjem korpusu. V tem času so bile opravljene tudi prve korekture gradiva, ki so omogočile iskanje tudi po slovarju besednih oblik. Brez korektur se ob vsaki pogostejši besedi in njenih izpeljankah pojavi cel grozd napak, ki zelo zmanjšajo uporabnost gradiva (glej npr. razdelek 3.3 Vprašanje napak iz že omenjene disertacije). V maju 2000 je bil korpus prenesen s strežnika Filozofske fakultete Univerze v Ljubljani na strežnik Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, dobil pa je tudi novo, domače ime - namesto CORTES (akronim iz angl. CORpus of TExts in Slovenian) se od takrat imenuje Nova beseda. Poleti 2000 se je obseg korpusa z dodatki novih besedil, predvsem časopisa DELO, povečal na 48 milijonov besed.

V naslednjih letih sta se obseg in zvrstnost korpusa postopoma povečevala, konec pomladi 2005 na 162 milijonov besed iz 4,158 besedil. Korpus je sestavljen iz šestih glavnih delov: besedil 2,310 izvodov časopisa DELO, 1998 - 2005 (D, 120 mil. besed), govorjena besedila Zapisov 711 sej Državnega zbora Republike Slovenije 1996 - 2004 (G, 20 mil. besed), 778 leposlovnih del v našem jeziku, vključena so tudi zbrana dela Draga Jančarja, Cirila Kosmača in Ivana Cankarja (A, 12 mil. besed), 78 izvodov računalniške revije Monitor 1999-2004 in revije za zdravo življenje Viva (P, 6 mil. besed), 251 polleposlovnih besedil (B, 2 mil. besed) ter 26 znanstvenih oz. tehničnih monografij (C, tudi 2 mil. besed). Vsa besedila so v razmeroma dobrem stanju, očiščena so bila pretežnega dela tipografskih napak in napak, nastalih pri prenašanju in zlaganju besedil. Velika večina besedil je iz zadnjih desetih let.

Sodelovali so

Nastanek korpusa so omogočili Časopisno založniško podjetje DELO, Državni zbor RS, g. Franko Luin, g. Drago Jančar, revija Monitor, revija Viva, Založba ZRC, Založba Didakta, Založba Mihelač, g. Samo Kuščer, ga. Aleksandra Rekar in mnogi drugi, ki so prispevali besedila; vsem najlepša hvala.

Pri pripravi osnovnega dela korpusa (A, 3 milijone besed) so sodelovali Varja Cvetko Orešnik, Aleksandra Bizjak, Lučka Uršič in Karmen Nemec z Inštituta za slovenski jezik Frana Ramovša ZRC SAZU (ISJ), Miran Hladnik, Igor Grdina, Matjaž Rebolj in Marina Zorman s Filozofske fakultete Univerze v Ljubljani ter Zlatka Rabzelj iz Knjižnice Jožeta Mazovca v Ljubljani, poleg njih pa še Franc Jakopin, Klaus Detlef Olof, Melita Ambrožič, Jure Dimec in Tomaž Erjavec.

Pri pripravi in čiščenju besedil ostalega dela korpusa so v posameznih obdobjih sodelovali Helena Dobrovoljc, Aleksandra Bizjak, Birte Loenneker in Lučka Uršič z ISJ, Cvetka Bajec, Andreja Musar in Primož Murn, poleg njih pa, predvsem pri digitalizaciji Zbranih del Ivana Cankarja, še več drugih študentov Filozofske fakultete.

Pogoji uporabe

Vsa besedila v korpusu so avtorsko zaščitena in je njihova uporaba prek korpusnega konkordančnika, iskalnika besed in besednih zvez dovoljena le za raziskovalne in izobraževalne namene.

Programska oprema

Pri pripravi besedil in njihovi postavitvi na svetovni splet sta bila uporabljena domači urejevalnik besedil EVA in spletni iskalnik, ki je izšel iz njega, NEVA.

Stran je bila postavljena 2. maja 2000 in nazadnje spremenjena 10. marca 2008.

Naslov: http://bos.zrc-sazu.si/a_about_si.html Pripombe Obiskov:

Nova beseda teče na Inštitutu za Slovenski jezik Frana Ramovša ZRC SAZU.