Inštitut za slovenski jezik Frana Ramovša
ZRC SAZU |
Nova beseda je besedilni korpus, namenjen predvsem za
slovaropisne potrebe Inštituta, obenem pa tudi
vsem drugim, ki se ukvarjajo z izobraževanjem in
raziskovanjem slovenskega jezika. Je ena izmed postaj na poti do
Slovenskega nacionalnega korpusa, idealne zbirke elektronskih besedil,
namenjene najširši raziskovalni in izobraževalni uporabi, ki bo med
drugim obsegala vsa novejša besedila, zapisana v slovenskem jeziku ter
vsa starejša, ki so se ohranila. Tehnično bi bil tak projekt že danes
izvedljiv - glej npr. prispevek
The feasibility of a complete text corpus.
Korpus se je začel s spletno postavitvijo elektronske zbirke leposlovnih
besedil v letu 1999, skupaj 3 milijone besed, zbranih in obdelanih v okviru doktorske disertacije
Zgornja meja entropije pri
leposlovnih besedilih v slovenskem jeziku iz teorije informacij.
Omejitev naloge na 200 strani je zahtevala spletno predstavitev gradiva,
in da bi ga bilo mogoče uporabiti za jezikoslovne raziskave ter v
slovaropisne namene na Inštitutu za slovenski jezik, na katerem je bil pripravljen večji del
gradiva, je bilo seveda potrebno dodati še konkordančni iskalnik.
Spomladi 2000 je bilo korpusu dodano še gradivo časopisa DELO, 1998-2000,
kar je obseg povečalo na 28 milijonov besed; uporabljen je bil tudi
izboljšan iskalnik, ki je omogočil sprejemljive odzivne čase tudi pri
večjem korpusu. V tem času so bile opravljene tudi prve korekture
gradiva, ki so omogočile iskanje tudi po slovarju besednih oblik.
Brez korektur se ob vsaki pogostejši besedi in njenih izpeljankah
pojavi cel grozd napak, ki zelo zmanjšajo uporabnost gradiva
(glej npr. razdelek
3.3 Vprašanje napak iz že omenjene disertacije).
V maju 2000 je bil korpus prenesen s strežnika Filozofske fakultete
Univerze v Ljubljani na strežnik Inštituta za slovenski jezik Frana
Ramovša ZRC SAZU, dobil pa je tudi novo, domače ime - namesto CORTES
(akronim iz angl. CORpus of TExts in Slovenian) se od takrat imenuje Nova
beseda. Poleti 2000 se je obseg korpusa z dodatki novih besedil,
predvsem časopisa DELO, povečal na 48 milijonov besed.
V naslednjih letih sta se obseg in zvrstnost korpusa postopoma povečevala,
konec pomladi 2005 na 162 milijonov besed iz 4,158 besedil. Korpus je
sestavljen iz šestih glavnih delov: besedil 2,310 izvodov časopisa DELO, 1998 - 2005
(D, 120 mil. besed), govorjena besedila Zapisov 711 sej Državnega zbora Republike Slovenije 1996 -
2004 (G, 20 mil. besed), 778 leposlovnih del v našem jeziku, vključena so
tudi zbrana dela Draga Jančarja, Cirila Kosmača in Ivana Cankarja (A, 12 mil. besed),
78 izvodov računalniške revije Monitor 1999-2004 in revije za zdravo
življenje Viva (P, 6 mil. besed), 251 polleposlovnih besedil (B, 2 mil.
besed) ter 26 znanstvenih oz. tehničnih monografij (C, tudi 2 mil.
besed). Vsa besedila so v razmeroma dobrem stanju, očiščena so bila
pretežnega dela tipografskih napak in napak, nastalih pri prenašanju in
zlaganju besedil. Velika večina besedil je iz zadnjih desetih let.
Vsa besedila v korpusu so avtorsko zaščitena in je njihova uporaba prek korpusnega konkordančnika, iskalnika besed in besednih zvez dovoljena le za raziskovalne in izobraževalne namene.
Pri pripravi besedil in njihovi postavitvi na svetovni splet sta bila uporabljena domači urejevalnik besedil EVA in spletni iskalnik, ki je izšel iz njega, NEVA.