nedelja, 6. januar 2013

Še o samostalnikih, pridevnikih, glagolih v bibliotekarskem besednem zakladu

Tokrat nadaljujem vpogled v besedni zaklad bibliotekarske stroke in rabe besed, kot se kaže v 625 strokovnih in znanstvenih besedilih okrog 353 avtorjev, slovenskih praktikov in teoretikov bibliotekarstva, objavljenih pretežno v zadnjih dveh desetletjih. O tem, kako je nastal iz Korpusa bibliotekarstva seznam uporabljenih besed, sem pisal že zadnjič (Kako bogat je bibliotekarski besedni zaklad?), tokrat nekaj več o njihovi pogostosti in besednih vrstah. Kakšen jezik uporabljamo v bibliotekarstvu, kolikšen besedni zaklad uporabljamo in katere so najpogostejše besede?

V navedenih 625 besedilih s področja bibliotekarstva je bilo uporabljeno skupaj okrog 3.660.900 besed, ker pa se mnoge ponavljajo in pojavljajo v različnih oblikah (različni skloni, spol, število ipd.), je šele z lematizacijo, to je računalniškim postopkom spreminjanja vseh besed v lemo, to je osnovno obliko besede (prvi sklon ednine, nedoločnik ipd.), nastal pravi nabor vseh različnih besed, ki so jih avtorji uporabili v obravnavanih besedilih – takih besed je 28.808. Njihova pogostost pojavljanja v besedilih je seveda zelo različna, v skladu z vsemi pričakovanji (npr. raziskava in doktorska disertacija dr. Primoža Jakopina) vodi pomožni glagol biti s 172.031 pojavitvami, v vodilni skupini pa mu potem sledijo predvsem funkcijske besede, to je tiste, ki bi v sistemih za poizvedovanje sodile med blokirane besede in za osnovno sporočilnost, predvsem pa za stroko niso pomembne.


Krivulja pogostosti pojavljanja besed v bibliotekarskih
besedilih se povsem sklada s predpostavkami
Zipfovega zakona - 50 najpogostejših besed
Pogostost pojavljanja posameznih besed se od najpogostejše (172.031) zelo strmo zmanjšuje in pri 35. besedi že pade pod deset tisoč, pogostost besed nad 500. mestom pa že pod tisoč; 21.215 besed se pojavlja več kot enkrat, kar 7.590 besed pa samo enkrat, rekli bi jim enkratnice. Takšna razporeditev frekvenc se povsem ujema s predpostavkami Zipfovega zakona, ki sem ga pri analizi Bibliotekarskega terminološkega slovarja že uporabljal. Temelj Zipfovega zakona je trditev, da je majhno število besed uporabljeno zelo pogosto, mnogo drugih ali skoraj vse ostale pa zelo poredko.

Med prvo petdeseterico najpogostejših besed se je pririnilo tudi 13 bibliotekarskih terminov, nobeno presenečenje ni, da so to najprej knjižnica (6. najpogostejša beseda z 48.214 pojavitvami), gradivo (24. mesto s 14.348 pojavitvami), knjiga (28. mesto z 11.876 pojavitvami) in podatek (34. najpogostejša beseda z 10.046 pojavitvami).

Spletne aplikacije omogočajo poleg že omenjene lematizacije tudi oblikoslovno označevanje z določanjem besednih vrst (npr. Določevanje osnovnih besednih oblik (lem) in besednih vrst ali oblikoslovnih oznak Inštituta za slovenski jezik Frana Ramovša ZRC SAZU ali Amebisov Označevalnik), zato je bilo mogoče pridobiti nekaj podatkov o tem tudi za naše besede. Med 28.808 obravnavanimi besedami je

      13.128samostalnikov
        6.653pridevnikov
        6.460glagolov
        3.877prislovov

predlogov, števnikov, veznikov, zaimkov in členkov pa seveda mnogo manj (sto ali manj). Poudariti moram, da so to zgolj natančnejše ocene in ne povsem točne vrednosti, saj besednovrstni označevalnik v nekaterih primerih dandanes (še) ne more razločevati med nekaterimi enako pisanimi besedami, ki lahko glede na pomen pripadajo različnim besednim vrstam (npr. dela: glagol delati, samostalnika delo ali del; uporabnikov je lahko samostalnik ali pridevnik ipd.). Med 147.761 besedami, ki so šle v postopek lematizacije in besednovrstnega označevanja, je 13.074 takih, ki jim je označevalnik pridal oznako za dve ali celo več besednih vrst, ali pa v njih prepoznal možnost dveh besed z enako obliko (npr.: zbrana dela Ivana Cankarja / ne najdem drugega dela enciklopedije). Take besede sem v spodnjih grafikonih označil z zvezdico (npr. najpogostejši pridevnik lahek je tja zašel najverjetneje po zaslugi prislova lahko!).

V treh grafičnih prikazih sem ponazoril razmerje med najpogostejšimi samostalniki, pridevniki in glagoli. Glagola biti in dati po svoji pogostosti tako močno odstopata celo od svojih najbližjih "zasledovalcev", da povsem pokvarita vtis krivulje in razmerij, zato sem ju samo označil, vrednost pa omejil na širino grafikona.


Najpogostejših 30 samostalnikov

Najpogostejših 30 glagolov

Najpogostejših 30 pridevnikov

1 komentar:

  1. Medium is a place to read articles on the Internet. Medium is a blogging platform, like Wordpress or Blogger. Medium is the new project from the guys who brought you Twitter. Medium is chaotically, arrhythmically produced by a combination of top-notch editors, paid writers, PR flacks, startup bros, and hacks. Spacebar test

    OdgovoriIzbriši

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.