PROIECTE/ De la Cartea Cărţilor la un Corpus lingvistic deschis
Autor:
Eugenia Taralunga
05.05.2010
Dacă memoria umană este ultimul suport accesibil
cărţilor in distopia 451 Fahrenheit, iată că era
informaticii ne ingăduie să visăm la un corpus al tuturor textelor
reprezentative ale culturii noastre, după modelul New York Times Corpus sau Reuters Corpus.
Pe 6-7 mai a.
c., la Muzeul
Naţional al Literaturii Române (M.N.L.R.), lingvişti şi
informaticieni de vârf, recunoscuţi ca fiind printre cei mai buni
din lume, dar şi studenţi şi masteranzi, se intâlnesc in cadrul
conferinţei internaţionale "Resurse lingvistice şi instrumente de
prelucrare a limbii române" (http://consilr.info.uaic.ro/consilr2010/index.html).
Organizatorii tradiţionali ai
acestui eveniment, ajuns la a şasea ediţie, sunt: Universitatea
"Al.I. Cuza" din Iaşi, Academia Română prin Institutul de Cercetări
in Inteligenţă Artificială şi Institutul de Informatică Teoretică
Iaşi, cărora li s-au alăturat acum, in cel de-al zecelea an al
proiectului, M.N.L.R. Participarea la lucrări se face şi in regim
de videoconferinţă.
Tematica abordată include
următoarele subiecte: realizarea de resurse lingvistice româneşti,
textuale ori vorbite, in forma originară ori adnotată; crearea de
corpusuri româneşti reprezentative; realizarea de colecţii
lexicografice româneşti in format electronic; tehnologii
lingvistice aplicate limbii române şi/sau altor limbi (dar cu
aplicabilitate pentru limba română); aplicaţii in care au fost
utilizate tehnologii lingvistice pentru limba română; realizări de
lingvistică teoretică cu aplicaţii in tehnologia limbii române;
crearea, completarea, adnotarea şi utilizarea resurselor şi a
tezaurelor multilingve, in care una dintre limbi este limba română;
alinierea resurselor multilingve de natură diversă, cu accent pe
resursele limbii române; aplicaţii ale resurselor multilingve
aliniate in traducerea automată, extragerea de informaţii,
dezambiguizarea sensurilor, web-ul semantic etc.; proiecte de
cercetare ce implică dezvoltarea de resurse şi instrumente dedicate
limbii române. Una dintre realizările ultimilor ani este
prelucrarea texteleor româneşti vechi de inestimabilă valoare, cum
ar fi Biblia de la 1688.
La momentul actual, in
lingvistica computaţională a limbii române, in cercetare, dar şi in
companii, se lucrează izolat. Resursele folosite pentru dezvoltarea
acestor tehnologii nu sunt acoperite din punctul de vedere al
copyright-ului. Textele fiind restricţionate cu drepturi de autor,
implică limitarea distribuirii tehnologiilor care au fost
dezvoltate pe baza lor. Astfel, programele dezvoltate pe textele cu
drepturi de autor nu pot fi liber distribuite decât dacă se obţin
drepturile de autor pentru libera circulaţie.
De menţionat că dezvoltarea
acestor tehnologii necesită mult timp şi muncă pentru a fi adusă la
un nivel de pefrormanţă acceptabilă. Prin limitarea distribuirii
acestor tehnologii, lucrul colaborativ este limitat, ducând la o
incetinire a dezvoltării pe plan global. In România, cercetarea in
NLP (Natural Language Processing) este foarte avansată, fiind
printre primele in lume. Din cauza caracteristicii aplicaţiilor
care sunt dezvoltate pe texte restricţionate cu drepturi de autor,
din păcate ele nu pot fi liber distribuite.
Prin deschiderea acestor resurse, colaborarea dintre organizaţiile din domeniu va creşte considerabil şi va duce la atragerea noilor specialişti şi pasionaţi de lingvistică computaţională, deschiderea sau libera distribuire a programelor de calculator, cât şi a ultimelor descoperiri in domeniu. La momentul actual, pentru limba română nu sunt inregistrate asemenea lucrări (corpus lingvistic deschis), iar necesitatea lor este resimţită in mare măsură de mediul academic, dar şi de specialiştii sau practicienii din domeniu.