PROIECTE/ De la Cartea Cărţilor la un Corpus lingvistic deschis

Autor: Eugenia Taralunga 05.05.2010

Dacă memoria umană este ultimul suport accesibil cărţilor in distopia 451 Fahrenheit, iată că era informaticii ne ingăduie să visăm la un corpus al tuturor textelor reprezentative ale culturii noastre, după modelul New York Times Corpus sau Reuters Corpus.

Pe 6-7 mai a. c., la Muzeul Naţional al Literaturii Române (M.N.L.R.), lingvişti şi informaticieni de vârf, recunoscuţi ca fiind printre cei mai buni din lume, dar şi studenţi şi masteranzi, se intâlnesc in cadrul conferinţei internaţionale "Resurse lingvistice şi instrumente de prelucrare a limbii române" (http://consilr.info.uaic.ro/consilr2010/index.html).

Organizatorii tradiţionali ai acestui eveniment, ajuns la a şasea ediţie, sunt: Universitatea "Al.I. Cuza" din Iaşi, Academia Română prin Institutul de Cercetări in Inteligenţă Artificială şi Institutul de Informatică Teoretică Iaşi, cărora li s-au alăturat acum, in cel de-al zecelea an al proiectului, M.N.L.R. Participarea la lucrări se face şi in regim de videoconferinţă.

Tematica abordată include următoarele subiecte: realizarea de resurse lingvistice româneşti, textuale ori vorbite, in forma originară ori adnotată; crearea de corpusuri româneşti reprezentative; realizarea de colecţii lexicografice româneşti in format electronic; tehnologii lingvistice aplicate limbii române şi/sau altor limbi (dar cu aplicabilitate pentru limba română); aplicaţii in care au fost utilizate tehnologii lingvistice pentru limba română; realizări de lingvistică teoretică cu aplicaţii in tehnologia limbii române; crearea, completarea, adnotarea şi utilizarea resurselor şi a tezaurelor multilingve, in care una dintre limbi este limba română; alinierea resurselor multilingve de natură diversă, cu accent pe resursele limbii române; aplicaţii ale resurselor multilingve aliniate in traducerea automată, extragerea de informaţii, dezambiguizarea sensurilor, web-ul semantic etc.; proiecte de cercetare ce implică dezvoltarea de resurse şi instrumente dedicate limbii române. Una dintre realizările ultimilor ani este prelucrarea texteleor româneşti vechi de inestimabilă valoare, cum ar fi Biblia de la 1688.

La momentul actual, in lingvistica computaţională a limbii române, in cercetare, dar şi in companii, se lucrează izolat. Resursele folosite pentru dezvoltarea acestor tehnologii nu sunt acoperite din punctul de vedere al copyright-ului. Textele fiind restricţionate cu drepturi de autor, implică limitarea distribuirii tehnologiilor care au fost dezvoltate pe baza lor. Astfel, programele dezvoltate pe textele cu drepturi de autor nu pot fi liber distribuite decât dacă se obţin drepturile de autor pentru libera circulaţie.

De menţionat că dezvoltarea acestor tehnologii necesită mult timp şi muncă pentru a fi adusă la un nivel de pefrormanţă acceptabilă. Prin limitarea distribuirii acestor tehnologii, lucrul colaborativ este limitat, ducând la o incetinire a dezvoltării pe plan global. In România, cercetarea in NLP (Natural Language Processing) este foarte avansată, fiind printre primele in lume. Din cauza caracteristicii aplicaţiilor care sunt dezvoltate pe texte restricţionate cu drepturi de autor, din păcate ele nu pot fi liber distribuite.

Prin deschiderea acestor resurse, colaborarea dintre organizaţiile din domeniu va creşte considerabil şi va duce la atragerea noilor specialişti şi pasionaţi de lingvistică computaţională, deschiderea sau libera distribuire a programelor de calculator, cât şi a ultimelor descoperiri in domeniu. La momentul actual, pentru limba română nu sunt inregistrate asemenea lucrări (corpus lingvistic deschis), iar necesitatea lor este resimţită in mare măsură de mediul academic, dar şi de specialiştii sau practicienii din domeniu.