Ziarul de Duminică

PROIECTE/ De la Cartea Cărţilor la un Corpus lingvistic deschis

PROIECTE/ De la Cartea Cărţilor la un Corpus lingvistic deschis
05.05.2010, 16:16 93
Dacă memoria umană este ultimul suport accesibilcărţilor in distopia 451 Fahrenheit, iată că erainformaticii ne ingăduie să visăm la un corpus al tuturor textelorreprezentative ale culturii noastre, după modelulNew York Times CorpussauReuters Corpus.
Pe 6-7 mai a.c., la MuzeulNaţional al Literaturii Române (M.N.L.R.), lingvişti şiinformaticieni de vârf, recunoscuţi ca fiind printre cei mai bunidin lume, dar şi studenţi şi masteranzi, se intâlnesc in cadrulconferinţei internaţionale "Resurse lingvistice şi instrumente deprelucrare a limbii române" (http://consilr.info.uaic.ro/consilr2010/index.html).
Organizatorii tradiţionali aiacestui eveniment, ajuns la a şasea ediţie, sunt: Universitatea"Al.I. Cuza" din Iaşi, Academia Română prin Institutul de Cercetăriin Inteligenţă Artificială şi Institutul de Informatică TeoreticăIaşi, cărora li s-au alăturat acum, in cel de-al zecelea an alproiectului, M.N.L.R. Participarea la lucrări se face şi in regimde videoconferinţă.
Tematica abordată includeurmătoarele subiecte: realizarea de resurse lingvistice româneşti,textuale ori vorbite, in forma originară ori adnotată; crearea decorpusuri româneşti reprezentative; realizarea de colecţiilexicografice româneşti in format electronic; tehnologiilingvistice aplicate limbii române şi/sau altor limbi (dar cuaplicabilitate pentru limba română); aplicaţii in care au fostutilizate tehnologii lingvistice pentru limba română; realizări delingvistică teoretică cu aplicaţii in tehnologia limbii române;crearea, completarea, adnotarea şi utilizarea resurselor şi atezaurelor multilingve, in care una dintre limbi este limba română;alinierea resurselor multilingve de natură diversă, cu accent peresursele limbii române; aplicaţii ale resurselor multilingvealiniate in traducerea automată, extragerea de informaţii,dezambiguizarea sensurilor, web-ul semantic etc.; proiecte decercetare ce implică dezvoltarea de resurse şi instrumente dedicatelimbii române. Una dintre realizările ultimilor ani esteprelucrarea texteleor româneşti vechi de inestimabilă valoare, cumar fi Biblia de la 1688.
La momentul actual, inlingvistica computaţională a limbii române, in cercetare, dar şi incompanii, se lucrează izolat. Resursele folosite pentru dezvoltareaacestor tehnologii nu sunt acoperite din punctul de vedere alcopyright-ului. Textele fiind restricţionate cu drepturi de autor,implică limitarea distribuirii tehnologiilor care au fostdezvoltate pe baza lor. Astfel, programele dezvoltate pe textele cudrepturi de autor nu pot fi liber distribuite decât dacă se obţindrepturile de autor pentru libera circulaţie.
De menţionat că dezvoltareaacestor tehnologii necesită mult timp şi muncă pentru a fi adusă laun nivel de pefrormanţă acceptabilă. Prin limitarea distribuiriiacestor tehnologii, lucrul colaborativ este limitat, ducând la oincetinire a dezvoltării pe plan global. In România, cercetarea inNLP (Natural Language Processing) este foarte avansată, fiindprintre primele in lume. Din cauza caracteristicii aplicaţiilorcare sunt dezvoltate pe texte restricţionate cu drepturi de autor,din păcate ele nu pot fi liber distribuite.

Prin deschiderea acestor resurse,colaborarea dintre organizaţiile din domeniu va creşte considerabilşi va duce la atragerea noilor specialişti şi pasionaţi delingvistică computaţională, deschiderea sau libera distribuire aprogramelor de calculator, cât şi a ultimelor descoperiri indomeniu. La momentul actual, pentru limba română nu suntinregistrate asemenea lucrări (corpus lingvistic deschis),iar necesitatea lor este resimţită in mare măsură de mediulacademic, dar şi de specialiştii sau practicienii din domeniu.

Pentru alte știri, analize, articole și informații din business în timp real urmărește Ziarul Financiar pe WhatsApp Channels

AFACERI DE LA ZERO