Semantika-2

Projektas Nr. 02.3.1-CPVA-V-527-01-0002 („Semantika-2“)

Vytauto Didžiojo universitetas įgyvendino projektą Nr. 02.3.1-CPVA-V-527-01-0002 („Semantika-2“), kurio metu buvo sukurta visa eilė elektroninių paslaugų ir IT sprendimų, leidžiančių automatizuoti skaitmenizuotus raštvedybos ir elektroninių tekstų analizės procesus, tokiu būdu padedančių didinti darbo efektyvumą, taupyti darbo laiko ir darbo mokos fondą. Projektą vykdė tarpdiscipininė komanda, susidedanti iš humanitarinių mokslų, informatikos mokslų ir teisės fakultetų mokslininkų ir tyrėjų. Projektas buvo vykdomas pagal vieną iš valstybės planavimo programų – “Lietuvių kalba informacinėms technologijoms”. Valstybės poreikių pagrindimas grindžiamas Valstybinės lietuvių komisijos dokumentu “LIETUVIŲ KALBOS PLĖTROS INFORMACINĖSE TECHNOLOGIJOSE 2014–2020 M. GAIRĖS” . Lietuvių kalba yra nekomercinė, rinka maža, todėl nepatraukli iš komercinio taško. Tačiau nei vienos paslaugos, susijusios su žmogaus kalba, neįmanoma tinkamai ir efektyviai skaitmenizuoti, be kokybiškų kalbos technologijų sprendimų. Kaip nustato projektą finansavusių Europos struktūrinių fondų reikalavimai, visi projekte sukurti rezultatai yra nemokami ir atviri juos toliau vystyti.

Sukurti kalbos technologijų sprendimai visų pirma orientuoti į viešas paslaugas ir viešojo sektoriaus poreikius, todėl iš leksinio ir lingvistinio taško skirta bendrinei lietuvių kalbai, teisinei kalbai, medicininei kalbai, viešojo administravimo kalbai. Pagrindiniai projekte sukurti IT sprendimai yra šie: 1) laisvai formuluojamos lietuvių šnekos garso įrašų užrašymas tekstu (transkribavimas, angl. speech-to-text), 2) automatinis lietuviškų dokumentų santraukų sudarymas, 3) paieška elektroninių dokumentų archyve, 4) automatinis rašybos klaidų taisymas, ir kiti.

Projekte sukurtos paslaugos pasiekiamo projekto svetainėje www.semantika.lt, vartotojai jomis kasdien pasinaudoja vidutiniškai 800 kartų. Populiariausios paslaugos yra garso įrašų transkribavimas tekstu, automatinis rašybos klaidų taisymas ir tekstų morfologinė analizė. Projekte sukurtus IT sprendimus iš projekto svetainės galima parsisiųsti ir diegti savo serveriuose. Projekto rengimo metu atlikus potencialių vartotojų apklausą (Vyriausybės kanceliarija, Seimo kanceliarija, Nacionalinė teismų administracija, advokatų kontoros, ligoninės ir kiti), dažnai buvo paminėta, kad dėl konfidencialios informacijos apsaugos debesijos paslaugos yra nepriimtinos, reikia galimybės diegti institucijų vidinėse sistemose. Atsižvelgiant į tai, projekto sprendimai patalpinti pažangiuose Docker konteineriuose. Tai leidžia institucijoms leidžia projekto rezultatus patogiai diegti savo tarnybinėse stotyse.

Garso įrašų transkribavimą tekstu savo tarnybinėse stotyse jau įsidiegę: Seimo kanceliarija (Seimo posėdžių garso įrašų automatiniam transkribavimui tekstu), Lietuvos radijas ir televizija, Policijos departamentas, kiti. Lietuvos verslo konfederacija 2020 metais projekte sukurtą garso įrašų transkribavimo tekstu paslaugą įvertino prestižiniu apdovanojimu „Metų mokslo paslauga verslui 2020“.

Daugiau apie projektą

Projekto vykdytojai: dr. Paulius Astromskis ir doc. dr. Bernd Justin Jutte