|
|
Nova Teĥnologio kaj Komputila Lingvistiko |
|
|
IEI evoluigas kaj disponigas komputil-lingvistikan scion kaj softvaron, ĉu en la kadro de Esperanta lingvo-instruo, ĉu por apogi kaj faciligi Esperant-lingvan aktivecon ĝenerale. Pro tio, ni ŝatas interŝanĝi konon kaj bonvenigas kontaktojn kun alilokajn komputil-lingvistoj, perrete, dum kongresoj, aŭ ĉeokaze en nia instituto en Hago.
ESPSOF ambicia tekstreviziiloEn plurjara projekto, konstruado de tekstanalizilo ESPSOF progresas. Beta-versio de tiu programaro por revizio de Esperantaj tekstoj (gazetartikoloj, eseoj, raportoj ktp, ĉu skanitaj, ĉu entajpitaj) estas senpage disponebla per la retejo www.espsof.com. Kontraŭe al aliaj literumiloj aŭ lingvohelpiloj en Esperantio, la ESPSOF programaro celas specife al uzantoj de Vindozo kaj MS Office: la tekstfonto estu liverita en MS WORD, la rezultlistoj (alfabete ordigitaj lingvaj vortoj, propraj nomoj, eraroj, kunmetaĵ-analizoj k.a.) aperas en MS EXCEL, per kiu ankaŭ la interna vortaro funkcias. Literum-kontrolo estas nur unu funkcio de ESPSOF, kaj ĝi plenumas tiun kontrolon ne dum sed post la entajpado de iu teksto, kies longeco povas varii inter nur du-tri aŭ eĉ dek miloj da frazoj. Pro tio, reviziilo estas pli bona karakterizo ol literumilo . Revizii ja estas fakte tio, kion ankaŭ homa provleganto kutime faras. Li aŭ ŝi tamen ofte pretervidas certajn erarojn (ekz. manko de supersigno), kiujn komputilo malkovras. Inverse, kiam tajperaro kaŭzis hazarde ekzistantan - sed kuntekste sensencan - vorton, estas ankoraŭ la homo kiu superas maŝinon. ESPSOF oferas riĉan sortimenton de opcioj. Ekzemple ĉe tekstoj speciale por komencantoj, la verkisto povas elekti tekstkontrolon surbaze de la BRO-leksemaro: ĉirkaŭ 2200 radikoj, kaj ĉiuj kunmetaĵoj fareblaj per ili. Por progresinta legantaro, estas tri pluaj niveloj de vortar-grandeco:
El vidpunkto de edukado, ESPSOF oferas pli da eblecoj por instruistoj. Elekti la opcion bluigi ne-envortarajn kunmetaĵojn (kaj foriginte 12 en la supra enigfenestro-fragmento) samtempe klarigos kiuj vortoj estas envortaraj (la ne-bluigitaj). Kio ankaŭ helpos al lernantoj, egale ĉu kunmetaĵo estas envortara aŭ ne, estas la ebleco aperigi de ĝian morfemstrukturon, precipe ĉe longaj vortoj. Ĉi tiuj opcioj
ekzemple rezultigas jenan reaperon de fontoteksto:
Kvankam la programarsistemo ESPSOF estas jam rete elŝutebla kaj uzebla ekde meze 2008, novaj versioj aperas kaj aperos regule. Bona tekstkontrolo estas komplika afero, kaj multe dependas de la speco de teksto kaj specifaj kutimoj aŭ deziroj de la uzanto. Se oni regule uzas fremdlingvajn vortojn kaj citaĵojn, kiun tipon de citiloj aŭ krampoj oni uzas por ili (ekzistas ja 13 diferencaj tipoj)? Aŭ ĉu oni kursivigas la ne-kontrolendaĵojn? Kaj ĉu tutmajusklaj vortoj en iu teksto ĉiuj estas akronimoj? Neglekto de ĉio ĉi povas kaŭzi amason de nenecese ruĝigitaj vortoj, kio faras la verajn erarojn malpli okulfrapaj. Pro tio, kontrolo per ESPSOF estas adaptebla:
Inter la aliaj opcioj, kelkaj de kiuj estas ankoraŭ efektivigendaj, unu permesas devion de strikta regulo (PMEG kaj PAG) pri nombroj; tiun escepton inspiris praktiko en ĉiumonata traduko de prominenta gazeto Le Monde Diplomatique (http://eo.mondediplo.com)
Cetere, la tekstkontrolilo akiras ankaŭ iun gramatikan scipovon. Unuflanke tiu kontribuas al ebla utileco de ESPSOF ĉe instruado, ĉar ĝi povas akcenti bazajn gramatikajn rilatojn per koloroj:
Aliflanke, ĝi havas pli profundan celon: listigo de ĉiuj simplaj sintaksaj rilatoj el multeco da tekstoj tra pluraj jaroj helpos konstruadi semantikan datumbazon, kondiĉe ke plejeble multe da ESPSOF-uzantoj tiucele ensendos iliajn rezultlistojn libervole. Rekompence, ili estonte profitos de tekstkontrolilo ekipita per semantika kono. Jen malgranda rezultlist-fragmento apartenanta al la ĵus montrita fontotekst-ekzemplo (de gramatika subjekto aŭ objekto ĉiam nur la ĉefvorto estas listigita):
Por pluaj informoj pri la ESPSOF-programaro, kiu krome inkludas konkordancilon, iru al la retejo www.espsof.com. Tie oni trovas ankaŭ instrukciojn por instali la sistemon post elŝutado (atentu ke Vindozo kaj MS Office nepras).
Lingvokomputikisto Toon Witkam
Afikskorpuso praktika ponto al semantiko Evoluigo de semantika tavolo en komputil-lingvistikaj sistemoj jam longe estas granda defio. Kvankam nun interkonsento montriĝas pri tio, ke la scipovo en tia tavolo prefere estu bazita sur granda tekstkorpuso, kaj kvankam intertempe ekzistas kelkaj ampleksaj kaj valoraj tekstkorpusoj en Esperantio, korpuslarĝa konkordanco de afiksoj ankoraŭ mankis. Helpe de ESPSOF nun disponeblas unua versio de afikskorpuso, komputile alirebla por esploristoj kaj sistem-konstruantoj. Ĝi baziĝas sur fontotekstkorpuso de 1.3 miliono da vortoj, kaj pritraktas 11 afiksojn, precipe tiuj, kiuj rilatas al homaj estaĵoj: -ul-, -an-, -ist-, -estr-, -ĉef-, -in-, -ge-, -bo-, -eks-, -id-, -aĉ-. Entute 27212 tekstvortoj (ĉirkaŭ 10.000 diferencaj vortformoj) kun tiuj afiksoj estas trovitaj en la fontotekstkorpuso. Plivastigo al versio kun ceteraj afiksoj kaj pli granda korpuso sekvos baldaŭ. Jen du tabelo-fragmentoj. La unua resumas afiks-nombrojn en la unuopaj komponantoj de la fontotekstkorpuso. La dua estas fragmento de la konkordanca afikskorpuso mem.
La afikskorpuso fakte konsistas el ESPSOF-rezultlistoj, iom modifitaj. Ankaŭ ĉi tie, la uzo de Excel kiel datumbazo ebligas uzantoj diversecon de reordigoj, ekzemple laŭ morfemo antaŭ aŭ malantaŭ la listigita afikso, tra la diversaj tekstkorpus-komponantoj aŭ interne de certaj el ili, depende de la intereso de semantikisto pri specifa tekstspeco (antikva, moderna, afereca, beletra, ...). Por konsulti la afikskorpuson kaj eventuale elŝuti ĝin, iru al la interreta biblioteko SCRIBD (http://www.scribd.com), alklaku 'Explore', kaj sub la maldekstra listo 'Categories', ĉe 'Advanced Search', entajpu afikskorpuso en la eniga ĉelo 'Search titles'.
Rekaraktrigo post skanado Se tekst-skanado ne nur rezultigas diĝitajn fotojn de la paperpaĝoj, sed ankaŭ tekstdosieron (kun literkodoj), tio malfermas vojon al pluaj perkomputilaj eblecoj: konkordancoj, vortstatistiko, verkistrekono, parolsintezo, kaj - plej grava - korektado de la ne-eviteblaj skan-eraroj. Ciferecigi malnovajn librojn kaj revuojn IEI konsideras grava afero. Ne nur por pure konservi, sed ankaŭ por reeldoni kaj - per la reto - disponigi Esperantajn tekstojn. Hodiaŭ, tute aŭtomata korektado de skan-eraroj ankoraŭ ne eblas. Homa provlegantoj necesos ĝis niaj komputiloj posedos sufiĉe da semantika scipovo por rekoni ĉiujn erarojn. Tamen aldona softvaro kiel ESPSOF povas bone kompletigi la homan provleganton, faciligi ties taskon. En venonta versio de ESPSOF, la softvaro ne nur ruĝigos skan-erarojn, sed ankaŭ korektos certajn el ili.
Jen du gazetoj de historia valoro el la 1920-aj kaj 1930-aj jaroj de Sovetio, kiujn IEI planas ciferecigi kaj disponigi perrete en la venontaj jaroj (se aliloke iu persono aŭ institucio jam ciferecigas tiujn gazetojn aŭ planas fari tion, bonvolu sciigi nin). 19/05/2009 |