Nova Teĥnologio kaj Komputila Lingvistiko
IEI evoluigas kaj disponigas komputil-lingvistikan scion kaj softvaron, ĉu en la kadro de Esperanta lingvo-instruo, ĉu por apogi kaj faciligi Esperant-lingvan aktivecon ĝenerale.
Pro tio, ni ŝatas interŝanĝi konon kaj bonvenigas kontaktojn kun alilokaj komputil-lingvistoj, perrete, dum kongresoj (ekz. ĉe KAEST), aŭ ĉeokaze en nia instituto en Hago.
Krome, IEI pretas parte subvencii la evoluigon de specifa parolrekon-sistemo por zorgrobotoj. Legu pli.
ESPSOF - tekstreviziilo kaj konkordancilo
En plurjara projekto, konstruado de ambicia tekstanalizilo ESPSOF bone progresas. Beta-versioj de tiu programaro por revizio kaj konkordancigo de Esperantaj tekstoj (gazetartikoloj, eseoj, raportoj ktp, ĉu skanitaj, ĉu entajpitaj) estas senpage disponeblaj per la retejo www.espsof.com.
Kontraŭe al aliaj literumiloj aŭ lingvohelpiloj en Esperantio, la ESPSOF programaro celas specife al uzantoj de Vindozo kaj MS Office: la tekstfonto estu liverita en MS WORD, la rezultlistoj (alfabete ordigitaj lingvaj vortoj, propraj nomoj, kunmetaĵ-analizoj k.a.) aperas en MS EXCEL, per kiu ankaŭ la interna vortaro funkcias.
Literum-kontrolo estas nur unu funkcio de ESPSOF, kaj ĝi plenumas tiun kontrolon ne dum sed post la entajpado de iu teksto, kies longeco povas varii inter nur du-tri aŭ eĉ dek miloj da frazoj. Pro tio, reviziilo estas pli bona karakterizo ol literumilo . Revizii ja estas fakte tio, kion ankaŭ homa provleganto kutime faras. Li aŭ ŝi tamen ofte pretervidas certajn erarojn (ekz. manko de supersigno), kiujn komputilo malkovras. Inverse, kiam tajperaro kaŭzis hazarde ekzistantan - sed kuntekste sensencan - vorton, estas ankoraŭ la homo kiu superas maŝinon.
KVEK kaj GugloKVEK
Konkordanco estas frazaro, kiu montras la veran uzon de vorto en la praktiko aŭ literaturo. Dum bona vortaro kutime prezentas 2-3 ekzemplojn de vortuzo en frazo, konkordanco listigas dekojn aŭ centojn. Dank’al interreto kaj komputillingvistiko tiuj listoj de vortuz-ekzemploj nuntempe povas esti tre aktualaj, kaj ili certe utilas ĉe lingvolernado.
Du konkordanciloj ekzistas kiel partoj de la per www.espsof.com elŝutebla programarpakaĵo ESPSOF.
KVEK (Konatigu Vortojn En Kunteksto) ebligas konkordancojn de Esperanta teksto en WORD-dosiero, antaŭe reviziita de ESPSOF. Sufiĉas entajpi la serĉvorton, la deziratan longecon de la kuntekstoj ...

... kaj post kelkaj minutoj la konkordanco aperos sur EXCEL-folio:

Ekde novembro 2010, ESPSOF ebligas ankaŭ konkordancojn rekte de Interreto. Oni simple enigu la serĉvorton, ĝian deziratan kuntekst-longecon kaj la maksimumon de konkordanc-vicoj. Uzo de privata serĉŝlosilo (API-key, por aliri Guglon sen krozilo) rekomendeblas sed ne nepras, …

… kaj la rezulto aperos en EXCEL. Same kiel ĉe konkordancoj de tekstdosiero, oni povas per simpla klavkombino reordigi la liston laŭ la komenco de la dekstra kunteksto (aŭ laŭ la fino de maldekstra):

Kontraŭe al permana uzo de Guglo kun krozilo (Internet Explorer, Fajrovulpo, ktp), ĉe GugloKVEK la rezultoj en formo de konkordanco aperos malrapide. Tio dependas de la ofteco en la reto de via serĉvorto, kaj de via indikita maksimumo de serĉrezultoj. Se tiu lasta estas 20-30, la afero daŭros kelkajn minutojn, sed se 400-500, povos daŭri pli ol unu horon.
Kiel parto de ESPSOF, GugloKVEK vorto-post-vorto detale kontrolas ĉiujn rezultojn ricevitajn pere de Guglo. Ĝi tralasas bonajn kuntekstojn, t.e. verajn frazojn, sed elfiltras ne-esperantlingvaĵojn, erarojn, reklamkriojn, senfrazajn rezultojn (nurajn vortlistojn), kaj alian rubaĵon:

Tiu ĉi interŝtupo, en kiu la ESPSOF-modulo TEKSTanal kontroladas per vortaro de eĉ 52.000 vortoj kaj per vortkunmetaĵ-analizo, estas la evidenta kaŭzo de pli longa daŭro de konkordancigo per GugloKVEK.
Diverseco de vortfinaĵoj tute akcepteblas ĉe GugloKVEK. En la enigfenestro oni indikas tion per streketo, ekz. antaŭ la 'o' ĉe O-vortoj, …

… per kio la konkordanco inkludos ankaŭ kazojn kun la postfinaĵoj 'n', 'j', 'jn':

Same per '-a' aŭ '-i' oni ricevos rezultojn kun ĉiuj adjektivaj aŭ verbaj postfinaĵoj. Se via eniga vorto estas 'decid-', do kun streketo sen finaĵo, vi povos ricevi eĉ konkordancerojn kun 16 diferencaj (post-)finaĵoj. Aparte de tio, GugloKVEK ebligas specialajn opciojn:

Ne nur ĉe GugloKVEK, sed ĉe ESPSOF ĝenerale, la tekstkontrolo povas grandparte esti alĝustigita de la uzanto. Anstataŭ la tuta ESPSOF-vorttrezoro, nur vortoj el la PIV, nur ĝiaj Oficialaj vortoj, aŭ nur la Baza Radikaro povas esti elektita. Tiel, verkistoj kiuj laŭprincipe volas uzi nur Oficialajn vortojn, estos atentigitaj per ruĝigo de ne-oficialaj vortoj. Ankaŭ, instruistoj povas tiel aranĝi konkordancojn facile kompreneblajn por lernantoj.

El vidpunkto de edukado, ESPSOF oferas pli da eblecoj por instruistoj, ekzemple bluigo de ne-envortaraj kunmetaĵoj, kaj aperigi morfemstrukturon, precipe ĉe longaj vortoj.

Bluigo de ne-envortaroj kunmetaĵoj ne nur utilas por instruaj celoj, sed ankaŭ servas kiel atentigo pri tajperaroj, kiuj hazarde rezultigis sensencan sed teorie eblan kunmetaĵon, ekzemple "renaskiĝo" mistajpita povas iĝi "ren-sak-iĝ-o". Post kontrolo de teksto per ESPSOF, la aŭtoro do povas pli facile trovi tiujn erarojn, trarigardante ne nur la ruĝigitajn sed ankaŭ la bluigitajn.
Por pluaj opcioj kaj detaloj pri ESPSOF kaj GugloKVEK, vidu na www.espsof.com.

Jen fragmento de alia flanko de nia programaro: ties sintaksa povo spuri SVO (Subjekto-Verbo-Objekto) rilatojn, inklude ilian vortordon en frazo. La SVO-trioj en teksto estas aŭtomate konserveblaj en EXCEL-folio, kaj povas kontribui al ekzemplo-bazo de instrumaterialo aŭ al komuna semantika datumfonto por komputillingvistikaj aplikoj.

Lingvokomputikisto Toon Witkam
Afikskorpuso praktika ponto al semantiko
Evoluigo de semantika tavolo en komputil-lingvistikaj sistemoj jam longe estas granda defio. Kvankam nun interkonsento montriĝas pri tio, ke la scipovo en tia tavolo prefere estu bazita sur granda tekstkorpuso, kaj kvankam intertempe ekzistas kelkaj ampleksaj kaj valoraj tekstkorpusoj en Esperantio, korpuslarĝa konkordanco de afiksoj ankoraŭ mankis.
Helpe de ESPSOF nun disponeblas unua versio de afikskorpuso, komputile alirebla por esploristoj kaj sistem-konstruantoj. Ĝi baziĝas sur fontotekstkorpuso de 1.3 miliono da vortoj, kaj pritraktas 11 afiksojn, precipe tiuj, kiuj rilatas al homaj estaĵoj: -ul-, -an-, -ist-, -estr-, -ĉef-, -in-, -ge-, -bo-, -eks-, -id-, -aĉ-. Entute 27212 tekstvortoj (ĉirkaŭ 10.000 diferencaj vortformoj) kun tiuj afiksoj estas trovitaj en la fontotekstkorpuso. Plivastigo al versio kun ceteraj afiksoj kaj pli granda korpuso sekvos baldaŭ.
Jen du tabelo-fragmentoj. La unua resumas afiks-nombrojn en la unuopaj komponantoj de la fontotekstkorpuso. La dua estas fragmento de la konkordanca afikskorpuso mem.


La afikskorpuso fakte konsistas el ESPSOF-rezultlistoj, iom modifitaj. Ankaŭ ĉi tie, la uzo de Excel kiel datumbazo ebligas uzantoj diversecon de reordigoj, ekzemple laŭ morfemo antaŭ aŭ malantaŭ la listigita afikso, tra la diversaj tekstkorpus-komponantoj aŭ interne de certaj el ili, depende de la intereso de semantikisto pri specifa tekstspeco (antikva, moderna, afereca, beletra, ...).
Por konsulti la afikskorpuson kaj eventuale elŝuti ĝin, iru al la interreta biblioteko SCRIBD (http://www.scribd.com), alklaku 'Explore', kaj sub la maldekstra listo 'Categories', ĉe 'Advanced Search', entajpu afikskorpuso en la eniga ĉelo 'Search titles'.
Rekaraktrigo post skanado
Se tekst-skanado ne nur rezultigas diĝitajn fotojn de la paperpaĝoj, sed ankaŭ tekstdosieron (kun literkodoj), tio malfermas vojon al pluaj perkomputilaj eblecoj: konkordancoj, vortstatistiko, verkistrekono, parolsintezo, kaj - plej grava - korektado de la ne-eviteblaj skan-eraroj.
Ciferecigi malnovajn librojn kaj revuojn IEI konsideras grava afero. Ne nur por pure konservi, sed ankaŭ por reeldoni kaj - per la reto - disponigi Esperantajn tekstojn.
Hodiaŭ, tute aŭtomata korektado de skan-eraroj ankoraŭ ne eblas. Homa provlegantoj necesos ĝis niaj komputiloj posedos sufiĉe da semantika scipovo por rekoni ĉiujn erarojn. Tamen aldona softvaro kiel ESPSOF povas bone kompletigi la homan provleganton, faciligi ties taskon. En venonta versio de ESPSOF, la softvaro ne nur ruĝigos skan-erarojn, sed ankaŭ korektos certajn el ili.


Jen du gazetoj de historia valoro el la 1920-aj kaj 1930-aj jaroj de Sovetio, kiujn IEI planas ciferecigi kaj disponigi perrete en la venontaj jaroj (se aliloke iu persono aŭ institucio jam ciferecigas tiujn gazetojn aŭ planas fari tion, bonvolu sciigi nin).
07/02/2011