Afgeronde rechthoek: Start-
paĝo

 

Nova Teĥnologio kaj Komputila Lingvistiko

 

IEI evoluigas kaj disponigas komputil-lingvistikan scion kaj softvaron, ĉu en la kadro de Esperanta lingvo-instruo, ĉu por apogi kaj faciligi Esperant-lingvan aktivecon ĝenerale.

Pro tio, ni ŝatas interŝanĝi konon kaj bonvenigas kontaktojn kun alilokaj komputil-lingvistoj,  perrete, dum kongresoj (ekz. ĉe KAEST), aŭ ĉeokaze en nia instituto en Hago.

Tial IEI subtenas la evoluigon de parolrekon-sistemoj por Esperanto i.a. en la kadro de la ALPAZORO-projekto. Legu pli.

Ĉi-sube la priskribon de tri komputil-programoj per kio oni lerte povas kontroli la ortografion aŭ fari analizon kaj esploron de Esperanto-tekstoj.

(Por ekzemplo de tekstanalizo vidu la PowerPoint-prezentadon: Urug kaj Urug: kompara esploro)

 

 

TEKSTKONTROLILO

 

TEKSTKONTROLILO estas komputilprogramo per kiu oni povas elserĉi ortografiajn erarojn en tajpitaj aŭ enlegitaj Esperantotekstoj. La enlegota teksto devas esti tekstdosiero (.txt) aŭ t.n. Rich Text File (.rtf). Eblaj eraroj aperas ruĝkoloraj sur la komputilekrano aŭ laŭprefere sur printaĵo. Oni povas senpage elŝuti la programon (kune kun la apartenaj vortaroj) kiel (enpakitan) zip-dosieron. La programo (tekstkontrolilo.exe) kaj la (kvin) vortaroj (vortaro1.txt, ktp) post elpako devas esti metitaj aŭ kopiitaj en (novan) dosierujon kun la nomo tkujo en la memorparton c: (do en c:\tkujo). Kiam oni klakas sur la nomon aŭ ikonon de la programo ĝi startas kaj estas uzebla.

Kiam via komputilo ne havas Zip-elpakprogramon vi povas instali Tekstkontrolilon per la elŝutebla instalprogramo tekstkontrolilo.msi. Post elŝuto klaku sur ĝia nomo kaj la instalo komenciĝos (anglalingve).

ESPSOF  -  tekst­reviziilo kaj konkordanc­ilo

En plurjara projekto, konstruado de ambicia tekst­analizilo ESPSOF bone progresas. Beta-versioj de tiu programaro por revizio kaj konkordanc­igo de Esperantaj tekstoj (gazet­artikoloj, eseoj, raportoj ktp, ĉu skanitaj, ĉu entajpitaj) estas senpage disponeblaj per la retejo  www.espsof.com.

Vidu ankaŭ Power-Point-prezentaĵo.

 

Kontraŭe al aliaj literumiloj aŭ lingvo­helpiloj en Esperantio, la ESPSOF programaro celas specife al uzantoj de Vindozo kaj MS Office: la tekstfonto estu liverita en MS WORD, la rezult­listoj (alfabete ordigitaj lingvaj vortoj, propraj nomoj, kunmetaĵ-analizoj k.a.) aperas en MS EXCEL, per kiu ankaŭ la interna vortaro funkcias.

Literum-kontrolo estas nur unu funkcio de ESPSOF, kaj ĝi plenumas tiun kontrolon ne dum sed post la entajpado de iu teksto, kies longeco povas varii inter nur du-tri aŭ eĉ dek miloj da frazoj. Pro tio,  reviziilo estas pli bona karakterizo ol  literumilo . Revizii ja estas fakte tio, kion ankaŭ homa provleganto kutime faras. Li aŭ ŝi tamen ofte pretervidas certajn erarojn (ekz. manko de supersigno), kiujn komputilo malkovras. Inverse, kiam tajperaro kaŭzis hazarde ekzistantan  - sed kuntekste sensencan -  vorton, estas ankoraŭ la homo kiu superas maŝinon.

 

KVEK

Konkordanco estas frazaro, kiu montras la veran uzon de vorto en la praktiko aŭ literaturo. Dum bona vortaro kutime prezentas 2-3 ekzemplojn de vortuzo en frazo, konkordanco listigas dekojn aŭ centojn. Dank’al interreto kaj komputil­lingvistiko tiuj listoj de vortuz-ekzemploj  nuntempe povas esti tre aktualaj, kaj ili certe utilas ĉe lingvo­lernado. 

Unu konkordanc­ilo ekzistas kiel partoj de la per www.espsof.com elŝutebla programar­pakaĵo ESPSOF.

KVEK (Konatigu Vortojn En Kunteksto) ebligas konkordancojn de Esperanta teksto en WORD-dosiero, antaŭe reviziita de ESPSOF. Sufiĉas entajpi la serĉvorton, la deziratan longecon de la kuntekstoj ...

 

 

 ... kaj post kelkaj minutoj la konkordanco aperos sur EXCEL-folio:

 

 

 

 

El vidpunkto de edukado, ESPSOF oferas pli da eblecoj por instruistoj, ekzemple bluigo de ne-envortaraj kunmetaĵoj, kaj aperigi morfem­strukturon, precipe ĉe longaj vortoj.

 

 

Bluigo de ne-envortaroj kunmetaĵoj ne nur utilas por instruaj celoj, sed ankaŭ servas kiel atentigo pri tajperaroj, kiuj hazarde rezultigis sensencan sed teorie eblan kunmetaĵon, ekzemple "renaskiĝo" mistajpita povas iĝi "ren-sak-iĝ-o". Post kontrolo de teksto per ESPSOF, la aŭtoro do povas pli facile trovi tiujn erarojn, trarigard­ante ne nur la ruĝigitajn sed ankaŭ la bluigitajn.

Por pluaj opcioj kaj detaloj pri ESPSOF, vidu www.espsof.com.

 

 

 

Jen fragmento de alia flanko de nia programaro: ties sintaksa povo spuri SVO (Subjekto-Verbo-Objekto) rilatojn, inklude ilian vortordon en frazo. La SVO-trioj en teksto estas aŭtomate konserveblaj en EXCEL-folio, kaj povas kontribui al ekzemplo-bazo de instrumaterialo aŭ al komuna semantika datumfonto por komputil­lingvistikaj aplikoj.

 

 

http://www.iei.nl/T.%20Witkam.jpg

Lingvokomputikisto Toon Witkam

(aŭtoro de ESPSOF kaj KVEK)

 

 

Afikskorpuso  praktika ponto al semantiko

Evoluigo de semantika tavolo en komputil-lingvistikaj sistemoj jam longe estas granda defio. Kvankam nun interkonsento montriĝas pri tio, ke la scipovo en tia tavolo prefere estu bazita sur granda tekstkorpuso, kaj kvankam intertempe ekzistas kelkaj ampleksaj kaj valoraj tekstkorpusoj en Esperantio, korpuslarĝa konkordanco de afiksoj ankoraŭ mankis.

Helpe de ESPSOF nun disponeblas unua versio de afikskorpuso, komputile alirebla por esploristoj kaj sistem-konstruantoj. Ĝi baziĝas sur fontotekstkorpuso de 1.3 miliono da vortoj, kaj pritraktas 11 afiksojn, precipe tiuj, kiuj rilatas al homaj estaĵoj:  -ul-, -an-, -ist-, -estr-, -ĉef-, -in-, -ge-, -bo-, -eks-, -id-, -aĉ-.  Entute 27212 tekstvortoj (ĉirkaŭ 10.000 diferencaj vortformoj) kun tiuj afiksoj estas trovitaj en la fontotekstkorpuso. Plivastigo al versio kun ceteraj afiksoj kaj pli granda korpuso sekvos baldaŭ.

Jen du tabelo-fragmentoj. La unua resumas afiks-nombrojn en la unuopaj komponantoj de la  fontotekstkorpuso. La dua estas fragmento de la konkordanca afikskorpuso mem.

http://www.iei.nl/Afikskorpuso%20(nomoj%20de%20fontotekst-dosieroj)%20de%20.PNG

 

http://www.iei.nl/Excel%20REZULTO-listo%20(Afikskorpuso).jpg

 

La afikskorpuso fakte konsistas el ESPSOF-rezultlistoj, iom modifitaj. Ankaŭ ĉi tie, la uzo de Excel kiel datumbazo ebligas uzantoj diversecon de reordigoj, ekzemple laŭ morfemo antaŭ aŭ malantaŭ la listigita afikso, tra la diversaj tekstkorpus-komponantoj aŭ interne de certaj el ili, depende de la intereso de semantikisto pri specifa tekstspeco (antikva, moderna, afereca, beletra, ...).

Por konsulti la afikskorpuson kaj eventuale elŝuti ĝin, iru al la interreta biblioteko SCRIBD (http://www.scribd.com), alklaku 'Explore', kaj sub la maldekstra listo 'Categories', ĉe 'Advanced Search', entajpu  afikskorpuso en la eniga ĉelo 'Search titles'.

 

Rekaraktrigo post skanado

Se tekst-skanado ne nur rezultigas diĝitajn fotojn de la paperpaĝoj, sed ankaŭ tekst­dosieron (kun literkodoj), tio malfermas vojon al pluaj per­komputilaj eblecoj:  konkordancoj, vort­statistiko, verkist­rekono, parolsintezo, kaj  - plej grava -  korektado de la ne-eviteblaj skan-eraroj.

Ciferecigi malnovajn librojn kaj revuojn IEI konsideras grava afero. Ne nur por pure konservi, sed ankaŭ por reeldoni kaj  - per la reto -  disponigi Esperantajn tekstojn. 

Hodiaŭ, tute aŭtomata  korektado de skan-eraroj ankoraŭ ne eblas. Homa provlegantoj necesos ĝis niaj komputiloj posedos sufiĉe da semantika scipovo por rekoni ĉiujn erarojn. Tamen aldona softvaro kiel ESPSOF povas bone kompletigi la homan provleganton, faciligi ties taskon. En venonta versio de ESPSOF, la softvaro ne nur ruĝigos skan-erarojn, sed ankaŭ korektos certajn el ili.

http://www.iei.nl/la%20mizeruloj.jpg       http://www.iei.nl/rekaraktrigo.jpg

http://www.iei.nl/sur%20posteno.jpg   http://www.iei.nl/la%20nova%20epoko.jpg

Jen du gazetoj de historia valoro el la 1920-aj kaj 1930-aj jaroj de Sovetio, kiujn IEI planas ciferecigi kaj disponigi perrete en la venontaj jaroj (se aliloke iu persono aŭ institucio jam ciferecigas tiujn gazetojn aŭ planas fari tion, bonvolu sciigi nin).

07/02/2011