Nieuwe technologie en computerlinguistiek

Home

Wie zijn wij?

Bestuur

Ereleden

Kalender

Gediplomeerde leraren

Leerstoel Amsterdam

Nieuwe Boeken

Antiquarische Boeken

Computer-linguistiek

Nieuws

Links

  

Door het IEI wordt computerlinguistische kennis en software ontwikkeld en ter beschikking gesteld, of het nu gaat om taalonderwijs dan wel om het ondersteunen en faciliteren van Esperanto-gebruik in het algemeen.

Wij stellen dan ook prijs op kennisuitwisseling en contacten met computerlinguisten elders,  via internet, tijdens congressen, of bij gelegenheid op ons instituut in Den Haag.

ESPSOF         een ambitieuze tekstcorrector

Als meerjarig project vordert de bouw van de tekst-analyzer  ESPSOF. Een beta-versie van dit software-pakket voor revisie van Esperanto-teksten (tijdschriftartikelen, essays, rapporten etc, getypt of ingescand) is kostenloos beschikbaar via www.espsof.com.

In tegenstelling tot andere spell- en taal-checkers in Esperanto-land is de ESPSOF-software speciaal gericht op gebruikers van Windows met MS Office:  de brontekst moet worden aangeleverd in MS WORD, en de resultaten (alfabetisch geordende woord- en eigennaam-lijsten, foutenlijst, woordsamenstellingen e.d.) verschijnen in MS EXCEL, waarin ook het interne woordenboek is vervat.

Spellingscontrole is slechts één functie van ESPSOF, en die wordt niet tijdens maar na het intypen van een tekst uitgevoerd. De lengte van de aangeboden tekst kan variëren van twee-drie tot tienduizenden zinnen. ´Revisor´ is daarom een betere karakterisering dan ´spell-checker´ . Reviseren is feitelijk dat, wat ook een menselijke proeflezer doet. Hij of zij ziet echter vaak bepaalde foutjes (bijv. vergeten letterkapjes) over het hoofd, foutjes die de computer niet ontgaan.  Omgekeerd is de mens de machine nog de baas als het gaat om typfouten die toevallig een ook bestaand   - maar in de context onzinnig -   woord opleveren.

ESPSOF biedt een rijk assortiment aan keuze-instellingen. Zo kan bijvoorbeeld, bij een tekst die speciaal gericht is op beginnelingen, de schrijver kiezen voor tekst-controle op basis van  BRO (Baza Radikaro Oficiala):  ca. 2200 elementaire woordwortels, en de daarmee maakbare samenstellingen. Voor meer gevorderd lezerspubliek kan de schrijver kiezen uit drie verdere nivo´s van woordenboekomvang:

Uit het oogpunt van taalonderwijs biedt ESPSOF meer mogelijkheden voor docenten. Het kiezen van de optie ´maak woordsamenstellingen blauw als ze niet in het woordenboek staan´ (en het weghalen van de lengte-conditie in bovenstaand invoerscherm-fragment)  maakt tegelijkertijd duidelijk welke woorden wel in het woordenboek staan (de niet blauw-gemaakte). Wat Esperanto-lerenden ook helpt, ongeacht of een samenstelling nu wel of niet in het woordenboek staat, is de mogelijkheid tot zichtbaarmaking van de morfeemstruktuur, vooral bij lange woorden. Onderstaande opties

 

bewerken bijvoorbeeld deze herverschijning van de brontekst:

Hoewel het softwaresysteem ESPSOF reeds download-baar en bruikbaar is vanaf midden 2008, verschijnen er regelmatig nieuwe versies. Goede tekstcontrole is een ingewikkelde zaak, en veel hangt af van de tekstsoort en specifieke gewoontes of wensen van de tekstschrijver. Als die regelmatig woorden en citeringen in een andere taal gebruikt, wat voor aanhalingstekens of haken gebruikt hij dan daarvoor (er bestaan 13 verschillende typen)? Of cursiveert hij de dingen die niet gecontroleerd moeten worden? En zijn woorden met alleen maar hoofdletters altijd acroniemen? Onachtzaam omgaan met dit alles kan leiden tot een massa van onnodig rood gemaakte woorden, waardoor de echte fouten juist minder opvallen. Daarom is de controle door ESPSOF aanpasbaar:

 

Onder de andere opties, waarvan er enkele nog geëffectueerd moeten worden, is er één die een afwijking toestaat van de strikte regel (in PMEG en PAG) betreffende telwoorden; deze uitzondering is geïnspireerd door de praktijk in de maandelijkse vertaling van de prominente krant  Le Monde Diplomatique (http://eo.mondediplo.com):     

Overigens verwerft de tekst-analyzer ook enige kennis van de grammatica. Enerzijds draagt dit bij aan het nut van ESPSOF bij taalonderwijs, want de grammaticale relaties kunnen daardoor middels kleuren geaccentueerd worden: 

 

Anderzijds heeft dit een dieperliggend doel: vastlegging van de syntactische basis-relaties uit de veelheid van teksten door de jaren heen, zal helpen bij de constructie van een semantische database, op voorwaarde dat zoveel mogelijk ESPSOF-gebruikers vrijwillig hun SVO-lijsten voor dit doel inzenden. Daar staat tegenover dat ook zij zelf in de toekomst kunnen profiteren van een tekst-analyzer met semantische kennis.

Hieronder een klein fragment van een resultaatlijst behorend bij het zojuist getoonde brontekst-voorbeeld (van het grammaticale subject of object wordt steeds alleen maar het hoofdwoord opgevoerd):

Verdere informatie over het ESPSOF-pakket, dat ook nog een concordantie-instrument omvat, is te vinden op www.espsof.com. Daar staan ook de instructies voor het installeren van het systeem na downloaden (denk eraan dat Windows en MS Office daarbij onmisbaar zijn).

 

Computerlinguist  Toon Witkam

 

Affix-corpus     een praktisch opstapje naar semantiek

 

Het aanbrengen van een semantische laag in computerlinguistische systemen is altijd een grote uitdaging geweest. Hoewel zich nu overeenstemming aftekent over het bij voorkeur baseren van die laag op een groot tekstcorpus, en hoewel er inmiddels enkele omvangrijke en waardevolle tekstcorpussen in Esperanto bestaan, heeft een corpus-brede concordantie van affixen tot nu toe ontbroken..

Dankzij  ESPSOF is nu de eerste versie van een affix-corpus beschikbaar en per computer toegankelijk voor onderzoekers en systeembouwers. Ze is gebaseerd op een brontekst-corpus van 1.3 miljoen woorden, en bestrijkt 11 affixen, hoofdzakelijk die welke gerelateerd zijn aan menselijke wezens:  -ul-, -an-, -ist-, -estr-, -ĉef-, -in-, -ge-, -bo-, -eks-, -id-, -aĉ-.  Alles bij elkaar  27212 tekstwoorden (ca. 10.000 verschillende woordvormen) met deze affixen zijn gevonden in het brontekst-corpus.  Uitbreiding naar een versie met ook de overige affixen volgt binnenkort. 

Hieronder twee tabel-fragmenten. De eerste resumeert affix-aantallen in de afzonderlijke componenten van het brontekst-corpus. De tweede is een fragment van het concordantie-achtige affix-corpus zelf.

 

 

Het affix-corpus bestaat in feite uit ESPSOF-resultaatlijsten, enigszins aangepast. Het hanteren van Excel als database biedt ook hier gebruikers een verscheidenheid aan hersorteringen, bijvoorbeeld volgens het aan de affix voorafgaande dan wel het erop volgende morfeem, dwars door de diverse tekstcorpus-componenten heen of juist binnenin sommigen daarvan, afhankelijk van de interesse van de semanticus voor een specifiek teksttype (antiek, modern, zakelijk, belletrie, ...).

Scannen met OCR

Als het inscannen van tekst niet louter bestaat uit een digitale foto van de bladzijde, maar resulteert in een file met lettercodes (Optical Character Recognition), dan opent dit de weg naar verdere mogelijkheden met de computer: concordanties, woordstatistiek, auteurs-herkenning, spraaksynthese, en  - vooral -  correctie van onvermijdbare scan-fouten.

Het digitaliseren van oude boeken en tijdschriften wordt door het IEI als een belangrijke zaak gezien. Niet alleen voor het conserveren, maar ook voor het heruitgeven en meer via internet toegankelijk maken van Esperanto-teksten. 

Volledig automatische correctie van scan-fouten is vandaag de dag nog niet mogelijk. Mensen zullen nog nodig zijn als proeflezers, zolang onze computers nog niet genoeg semantische kennis bezitten om alle fouten op te sporen. Toch kan extra software zoals ESPSOF de menselijke proeflezer al goed aanvullen, en zijn of haar taak vergemakkelijken. De komende versie van ESPSOF zal scan-fouten niet alleen met rood aangeven, maar voor een deel ook corrigeren.

      

  

Hier twee Esperanto-bladen uit de Sovjet-Unie, die het IEI van plan is de komende jaren te gaan digitaliseren en op internet te zetten. Indien elders in de wereld daar al iemand mee bezig is, laat het ons dan alstublieft weten!

25/08/2009