Een veel omvattend corpus

Uit Wikisource
Ga naar: navigatie, zoeken

Een veel omvattend corpus

Auteur Karel Poort
Genre(s) Boek (verhalenbundel)
Brontaal Nederlands
Datering 25-11-2008
Bron Het Mantelpakje (uitgeverij Aspekt, Soesterberg)
Auteursrecht
      Een veel omvattend corpusZoals u ongetwijfeld hebt vernomen is de hedendaagse erkenning van het toenemende methodologische belang van corpusanalytische technieken in de taalkunde van minder belang dan wij oorspronkelijk dachten. Neemt echter niet weg dat wij hier al sinds jaar en dag te maken hebben met een opeenstapeling van materiaalverzameling, gegevensclassificatie en niet te vergeten interpretatie van frequentiecijfers, zodat het tot doel stellen van linguïstische hypotheses een observeerbaar taalgedrag aan de dag zal gaan leggen. Daar komt nog bij dat u als geïnteresseerden binnenkort zal starten met een nieuw project: de methodologische vakgebieden vertrouwd maken met de belangrijkste, thans gangbare, retrievalalgoritmes, taggingtechnieken en statistische methodes om specifieke informatie uit corpora te distilleren en valabele conclusies uit de zo verkregen kwantitatieve informatie te trekken. Zo niet, dan spreken wij elkaar nader, want information retrieval en corpuslinguïstiek zijn twee volkomen verschillende grootheden, zoals u ongetwijfeld nog wel weet uit uw studieboeken.

Verder kunt u nog in de hoek van de artificiële intelligentie kijken, en met name bij de conceptual dependencies, want daarmee is het mogelijk om beduidend meer concepten te schetsen dan voorheen mogelijk was gehouden. Wat onze persoonlijke interesse betreft is het allemaal wel duidelijk en volstrekt helder: waar het in principe allemaal om gaat is ‘information retrieval, hooguit probabilistiek, maar zéker geen logica of semantiek. Verder vraagt de gebruiker gewoon aan het systeem: wat is het kookpunt van water? Het IR-systeem denkt dan: Hmmm..., kookpunt, temperatuur, dat is natuurkunde, laat ik eens in Van Zwieten & Valeriaan deel 3 gaan kijken en dan gaat het systeem zelf naar dat betreffende boek toe, bladert er virtueel doorheen en komt met een geheel ander antwoord op de proppen. Dus alles bij elkaar opgeteld en dat dan weer in vieren gedeeld is het allemaal net zo eenvoudig als het lezen van een streekromannetje, het zetten van een kopje Chinese jasmijnthee, of simpelweg goeiedag zeggen.

Het duurde dan ook tot 1975 alvorens er een nieuw initiatief kwam voor een meer omvattend corpus, maar daarmee waren we er nog niet helemaal, dat zult u toch moeten beamen, want net als wij moest u vroeger ook eerst de meest onbegrijpelijke Latijnse teksten vertalen. Teksten waarvan het begrip ons pas jaren later kwamen bovendrijven, evenals het niet te beschrijven plezier er van. Maar met de vertaling alleen waren we nog niet helemaal waar we uiteindelijk moesten zijn. Een begeleidingscommissie sprak over elk geschreven deel haar oordeel uit, en had de uiteindelijke verantwoordelijkheid over de vertalingen. In die commissie werd het vertaalkundig argument overgenomen, maar in de context van geschrevene werd een andere sleutel voor de uiteindelijke oplossingen gezocht. Niettemin hadden sommigen van u niet helemaal genoeg aan een eenvoudige postzegel en dat geldt al helemaal voor de schrijver van de brief die wij, met de nodige trots, vandaag zullen publiceren onder het luide geschal van bazuinen met geborduurde banieren en, hoe ludiek ook, zal worden gebracht door een heuse postkoets in Anton Pieckkleuren. Dus gaan wij er maar gemakshalve vanuit dat het één ander op z’n plaats zal gaan vallen, zoals als wij dat zo graag hadden willen zien in voorbije tijden.

Mocht het, geachte aanwezigen, onverwijld nu tóch zo zijn dat we de ondergang van het avondland of het overweldigende gevoel dat je hebt als je net uit bad komt hiermee kan worden verwoord, dan kunnen wij onze euforie in één simpele zin mee samenvatten, vooral als iets een keer tegenzit. Wij gebruiken de verzen namelijk als een vloek, als toast, als vreugdekreet, als pick-upline, als felicitatie op een verjaardagskaart, of als uiting van medeleven in een condoléanceregister. Dus neem ons in dezen niet kwalijk dat het er wat ons betreft verder niet meer toe doet. Of, beter gezegd, dat een lexikaal begrip het werkelijke vermogen iets op te nemen in de weg kan zitten. Dit brengt ons tevens tot de kern van de zaak, namelijk: er vanuit gaande dat de paralinguïstische kenmerken en bepaalde aanvullende commentaren over intonatie en accenten niet zijn aangegeven, dan kunt u er gevoeglijk vanuit gaan dat ons systeem een woordenboek heeft van 7.000 woorden en een suffixenlijst van 700 entries, alsook een lexicaal desambigueringsprogamma dat ontwikkeld is door de universiteit van Reyjavik in samenwerking met het Computing Centre for the Humanities te Tasjkent. Pragmatisch zou men dus kunnen stellen dat het corpus en de genoemde concordantie, zowel in geannoteerde als in niet-geannoteerde vorm, beschikbaar zijn bij het LDVG waarbij terdege rekening werd gehouden met een classificatie in de diverse beschikbare tekstsoorten.

Terugkomend op de Machine Readable Spoken English Corpus-versie van dit corpus voegt dat een fonemische transcriptie toe, de waveforms en de oorspronkelijke gedigitaliseerde geluidsfragmenten. Maar ondanks het bestaan van verschillende corpora bleek er voor de onderzoekers niet voldoende geschikt tekstmateriaal te bestaan. Bovendien was, begrijpelijkerwijs, de voornaamste taak van het KDA om grote hoeveelheden van linguïstische data, waarnaar op een bepaald moment vraag is, te verzamelen, te verwerken en te annoteren.

Tot slot willen wij als organiserend orgaan u er nog graag op wijzen dat elke tekst is gesegmenteerd in ortografische zinseenheden en aan elk woord een automatische speech-code is toegevoegd. Het corpus is automatisch grammaticaal geannoteerd in KMDO, met behulp van de stochastische parser, want zoals eerder opgemerkt speelde met name in de vroegere samenlevingen en de mythe een grote rol, dit in tegenstelling tot de rationaliteit die parten speelt in de retoriek van onze besluitvorming. Echter, onze grootste moderne mythe is misschien wel die van de logos, want laten we toch wel wezen, wij mensen zijn minder rationeel dan we ons wel eens voorwenden, dit in tegenstelling tot de kwantummechanica die maar weinig houvast geeft in het dagelijkse leven. Bovendien helpt het niet het huwelijk gezond en in stand te houden, omdat er zich tussen de topdown en bottomup-benadering zich een enorme informatiekloof bevindt, waarin alle onduidelijke gezichten en verschijnselen die we tegenkomen zullen verdwijnen als sneeuw voor de zon.

Ik dank u hartelijk voor uw aandacht en wens u vanaf deze plaats veel succes met wat dan ook en dies meer zij.