Corpusen sintaxia
Corpusek ematen duten informazioa mailakatua da. Batzuetan hitza ikus daiteke, bere testuinguruan. Eta testuingurua nolakoa nahi den definitu behar da aurretik:
– honenbeste karaktere aurretik, eta beste honenbeste atzetik: horrela mintzatzen natzaianean, baina, ALDIZ, axolagabe eta nagi azaltzen haiz
– bilatu nahi den hitza biltzen duen perpaus osoa: Gogotsu nahi hinduket horrela mintzatzen natzaianean, baina, ALDIZ, axolagabe eta nagi azaltzen haiz
– bilatu nahi den hitza biltzen duen pasarte osoa: -eta, begiak semeari zuzentzen zizkiola, Ibrahimek jarraitu zuen-: Maiz erran diat, Abdel Haqq, baina berriro erranen diat: arkitektura diat ogibide, eta arkitektura neure bizitzako pasio. Hain zoriontsu sentitzen nauk neure mundu honetan, non neke egiten baitzait ikustea ezen hik ez duala zorion bete hori heuretako nahi. Gogotsu nahi hinduket horrela mintzatzen natzaianean, baina, ALDIZ, axolagabe eta nagi azaltzen haiz
Beste batzuetan hitz horren lema kontsulta daiteke, eta aldaera guztiak bistaratuko ditugu:
- Aurreneko ALDI hartan nahi izango zukeen esan bere istorioak irakurtzea asko gustatzen zitzaiola, baina ez zen ausartu, neurri batean koipea ematen ari zela pentsa zezakeelako, baina batez ere ez zekielako ongi zer erantzun zergatik gustatzen zitzaion galdetzen bazion, eta obraz hitz egiten jarrita maila ez ematearen beldur zelako
– Ez da aurreneko ALDIA Harri eskua ezkerreko besapera eramateko keinu horretan harrapatzen duela
– Nazka ematen baitio demaseko kutuntasun horrek, ALDITXO bat iraun du sukaldean, eta ostera salara itzuli denean otzanduta aurkitu ditu, maistra zorrotza azaldutakoan konpostura berreskuratu dute.
– Bainujantzian ikusi zuen lehen ALDIAN -oso ongi oroitzen da Ondarretan gertatu zela, eta erronbo berde-beltzak zeuzkala- eskotearen gainetik begiratuz ikusi baitzuen bularrek ez zituztela katiluak betetzen, keinu hura egin zuen hatz batekin, ertz elastikoa zertxobait zabaltzekoa, eta iruzur egin zuela aurpegiratu zion txantxetan
– Ez da bigarren ALDIRIK izango
- "Gustatu nahi zaitut" adierazteko ausardia edo apaltasuna eduki duen ALDIETAN
- Berez lehendabiziko bi edo hiru ALDIETAN gertatzen dela hori esan du ohe gainean zutituz, horregatik ez zaiola axola biluzik egotea.
– Eta abar
Baina hitza edo lema bistaratzeaz gain, corpusek beste mota bateko informazioa ere eman dezakete, landuagoa, informazioa bilatzen duenari lana arintzen diotena. Informazio mota bat sintaxiarekin dago lotua, eta hau da aplikazio honek ematen duena. Jakina, sintaxi azterketak mutur asko ditu, eta ez da hemen agortzen, inondik ere, sintaxiaren azterketa. Baina laguntza handia izan daiteke horretaz arduratzen direnentzat.
Corpusak eta informazio sintaktikoa
Corpusetako testuen ezaugarri sintaktikoak baliatu ahal izateko, baitezpadakoa da testuen esaldiak, perpausak eta haien barneko elementuak automatikoki analizatuko dituen tresna informatikoa erabiltzea. Horretarako, atal honetako tresnetan baliatu duguna segmentatzailea izenekoa izan da (chuncker edo zatitzailea ere deitua). Tresna horrek azaleko analisi sintaktikoa egiten du. Ez du pertsona batek egingo lukeen analisi sakon eta perfektua egiten, baina zenbait ezaugarri sintaktiko erabili ahal izateko gutxieneko informazioa ematen du.
Ikus dezagun segmentatzaile horrek zer gisako lana egiten duen. Adibidez, ondoko esaldirako:
entzule gehienek triste amaituko dute ikastaroa
Lehen-lehenik, sintaktikoki esanguratsu diren hitz multzoak (sintagmen pareko liratekeenak) detektatu eta bakartzen ditu:
entzule gehienek |
triste |
amaituko dute |
ikastaroa |
Ondoren, segmentu edo zati horietako bakoitza kategorizatu egiten du, hots, zein funtzio sintaktiko generiko betetzen duen: <IS>, izena; <AS>, aditza; <AB>, adberbioa; e.a.
entzule gehienek | <IS> |
triste | <AB> |
amaituko dute | <AS> |
ikastaroa | <IS> |
Eta azkenik, segmentu bakoitza azpi-kategoritzatzen du. Horretarako, deklinabidea, afikazioa edo posposizioa aintzat hartzen du: etorri da, <AS-0>; etorri den, <AS-n>; etorri denean, <AS-noiz>; etorri denez gero, <AS-nola>; e.a.
entzule gehienek | <IS-nork> |
triste | <AB> |
amaituko dute | <AS-0> |
ikastaroa | <IS-nor> |
Corpusak sintaktikoki ustiatzeko bi tresna
Gaur-gaurkoz, corpusak sintaktikoki erabiltzeko bi tresna eskaintzen ditugu, bi-biak Ereduzko Prosa Gaur corpusean oinarrituta: