Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 ·...

40
1 Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων Σύνοψη Η γλωσσολογία σωμάτων κειμένων (corpus linguistics) αποτελεί μια μεθοδολογία που στοχεύει στην εμπειρική μελέτη της γλώσσας, κάνοντας εκτεταμένη χρήση των ηλεκτρονικών υπολογιστών, που επιτρέπουν την αποθήκευση, την ταχύτατη ανάκληση και την επεξεργασία τεράστιου όγκου γλωσσικών πληροφοριών. Οι δυνατότητες αυτές του ηλεκτρονικού μέσου επέτρεψαν τη δημιουργία των σωμάτων κειμένων (corpora), συλλογών τεράστιου αριθμού αυθεντικών κειμένων, αποθηκευμένων σε ηλεκτρονική μορφή, επεξεργάσιμων και προσπελάσιμων με υπολογιστικά εργαλεία. Τα σώματα κειμένων διαφορετικά από ό,τι συμβαίνει με άλλες συλλογές ηλεκτρονικών κειμένων (π.χ. Project Gutenberg, American Rhetoric, the Library of Congress), συγκροτούνται σύμφωνα με κριτήρια και αρχές, για να εξυπηρετήσουν συγκεκριμένους ερευνητικούς σκοπούς. Η χρήση τους υπήρξε αποφασιστική για την πρόοδο της σύγχρονης γλωσσολογίας, καθώς επέτρεψε την ποσοτική ανάλυση και μέσω αυτής την ποιοτική ερμηνεία μεγάλου όγκου γλωσσικών δεδομένων (Sinclair 1991· McEnery, Xiao and Tono 2006). Οι εφαρμογές της εκτείνονται από τη λεξικογραφία, τη συγγραφή γραμματικών και τη μετάφραση έως τη διδασκαλία της γλώσσας, τις κοινωνιογλωσσολογικές και πραγματολογικές μελέτες κ.ά. (Hunston 2002· Bowker & Pearson 2002· Baker κ.ά. 2006). Στόχοι του κεφαλαίου είναι: να παρουσιάσουμε τις βασικές αρχές συγκρότησης των σωμάτων κειμένων, να περιγράψουμε τα διαφορετικά είδη σωμάτων κειμένων και τις χρήσεις τους στους διάφορους τομείς της εφαρμοσμένης γλωσσολογικής έρευνας, να εξοικειωθούμε με τα βασικά εργαλεία που χρησιμοποιούνται για την προσπέλαση και ανάλυσή τους, να εξερευνήσουμε τις πολλαπλές δυνατότητες αναζήτησης σε αυτά, και τέλος να περιγράψουμε μια ενδεικτική μεθοδολογία ανάγνωσης και ερμηνείας των αποτελεσμάτων που ανασύρονται από αυτά. 4.1 Αρχές συγκρότησης των σωμάτων κειμένων Όταν ανατρέχουμε σε ένα σώμα κειμένων, θα πρέπει να γνωρίζουμε τις ακόλουθες βασικές αρχές συγκρότησής του και το μέγεθός του, έτσι ώστε να μπορούμε να εξάγουμε ασφαλή συμπεράσματα σχετικά με τα ερευνητικά ερωτήματα που θέτουμε στο πλαίσιο μιας γλωσσικής μελέτης. Οι πληροφορίες αυτές εμφανίζονται στους ιστότοπους των σωμάτων κειμένων με τους τίτλους Πληροφορίες, About κτλ. Αντιπροσωπευτικότητα (representativeness): Σε μια νεκρή γλώσσα (π.χ. λατινική, αρχαία ελληνική) ή στην υπογλώσσα ενός πολύ ειδικού πεδίου (π.χ. τηλεφωνικές συνδιαλέξεις με τηλεφωνικό κέντρο), ένα σώμα κειμένων είναι εφικτό να αποτελεί ένα πλήρες αρχείο όλων των μαρτυριών της γλώσσας αυτής ή του πεδίου αυτού. Αντίθετα, ένα σώμα κειμένων μιας ζωντανής γλώσσας δεν μπορεί παρά να είναι αναγκαστικά ένα υποσύνολο, ένα δείγμα των επικοινωνιακών πράξεων αυτής της γλώσσας. Ως δείγμα, το σώμα κειμένων, πρέπει να αντανακλά με πληρότητα και, υπό την έννοια αυτή, να αντιπροσωπεύει επαρκώς το ευρύτερο σύνολο των γλωσσικών φαινομένων μιας γλώσσας. Σύμφωνα με τον Leech (1991: 27), ένα σώμα κειμένων θεωρείται αντιπροσωπευτικό δείγμα μιας γλώσσας όταν τα ευρήματα που βασίζονται στο περιεχόμενό του μπορούν να γενικευτούν για το σύνολο της γλώσσας αυτής. Ισορροπία (balance): Για να αποτελεί ένα σώμα κειμένων αντιπροσωπευτικό και ισορροπημένο δείγμα του συνολικού πληθυσμού των κειμένων που παράγονται στην υπό μελέτη γλώσσα, πρέπει να συμπεριλαμβάνει μέσω ποικίλων τεχνικών δειγματοληψίας (Biber 1993) όσον το δυνατόν ευρύτερη ποικιλία,

Transcript of Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 ·...

Page 1: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

1

Κεφάλαιο 4

Αναζήτηση σε σώματα κειμένων

Σύνοψη Η γλωσσολογία σωμάτων κειμένων (corpus linguistics) αποτελεί μια μεθοδολογία που στοχεύει στην εμπειρική μελέτη της γλώσσας, κάνοντας εκτεταμένη χρήση των ηλεκτρονικών υπολογιστών, που επιτρέπουν την αποθήκευση, την ταχύτατη ανάκληση και την επεξεργασία τεράστιου όγκου γλωσσικών πληροφοριών. Οι δυνατότητες αυτές του ηλεκτρονικού μέσου επέτρεψαν τη δημιουργία των σωμάτων κειμένων (corpora), συλλογών τεράστιου αριθμού αυθεντικών κειμένων, αποθηκευμένων σε ηλεκτρονική μορφή, επεξεργάσιμων και προσπελάσιμων με υπολογιστικά εργαλεία. Τα σώματα κειμένων διαφορετικά από ό,τι συμβαίνει με άλλες συλλογές ηλεκτρονικών κειμένων (π.χ. Project Gutenberg, American Rhetoric, the Library of Congress), συγκροτούνται σύμφωνα με κριτήρια και αρχές, για να εξυπηρετήσουν συγκεκριμένους ερευνητικούς σκοπούς. Η χρήση τους υπήρξε αποφασιστική για την πρόοδο της σύγχρονης γλωσσολογίας, καθώς επέτρεψε την ποσοτική ανάλυση και μέσω αυτής την ποιοτική ερμηνεία μεγάλου όγκου γλωσσικών δεδομένων (Sinclair 1991· McEnery, Xiao and Tono 2006). Οι εφαρμογές της εκτείνονται από τη λεξικογραφία, τη συγγραφή γραμματικών και τη μετάφραση έως τη διδασκαλία της γλώσσας, τις κοινωνιογλωσσολογικές και πραγματολογικές μελέτες κ.ά. (Hunston 2002· Bowker & Pearson 2002· Baker κ.ά. 2006).

Στόχοι του κεφαλαίου είναι:

• να παρουσιάσουμε τις βασικές αρχές συγκρότησης των σωμάτων κειμένων, • να περιγράψουμε τα διαφορετικά είδη σωμάτων κειμένων και τις χρήσεις τους στους διάφορους

τομείς της εφαρμοσμένης γλωσσολογικής έρευνας, • να εξοικειωθούμε με τα βασικά εργαλεία που χρησιμοποιούνται για την προσπέλαση και

ανάλυσή τους, • να εξερευνήσουμε τις πολλαπλές δυνατότητες αναζήτησης σε αυτά, και τέλος • να περιγράψουμε μια ενδεικτική μεθοδολογία ανάγνωσης και ερμηνείας των αποτελεσμάτων

που ανασύρονται από αυτά.

4.1 Αρχές συγκρότησης των σωμάτων κειμένων Όταν ανατρέχουμε σε ένα σώμα κειμένων, θα πρέπει να γνωρίζουμε τις ακόλουθες βασικές αρχές συγκρότησής του και το μέγεθός του, έτσι ώστε να μπορούμε να εξάγουμε ασφαλή συμπεράσματα σχετικά με τα ερευνητικά ερωτήματα που θέτουμε στο πλαίσιο μιας γλωσσικής μελέτης. Οι πληροφορίες αυτές εμφανίζονται στους ιστότοπους των σωμάτων κειμένων με τους τίτλους Πληροφορίες, About κτλ.

Αντιπροσωπευτικότητα (representativeness): Σε μια νεκρή γλώσσα (π.χ. λατινική, αρχαία ελληνική) ή στην υπογλώσσα ενός πολύ ειδικού πεδίου (π.χ. τηλεφωνικές συνδιαλέξεις με τηλεφωνικό κέντρο), ένα σώμα κειμένων είναι εφικτό να αποτελεί ένα πλήρες αρχείο όλων των μαρτυριών της γλώσσας αυτής ή του πεδίου αυτού. Αντίθετα, ένα σώμα κειμένων μιας ζωντανής γλώσσας δεν μπορεί παρά να είναι αναγκαστικά ένα υποσύνολο, ένα δείγμα των επικοινωνιακών πράξεων αυτής της γλώσσας. Ως δείγμα, το σώμα κειμένων, πρέπει να αντανακλά με πληρότητα και, υπό την έννοια αυτή, να αντιπροσωπεύει επαρκώς το ευρύτερο σύνολο των γλωσσικών φαινομένων μιας γλώσσας. Σύμφωνα με τον Leech (1991: 27), ένα σώμα κειμένων θεωρείται αντιπροσωπευτικό δείγμα μιας γλώσσας όταν τα ευρήματα που βασίζονται στο περιεχόμενό του μπορούν να γενικευτούν για το σύνολο της γλώσσας αυτής.

Ισορροπία (balance): Για να αποτελεί ένα σώμα κειμένων αντιπροσωπευτικό και ισορροπημένο δείγμα του συνολικού πληθυσμού των κειμένων που παράγονται στην υπό μελέτη γλώσσα, πρέπει να συμπεριλαμβάνει μέσω ποικίλων τεχνικών δειγματοληψίας (Biber 1993) όσον το δυνατόν ευρύτερη ποικιλία,

Page 2: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

2

ή ακόμη και το πλήρες εύρος, των κειμενικών ειδών αυτής της γλώσσας σε αναλογίες που εξασφαλίζουν τη «σχετική» ισορροπία μεταξύ τους.

Η συγκρότηση ενός αντιπροσωπευτικού και ισορροπημένου σώματος κειμένων στην πράξη αποτελεί μια αρκετά δύσκολη διαδικασία για τους εξής λόγους (Atkins & Rundell 2008: 63-66):

• Οι περισσότερες επικοινωνιακές πράξεις αφορούν τον προφορικό και όχι τον γραπτό λόγο. Στην πλειονότητά τους, όμως, τα σώματα κειμένων περιλαμβάνουν μικρότερο ποσοστό προφορικών κειμένων ή συχνά δεν περιλαμβάνουν καθόλου προφορικά κείμενα, λόγω της δυσκολίας που χαρακτηρίζει τη συγκέντρωση αλλά και τη μεταγραφή του προφορικού υλικού.

• Υπάρχουν πάρα πολλές εφημερίδες που εκδίδονται καθημερινά και των οποίων το υλικό είναι πιο εύκολα προσβάσιμο. Για τους λόγους αυτούς, πολλά σώματα κειμένων περιλαμβάνουν έναν δυσανάλογα μεγάλο αριθμό εφημερίδων σε σχέση με άλλα κείμενα, γεγονός που επηρεάζει την αντιπροσωπευτικότητα και την ισορροπημένη κατανομή του υλικού τους.

• Νέα κειμενικά είδη που συνδέονται αποκλειστικά με τη χρήση του διαδικτύου και εμφανίστηκαν την τελευταία δεκαετία (π.χ. chatrooms, κοινωνικά δίκτυα, ιστολόγια) απουσιάζουν εντελώς από σώματα κειμένων που συγκροτήθηκαν πριν από το 2000.

4.1.1 Είδη σωμάτων κειμένων Υπάρχουν πολλά και διαφορετικά είδη σωμάτων κειμένων, που μπορούν να χρησιμοποιηθούν σε διαφορετικά είδη γλωσσικής ανάλυσης και σε ποικίλες εφαρμογές (Kennedy 1998∙ Aston and Bernard 1998∙ McEnery & Hardie 2012). Τα σώματα κειμένων διαφέρουν μεταξύ τους ανάλογα με το εύρος της γλωσσικής και κειμενικής ποικιλίας, τη δυνατότητα ανανέωσης του υλικού τους, τον αριθμό των γλωσσών και τη χρονική κάλυψη των κειμένων που περιλαμβάνουν. Επίσης, διαφέρουν ανάλογα με τον αν εμπλουτίζονται ή όχι με συμπληρωματικές γλωσσικές ή πραγματολογικές πληροφορίες.

Στη συνέχεια, θα περιγράψουμε τα διαφορετικά είδη σωμάτων κειμένων, εστιάζοντας σε αυτά που είναι διαθέσιμα στο διαδίκτυο (δωρεάν ή με συνδρομή) (βλ. επίσης Lee 2010), και θα συζητήσουμε τις βασικές έννοιες και τους προβληματισμούς που συνδέονται με τη συγκρότησή τους, με στόχο να γίνουν σαφέστεροι οι τρόποι χρήσης και αξιοποίησής τους στα διαφορετικά πεδία των γλωσσικών ερευνών και εφαρμογών.

4.1.1.1 Γενικά και εξειδικευμένα σώματα κειμένων Ανάλογα με το εύρος των κειμενικών ειδών που περιλαμβάνουν, τα σώματα κειμένων διακρίνονται σε γενικά (general language corpora) και σε εξειδικευμένα (specialised corpora).

Τα γενικά σώματα κειμένων συγκροτούνται για να αποτελέσουν τη βάση για γλωσσικές έρευνες που αφορούν το σύνολο μιας γλώσσας (π.χ. της αγγλικής, της ελληνικής, της γαλλικής) ή μιας γεωγραφικής γλωσσικής ποικιλίας (π.χ. της βρετανικής αγγλικής, της αμερικανικής αγγλικής).

Ένα γενικό σώμα κειμένων που σχεδιάζεται για να είναι αντιπροσωπευτικό των επικοινωνιακών πράξεων της υπό μελέτη γλώσσας ή γλωσσικής ποικιλίας περιλαμβάνει συνήθως: α) ένα ευρύ φάσμα γενικών κειμενικών ειδών (π.χ. τύπο, λογοτεχνία, θρησκεία, ιδιωτικά κείμενα, ακαδημαϊκό λόγο) και ειδικότερων κειμενικών ειδών τόσο από τον γραπτό λόγο (π.χ. για τα λογοτεχνικά είδη: ιστορίες μυστηρίου, επιστημονικής φαντασίας, γουέστερν, χιούμορ, αισθηματικά) όσο από τον προφορικό λόγο (π.χ. ειδήσεις, ομιλίες, διαλέξεις, συνεντεύξεις, συνομιλίες), β) ποικιλία θεματικών πεδίων, και γ) ποικιλία μέσων δημοσίευσης (π.χ. ραδιόφωνο, τηλεόραση, εφημερίδα, περιοδικό, βιβλίο ηλεκτρονικό, ζωντανό). Αυτά τα κριτήρια κατηγοριοποίησης των κειμένων μπορούν να αξιοποιηθούν δυναμικά στο πλαίσιο ενός γενικού σώματος κειμένων για τη δημιουργία υπο-σωμάτων (π.χ. σώμα προφορικών δεδομένων, σώμα κειμένων ακαδημαϊκού λόγου κ.ά.).

Τέτοιες συλλογές κειμένων αναλύουν οι γλωσσολόγοι όταν ψάχνουν απαντήσεις σε ερωτήματα που αφορούν γενικά το λεξιλόγιο και τη γραμματική του γραπτού και του προφορικού λόγου σε μια γλώσσα, πολλές φορές με στόχο την ανάπτυξη γραμματικών, λεξικών, θησαυρών και άλλων γλωσσικών εργαλείων αναφοράς. Για παράδειγμα:

• Τι γράφουν ή τι λένε πιο συχνά οι Αμερικανοί: “in certain circumstances” ή “under certain circumstances”; Οι Άγγλοι χρησιμοποιούν την ίδια δομή;

Page 3: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

3

• Ποιες είναι οι σημασίες της λέξης «μήτρα» στα ελληνικά; Χρησιμοποιείται η συγκεκριμένη λέξη πιο συχνά σε κείμενα γενικής γλώσσας ή είναι συχνότερη σε εξειδικευμένα κείμενα και σε ποια γνωστικά πεδία;

• Οι λέξεις «ανοιχτός» και «ανοικτός» είναι παράλληλοι τύποι που εναλλάσσονται ελεύθερα στον λόγο ή μήπως η χρήση τους καθορίζεται από υφολογικούς ή άλλους γλωσσικούς περιορισμούς; Τι μας αποκαλύπτει το γειτονικό περιβάλλον των δύο λέξεων για αυτό;

Τα γενικά σώματα κειμένων αναφέρονται συχνά και ως σώματα κειμένων αναφοράς (reference corpora), επειδή χρησιμοποιούνται ως βάση συγκριτικών μελετών που έχουν προηγουμένως διεξαχθεί σε μικρότερες σε μέγεθος και πιο περιορισμένες σε κειμενικό εύρος συλλογές (Βaker et al. 2006). Ένα σώμα κειμένων αναφοράς μπορεί, για παράδειγμα, να επιβεβαιώσει ή να ανατρέψει την αρχική υπόθεση ότι η λέξη «διαδίκτυο» δεν είναι συχνή μόνο σε γραπτά κείμενα του πεδίου της πληροφορικής αλλά και σε πλήθος άλλων γραπτών και προφορικών κειμένων, και άρα πρόκειται για όρο που έχει πλέον εισαχθεί στο γενικό λεξιλόγιο της γλώσσας.

Μελέτη περίπτωσης: British National Corpus: Ένα πρότυπο γενικό σώμα αναφοράς To British National Corpus (BNC) είναι ένα γενικό σώμα κειμένων αναφοράς για τα βρετανικά αγγλικά. Θεωρείται το πιο σημαντικό και δημοφιλές σώμα κειμένων, στο οποίο έχουν στηριχθεί οι περισσότερες γλωσσικές μελέτες της αγγλικής αλλά και πλήθος διαγλωσσικών συγκριτικών μελετών. Οι αρχές συγκρότησης του BNC, κυρίως σε ό,τι αφορά τις μεθόδους και τα κριτήρια δειγματοληψίας του κειμενικού υλικού, αποτέλεσαν πρότυπο αναφοράς για την κατάρτιση εθνικών σωμάτων κειμένων σε πολλές γλώσσες παγκοσμίως.

Περιλαμβάνει περίπου 100 εκατομμύρια λέξεις από μεικτά δεδομένα, εκ των οποίων το 90% είναι γραπτά κείμενα και το 10% μεταγραμμένα προφορικά δεδομένα. Το BNC είναι ένα στατικό (static corpus), δηλαδή σταθερό ως προς το μέγεθος σώμα κειμένων, υπό την έννοια ότι περιλαμβάνει κειμενικά δείγματα μιας συγκεκριμένης χρονικής περιόδου (1980-1993) χωρίς ανανέωση του κειμενικού του υλικού από τότε. Τα γραπτά κείμενα είναι κατηγοριοποιημένα με βάση τον γνωστικό τομέα, τον χρόνο παραγωγής και το μέσο δημοσίευσης. Τα προφορικά δεδομένα περιλαμβάνουν ανεπίσημες συνομιλίες εθελοντών, που επελέγησαν με βάση την ηλικία, το φύλο, την κοινωνική τάξη και τη γεωγραφική περιοχή, και πιο επίσημες συνομιλίες, όπως συναντήσεις, διαλέξεις και ραδιοφωνικές εκπομπές. Το κειμενικό υλικό του BNC είναι εμπλουτισμένο με γλωσσικούς χαρακτηρισμούς (π.χ. αναγνώριση λημμάτων, γραμματικών κατηγοριών κ.ά.).

Σήμερα το BNC είναι ελεύθερα διαθέσιμο για γλωσσική έρευνα μέσω διαφόρων διαδικτυακών διεπαφών:

• Simple Search from the British Library: Ελεύθερη πρόσβαση αλλά περιορισμένα αποτελέσματα και απλοϊκή διεπαφή.

• BYU-BNC (BrighamYoung University): Ελεύθερη πρόσβαση, εξελιγμένη διεπαφή με πολλές δυνατότητες αναζήτησης και ανάλυσης των δεδομένων.

• Sketch Engine: Ελεύθερη δοκιμή διάρκειας 30 ημερών με εγγραφή, εξελιγμένη διεπαφή με πολλές δυνατότητες αναζήτησης και ανάλυσης των δεδομένων.

• Phrases in English: Ελεύθερη πρόσβαση, διεπαφή με ποικίλες δυνατότητες για την αναζήτηση συμφράσεων και φράσεων (με μέγιστο μήκος τις 8 λέξεις).

• Just The Word (JTW): Υποσύνολο του BNC, 80 χιλιάδων λέξεων, προσπελάσιμο με φιλική διεπαφή για παρουσίαση λεξικών συνάψεων. Ο ιστότοπος είναι ιδιαίτερα δημοφιλής σε ξένους μαθητές της αγγλικής.

• BNC Baby: Μίνι έκδοση του γενικού σώματος, 4 εκατομμυρίων λέξεων, με κείμενα από τέσσερις κειμενικές ποικιλίες: ακαδημαϊκό λόγο, λογοτεχνία, εφημερίδες και προφορικές συνομιλίες. Είναι ελεύθερα διαθέσιμο σε καταφορτώσιμη μορφή.

• BNC Sampler: Υποσύνολο 2 εκατομμυρίων λέξεων, με κείμενα από γραπτό και προφορικό λόγο του 1 εκατομμυρίου για το κάθε είδος. Προσπελάσιμο από τη διαδικτυακή διεπαφή του Πανεπιστημίου του Lancaster.

Page 4: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

4

Μελέτη περίπτωσης: Τα σώματα κειμένων στη λεξικογραφία Ένα σώμα κειμένων 100 εκατομμυρίων λέξεων προσφέρει επαρκείς ενδείξεις για τις τυπικές χρήσεις των λέξεων, όχι όμως και για τις σπάνιες, αφού οι λέξεις με πάρα πολύ μεγάλη συχνότητα εμφάνισης στα κείμενα είναι πολύ λίγες (λ.χ. οι 100 πιο συχνές λέξεις συνιστούν το 45% των λέξεων ενός σώματος κειμένων 100 εκατομμυρίων λέξεων όπως το BNC). Αν σκεφτούμε ότι ένα λεξικογραφικό σώμα κειμένων θα πρέπει να υποστηρίξει τη δημιουργία ενός λεξικού 70-80 χιλιάδων λημμάτων, είναι φανερό ότι το μέγεθός του θα πρέπει να είναι πολύ μεγάλο (άνω των 100 εκατομμυρίων λέξεων), έτσι ώστε να περιγράφει επαρκώς τις σημαντικότερες γλωσσικές ποικιλίες μιας γλώσσας, αλλά και τις λέξεις με μικρή συχνότητα εμφάνισης.

Αν και το πρώτο σώμα κειμένων για λεξικογραφική χρήση περιλάμβανε μόλις 7,3 εκατομμύρια λέξεις -πρόκειται για το λεξικό εκμάθησης της αγγλικής Collins COBUILD-, σήμερα τα αντίστοιχα σώματα κειμένων περιλαμβάνουν χιλιάδες εκατομμύρια ή δισεκατομμύρια λέξεις, π.χ. Bank of English Corpus (BEC): 650 εκατομμύρια λέξεις, Oxford English Corpus (OEC): 2.5 δισεκατομμύρια λέξεις, Cambridge English Corpus (CEC). Αυτά τα σώματα κειμένων συνήθως είναι διαθέσιμα με συνδρομή ή δωρεάν μόνον σε ερευνητικές ομάδες.

Η χρήση μεγάλων σωμάτων κειμένων επέφερε σημαντικές αλλαγές στη σύγχρονη λεξικογραφική πρακτική, που μπορούν να συνοψιστούν στις εξής:

• Η δυνατότητα μέτρησης της συχνότητας εμφάνισης των λέξεων στα σώματα κειμένων επιτρέπει στους λεξικογράφους να καταρτίσουν το λημματολόγιο του λεξικού με βάση τις «πραγματικές» εμφανίσεις των λέξεων στα κείμενα, να αποκλείσουν από αυτό λέξεις με χαμηλή συχνότητα εμφάνισης ως σπάνιες, ή να τις συμπεριλάβουν ανάλογα αποδίδοντάς τους συγκεκριμένο χαρακτηρισμό. Παράλληλα, η εμφανής δήλωση στο λεξικό της συχνότητας εμφάνισης ενός λήμματος αξιοποιείται άμεσα προς όφελος του μαθητή στη διδασκαλία του λεξιλογίου. Επίσης, πολλά σύγχρονα λεξικά αξιοποιούν την πληροφορία της συχνότητας, για να διευκολύνουν τον χρήστη στην αναζήτηση σημασιών, προτάσσοντας συστηματικά τις συχνότερες στις εγγραφές των λημμάτων.

• Με τη χρήση των σωμάτων κειμένων καθίσταται δυνατή η λεπτομερής ανάλυση και καταγραφή τεμαχίων μεγαλύτερων της λέξης (π.χ. λεξικών συνάψεων, πολυλεκτικών συνθέτων, εκφράσεων κτλ.). Έτσι, τα λεξικά που βασίζονται σε σώματα κειμένων περιλαμβάνουν πλουσιότερο και ποιοτικότερο υλικό για την περιγραφή αυτών των πολυλεκτικών σχηματισμών σε σύγκριση με τα παραδοσιακά λεξικά.

• Η αναβάθμιση του ρόλου των ορισμών και των παραδειγμάτων συνδέεται επίσης με τη χρήση των σωμάτων κειμένων. Ο ορισμός από απλός φορέας σημασιολογικής πληροφορίας προάγεται σε βασική πολυδύναμη οντότητα της λεξικογραφικής εγγραφής για τη μεταφορά τόσο συντακτικής όσο και γραμματικής πληροφορίας. Χαρακτηριστική εφαρμογή αποτελούν οι ορισμοί με πλήρεις προτάσεις, που καθιερώθηκαν από τα λεξικά της αγγλικής Collins COBUILD. Ταυτόχρονα, το ίδιο ισχύει και για τα παραδείγματα, που από απλή επέκταση ή διευκρίνιση της σημασίας ή της συντακτικής δομής μιας λέξης, αναβαθμίζονται σε φορέα ποικιλίας πληροφοριών για τη χρήση της σε αυθεντικά κείμενα.

Τα εξειδικευμένα σώματα κειμένων συγκροτούνται με στόχο τη μελέτη της γλώσσας σε ειδικές κειμενικές ποικιλίες ή είδη λόγου (π.χ. επιστημονικού, ακαδημαϊκού κ.ά.). Ως εκ τούτου, δεν αντιπροσωπεύουν τη χρήση της γενικής γλώσσας, αλλά παρουσιάζουν σε υψηλή συχνότητα γλωσσικά φαινόμενα που απαντούν σπανιότερα ή απουσιάζουν από τα γενικά σώματα κειμένων.

Τα σώματα αυτά είναι συνήθως μικρότερα σε μέγεθος από τα γενικά σώματα κειμένων ακριβώς λόγω της εστίασής τους σε συγκεκριμένα κειμενικά είδη ή γνωστικά πεδία. Ωστόσο, αυτό δεν αποτελεί ιδιαίτερο πρόβλημα, καθώς η ομοιογένεια των κειμένων που απαρτίζουν τη συλλογή είναι αυτή που εξασφαλίζει την αντιπροσωπευτικότητά της, και όχι το συνολικό της μέγεθος, που μπορεί να κυμαίνεται από 500 χιλιάδες έως και 5 εκατομμύρια λέξεις. Επίσης, ποσοτικές παράμετροι, όπως ο αριθμός των λέξεων (π.χ. περίπου 1.000 λέξεις) ανά κειμενικό δείγμα και ο αριθμός των αρχείων (π.χ. περίπου 10-15 αρχεία) ανά κειμενικό είδος, φαίνεται ότι διαμορφώνουν καθοριστικά την αντιπροσωπευτικότητα ενός σώματος κειμένων, καθώς επιτρέπουν την ομοιόμορφη αντιπροσώπευση πολλών και διαφορετικής συχνότητας χαρακτηριστικών (Bowker & Pearson 2002∙ Biber 1993).

Page 5: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

5

Η ευρεία χρήση των σωμάτων κειμένων ως αναπόσπαστων εργαλείων γλωσσικής ανάλυσης όχι μόνον στον τομέα της γλωσσολογίας αλλά και σε άλλα πεδία της εφαρμοσμένης έρευνας, όπως στη μετάφραση ή στη διδασκαλία της γλώσσας, σε συνδυασμό με την εύκολη πρόσβαση στον τεράστιο όγκο δεδομένων που προσφέρει το διαδίκτυο, οδήγησε στην ανάπτυξη εύχρηστων εφαρμογών που υποστηρίζουν τη δημιουργία εξειδικευμένων σωμάτων κειμένων για προσωπική χρήση ή για περιορισμένης κλίμακας ερευνητικές μελέτες.

Μελέτη περίπτωσης: Πώς να σχεδιάσετε τα δικά σας εξειδικευμένα σώματα κειμένων σε ένα γνωστικό πεδίο

Πριν ξεκινήσετε να σχεδιάσετε ένα σώμα κειμένων, θα πρέπει να προσδιορίσετε με ακρίβεια τους στόχους της έρευνας ή της εφαρμογής. Μπορείτε να ακολουθήσετε τις ακόλουθες οδηγίες, όπως περιγράφονται από τις Bowker & Pearson (2002: 54) για τον αρχικό σχεδιασμό:

• Μέγεθος: 25 χιλιάδες λέξεις, με πρόβλεψη για επέκταση. • Αριθμός κειμένων: Τουλάχιστον 20 κείμενα από διαφορετικούς συγγραφείς. • Γνωστικό πεδίο: Το πεδίο που σας ενδιαφέρει. • Κειμενικό είδος: Εισαγωγικά κείμενα για αρχή, κατά προτίμηση γραπτά. • Δημιουργός/συγγραφέας: Κείμενα που έχουν γραφτεί από ειδικούς του πεδίου, κατά

προτίμηση από φυσικούς ομιλητές. • Γλώσσα: Η γλώσσα στην οποία θα διεξαχθεί η μελέτη. • Ημερομηνία έκδοσης: Σχετικά πρόσφατα κείμενα (π.χ. της τελευταίας τριετίας).

Παραδείγματα εξειδικευμένων σωμάτων κειμένων Εκτός από τα εξειδικευμένα σώματα κειμένων σε συγκεκριμένα γνωστικά πεδία, που στόχο έχουν την περιγραφή της αντίστοιχης υπογλώσσας και της ορολογίας της, σημαντικά και δημοφιλή σώματα κειμένων έχουν αναπτυχθεί στους παρακάτω τομείς: Μελέτη του ακαδημαϊκού λόγου - Σώματα ακαδημαϊκών κειμένων (academic corpora):

• Michigan Corpus of Academic Spoken English (MICASE, 1.8 εκατομμύρια λέξεις): Συλλογή από μεταγραμμένα προφορικά δεδομένα ακαδημαϊκών ομιλιών και συνομιλιών στα αμερικανικά αγγλικά σε ποικίλα γνωστικά πεδία, από το Πανεπιστήμιο του Michigan, ελεύθερα διαθέσιμη μέσω διαδικτυακής διεπαφής.

• British Academic Spoken English Corpus (BASE, 1.6 εκατομμύρια λέξεις): Σώμα προφορικών κειμένων ακαδημαϊκού λόγου στα βρετανικά αγγλικά, που συγκροτήθηκε κατά το πρότυπο του MICASE. Ελεύθερα διαθέσιμο μέσω της διεπαφής του Sketch Engine.

• British Academic Written English Corpus (BAWE, 7 εκατομμύρια λέξεις): Σώμα γραπτών κειμένων ακαδημαϊκού λόγου στα βρετανικά αγγλικά, γλωσσικά επισημειωμένο. Ελεύθερα διαθέσιμο μέσω της διεπαφής του Sketch Engine.

Κατάκτηση της μητρικής γλώσσας – Αναπτυξιακά σώματα κειμένων (developmental language corpora): • CHILDES database: Συνομιλίες παιδιών σε διάφορες ηλικίες και προσπέλαση μέσω διαδικτυακής

διεπαφής. • LUCY: Γραπτές εργασίες εφήβων και παιδιών στα βρετανικά αγγλικά, για συγκριτικές έρευνες με

γραπτά μη φυσικών ομιλητών. Διατίθεται σε καταφορτώσιμη μορφή χωρίς ενσωματωμένο εργαλείο αναζήτησης.

• Louvain Corpus of Native English Essays (LOCNESS, 324 χιλιάδες λέξεις): Γραπτά δοκίμια Βρετανών και Αμερικανών φοιτητών, για συγκριτικές μελέτες με αντίστοιχα σώματα κειμένων μη φυσικών ομιλητών, όπως το International Corpus of Learner English.

Εκμάθηση της αγγλικής ως ξένης γλώσσας – Σώματα κειμένων εκμάθησης ξένης γλώσσας (learner corpora): Τα σώματα κειμένων εκμάθησης είναι ιδιαίτερα χρήσιμα, καθώς βοηθούν στην ανάλυση και μελέτη των συνηθισμένων λαθών και της χρήσης συγκεκριμένου λεξιλογίου ή των γραμματικών και συντακτικών δομών από τους μαθητές μιας ξένης γλώσσας. Συνηθισμένες είναι οι συγκριτικές έρευνες σε σώματα κειμένων εκμάθησης και σε σώματα κειμένων φυσικών ομιλητών.

• International Corpus of Learner English (ICLE, 3.7 εκατομμύρια λέξεις): Γραπτά δοκίμια μαθητών της αγγλικής, μέσου και προχωρημένου επιπέδου, διαθέσιμο σε έντυπη μορφή και CD επί πληρωμή.

Page 6: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

6

• International Corpus of Cross linguistic Interlanguage (ICCI): Σύντομα γραπτά δοκίμια μαθητών της αγγλικής, αρχικού και μέσου επιπέδου,α πό οκτώ διαφορετικές χώρες. Δωρεάν πρόσβαση με εγγραφή.

• Learner Corpus of English for Business Communication (LCEBC, 118 χιλιάδες λέξεις): Ποικίλα είδη επαγγελματικής αλληλογραφίας, ελεύθερη πρόσβαση μέσω διαδικτυακής διεπαφής.

• Διαβάστε εδώ έναν ενημερωμένο κατάλογο με σώματα κειμένων εκμάθησης ξένης γλώσσας. • Δείτε εδώ πώς μπορείτε να δημιουργήσετε τα δικά σας σώματα κειμένων εκμάθησης ξένης γλώσσας!

4.1.1.2 Στατικά και δυναμικά σώματα κειμένων Ανάλογα με τον αν παραμένουν σταθερά ως προς το μέγεθός τους από τη στιγμή της συγκρότησή τους ή αν ανανεώνονται συστηματικά, τα σώματα κειμένων διακρίνονται σε στατικά (static corpora) και σε δυναμικά (dynamic corpora) αντίστοιχα. Τα δυναμικά σώματα κειμένων είναι εξαιρετικά χρήσιμα, καθώς επιτρέπουν τον έλεγχο και την παρακολούθηση πρόσφατων γλωσσικών αλλαγών, δηλαδή αλλαγών «στο πρόσφατο παρελθόν που αφορούν την τρέχουσα γλώσσα» (Aarts κ.ά. 2013), γι’ αυτό και συχνά αναφέρονται ως σώματα ελέγχου ή σώματα παρακολούθησης (monitor corpora). Τα δυναμικά σώματα κειμένων, διαφορετικά από ό,τι συμβαίνει με τα διαχρονικά σώματα κειμένων (§ 4.1.1.3), περιλαμβάνουν κείμενα από την τρέχουσα γλώσσα, καλύπτοντας συνήθως μια χρονική περίοδο των τελευταίων 30 έως 40 χρόνων. Παραδείγματα δυναμικών σωμάτων κειμένων • The Open American National Corpus (OANC): Περιέχει περίπου 15 εκατομμύρια λέξεις από όλα σχεδόν τα

κειμενικά είδη του γραπτού λόγου και μεταγραμμένα προφορικά δεδομένα, από το 1990 μέχρι σήμερα. Εκτός από το αρχικό βασικό σώμα κειμένων, περιλαμβάνει και ένα δυναμικό υποσύνολο, που ανανεώνεται κατά τακτά χρονικά διαστήματα. Είναι ελεύθερα διαθέσιμο σε μορφή αρχείων, χωρίς όμως να συνοδεύεται από κάποιο εργαλείο ή διεπαφή προσπέλασης.

• The Corpus of Contemporary American English (COCA): Περιέχει 400 εκατομμύρια λέξεις από το 1990-2012 και είναι το πρώτο μεγάλο σε μέγεθος και ισορροπημένο ως προς τις κειμενικές ποικιλίες σώμα κειμένων της αμερικανικής αγγλικής. Ο σχεδιασμός του επιτρέπει την ανανέωσή του σχεδόν ετησίως κατά 20 εκατομμύρια λέξεις, ισάριθμα κατανεμημένες στα διάφορα κειμενικά είδη, ώστε να μη διαταράσσεται η μεταξύ τους ισορροπία και έτσι να μπορεί να αποτελεί ένα αξιόπιστο μοντέλο καταγραφής των γλωσσικών αλλαγών (Davies 2010). Είναι προσπελάσιμο μέσω της διαδικτυακής διεπαφής Corpus BYU.

4.1.1.3 Ιστορικά και διαχρονικά σώματα κειμένων Ένα ιστορικό σώμα κειμένων (historical corpus) αποτελείται από κείμενα μίας ή περισσότερων χρονικών περιόδων του απώτερου ή πρόσφατου παρελθόντος (π.χ. των τελευταίων 100 χρόνων). Ενώ πολλά ιστορικά σώματα περιλαμβάνουν μόνο κείμενα από μία μόνο προγενέστερη χρονική περίοδο, ένα είδος τους, που ονομάζεται διαχρονικό (diachronic corpus), περιλαμβάνει κείμενα από διαφορετικές χρονικές περιόδους. Τα ιστορικά σώματα κειμένων χρησιμοποιούνται κατά βάση για τη μελέτη γλωσσικών φαινομένων μιας ιστορικής περιόδου, ενώ τα διαχρονικά παρακολουθούν τις γλωσσικές αλλαγές που πραγματοποιούνται σε διαφορετικές χρονικές περιόδους. Παραδείγματα διαχρονικών σωμάτων κειμένων Για την αγγλική, έχουν δημιουργηθεί πολλά ιστορικά και διαχρονικά σώματα κειμένων για διαφορετικές χρονικές περιόδους (παλιά, μέση, πρώιμη σύγχρονη, μεταγενέστερη σύγχρονη έως σήμερα), για ποικιλία κειμενικών ειδών και για διαφορετικές γεωγραφικές ποικιλίες. Χαρακτηριστικά παραδείγματα διαχρονικών σωμάτων κειμένων αποτελούν: • Τhe Helsinki Corpus of English: Περιέχει 1,5 εκατομμύριο λέξεις από ποικιλία κειμενικών ειδών της περιόδου 750

έως 1700. Καθώς διατρέχει την παλαιά, μέση και πρώιμη σύγχρονη περίοδο της βρετανικής αγγλικής είναι πολύ χρήσιμο για τη μελέτη γλωσσικών αλλαγών που αφορούν τις απώτερες μέχρι τις νεώτερες ιστορικές περιόδους. Ελεύθερα προσπελάσιμο διαδικτυακά με απλή εγγραφή εδώ.

• Α Representative Corpus of Historical English Registers (ARCHER): Περιέχει 1,8 εκατομμύριο λέξεις από ποικιλία

Page 7: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

7

κειμενικών ειδών που εκτείνονται σε όλες τις περιόδους της αγγλικής (βρετανικής και αμερικανικής) από την πρώιμη περίοδο μέχρι το 2013. Διαιρείται σε υπο-σώματα κειμένων που εκτείνεται σε κείμενα των 50 χρόνων το καθένα για να διευκολύνονται οι συγκρίσεις. . Ελεύθερα προσπελάσιμο διαδικτυακά με απλή εγγραφή εδώ.

• Το Corpus of Historical Corpus of English (COHA): Είναι το μεγαλύτερο διαχρονικό σώμα κειμένων με περισσότερα από 400 εκατομμύρια λέξεις, για την παρακολούθηση γλωσσικών αλλαγών στην αμερικανική αγγλική. Περιλαμβάνει κείμενα της περιόδου 1810 έως 2009 με μια ισορροπημένη κατανομή των κειμενικών ειδών (λογοτεχνία, περιοδικά εφημερίδες και ακαδημαϊκά κείμενα) ανά δεκαετία. Είναι ελεύθερα προσβάσιμο από το Corpus BYU.

Για πρόσβαση και σε άλλα ιστορικά και διαχρονικά σώματα κειμένων, επισκεφτείτε τη διαδικτυακή διεπαφή στο Πανεπιστήμιο του Lancaster.

4.1.1.4 Πολύγλωσσα σώματα κειμένων Ανάλογα με τον αριθμό των γλωσσών που περιλαμβάνουν, τα σώματα κειμένων διακρίνονται σε μονόγλωσσα (monolingual corpora) και πολύγλωσσα (multilingual corpora) ή παράλληλα (parallel corpora) (McEnery & Hardie 2012∙ Baker et al. 2006).

Τα μονόγλωσσα σώματα κειμένων καλύπτουν μόνο μία γλώσσα ή μία γλωσσική ποικιλία ενώ τα παράλληλα σώματα κειμένων περιέχουν κείμενα από διαφορετικές γλώσσες ή γλωσσικές ποικιλίες και διακρίνονται περαιτέρω, ανάλογα με τις τεχνικές δειγματοληψίας που ακολουθούνται για τη συγκρότησή τους, σε συγκρίσιμα σώματα κειμένων (comparable corpora) και μεταφραστικά σώματα κειμένων (translation corpora).

Ένα συγκρίσιμο σώμα κειμένων περιλαμβάνει κείμενα από δύο ή περισσότερες γλώσσες ή γλωσσικές ποικιλίες τα οποία είναι διαφορετικά μεταξύ τους, δηλαδή δεν είναι τα πρωτότυπα κείμενα και οι μεταφράσεις τους, και των οποίων η συγκρισιμότητα έγκειται στο κοινό πλαίσιο δειγματοληψίας που ακολουθείται κατά τη συγκρότησή τους (McEnery & Hardie 2012: 19-20). Για παράδειγμα, συγκρίσιμο σώμα κειμένων θα μπορούσε να θεωρηθεί ένα σώμα λογοτεχνικών κειμένων της αγγλικής και της ελληνικής με κείμενα 100 χιλιάδων λέξεων σε κάθε γλώσσα, που δημοσιεύτηκαν κατά τη χρονική περίοδο 2010-2011.

Παραδείγματα συγκρίσιμων σωμάτων κειμένων

• Το International Corpus of English (ICE), που αποτελείται από 15 επιμέρους σώματα κειμένων, καθένα από τα οποία περιλαμβάνει ένα (1) εκατομμύριο λέξεις σε διαφορετικές γλωσσικές ποικιλίες της αγγλικής (π.χ. Νέας Ζηλανδίας, Ινδίας, Φιλιππίνων, Τζαμάικας, Νιγηρίας κ.ά.). Tα περισσότερα από τα υπο-σώματα κειμένων είναι καταφορτώσιμα.

• Το Lancaster Corpus of Mandarin Chinese (LCMC), περιλαμβάνει κείμενα του 1991, ενός εκατομμυρίου λέξεων και ακολουθεί το πρότυπο δειγματοληψίας του Freiburg-LOB Corpus of British English (FLOB). Είναι κατάλληλο για μονόγλωσση έρευνα στα κινεζικά και για διαγλωσσική έρευνα με το FLOB. Η πρόσβαση στο LCMC είναι ελεύθερη μέσω ειδικής διαδικτυακής διεπαφής.

Τα μεταφραστικά σώματα κειμένων αποτελούν τη δημοφιλέστερη κατηγορία παράλληλων κειμένων. Περιλαμβάνουν κυρίως επίσημα έγγραφα (π.χ. κυβερνητικά ενημερωτικά φυλλάδια, πρακτικά κοινοβουλίων, εκθέσεις διεθνών οργανισμών) και τεχνικά εγχειρίδια, τα οποία αποτελούν και τα συνηθέστερα κειμενικά είδη σε πολύγλωσσες μεταφράσεις. Τα μεταφραστικά σώματα κειμένων χρησιμοποιούνται για περιγραφικές και εμπειρικές μελέτες στo πλαίσιο των μεταφραστικών σπουδών, ως εργαλείο δημιουργίας ασκήσεων και διαγωνισμάτων στη διδασκαλία της μετάφρασης και της ξένης γλώσσας, ως πηγή άντλησης δεδομένων και εμπλουτισμού δίγλωσσων λεξικών, αλλά και συμπληρωματικά ως ένα είδος λεξικού ή γραμματικής. Στα μεταφραστικά σώματα κειμένων πραγματοποιείται στοίχιση των παράλληλων γλωσσικών τμημάτων σε επίπεδο πρότασης ή παραγράφου με ειδικά υπολογιστικά εργαλεία.

Τα μεταφραστικά σώματα κειμένων που αποτελούνται από τα πρωτότυπα κείμενα σε μία γλώσσα Α και τι μεταφράσεις τους σε μία γλώσσα Β ή σε περισσότερες γλώσσες Γ, Δ κ.ο.κ., ονομάζονται μονοκατευθυντικά σώματα κειμένων (unidirectional corpora).

Παραδείγματα μεταφραστικών μονοκατευθυντικών σωμάτων κειμένων Το πιο δημοφιλές μονοκατευθυντικό παράλληλο σώμα κειμένων είναι το Translational English Corpus (TEC), περίπου 10 εκατομμυρίων λέξεων, που περιλαμβάνει μεταφράσεις γραπτών κειμένων στα αγγλικά από

Page 8: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

8

διάφορες ευρωπαϊκές και μη ευρωπαϊκές γλώσσες. Αποτελείται από τα υπο-σώματα της λογοτεχνίας, της βιογραφίας, των ειδήσεων και των περιοδικών αεροπορικών εταιρειών. Είναι προσβάσιμο μέσω ειδικής διεπαφής που μπορεί να εγκατασταθεί τοπικά στον υπολογιστή. Πολλές είναι οι συγκριτικές μελέτες που έχουν στηριχθεί στα μεταφρασμένα κείμενα του TEC και σε σώματα κειμένων φυσικών ομιλητών της αγγλικής (π.χ. το BNC ) (Olohan and Baker 2000, Olohan 2003).

Ωστόσο, συνηθέστερη περίπτωση μεταφραστικών σωμάτων κειμένων αποτελούν τα

αμφικατευθυντικά (bidirectional corpora) και τα πολυκατευθυντικά σώματα κειμένων (multidirectional), που περιλαμβάνουν πρωτότυπα κείμενα στη γλώσσα Α και τις μεταφράσεις τους σε μία ή περισσότερες γλώσσες, αλλά και πρωτότυπα κείμενα στις γλώσσες Β, Γ ή Δ με τις μεταφράσεις τους στις γλώσσες Α, Ε, Ζ κ.ο.κ.

Παραδείγματα μεταφραστικών αμφικατευθυντικών και πολυκατευθυντικών σωμάτων κειμένων

• COMPARA Corpus: Αμφικατευθυντικό σώμα κειμένων 3 εκατομμυρίων λέξεων για το ζεύγος γλωσσών πορτογαλικάαγγλικά. Είναι ελεύθερα προσβάσιμο μέσω διαδικτυακής διεπαφής.

• P-ACTRES Corpus: Αμφικατευθυντικό σώμα κειμένων με περισσότερες από 4 εκατομμύρια λέξεις για το ζεύγος γλωσσών αγγλικάισπανικά. Μόνο ένα υποσύνολο του σώματος κειμένων είναι προσβάσιμο μέσω διαδικτυακής διεπαφής.

Μεταφραστικά θεωρούνται και τα πολύγλωσσα σώματα κειμένων που παράγονται ταυτόχρονα σε πολλές γλώσσες, όπως είναι τα κείμενα διεθνών οργανισμών (π.χ. οργάνων της Ευρωπαϊκής Ένωσης, του ΟΗΕ κ.ά.) (Hunston 2002: 15). Τα κείμενα αυτά είναι συνήθως πολυκατευθυντικά.

• Europarl Corpus: Περιλαμβάνει κείμενα από τα πρακτικά του Ευρωπαϊκού Κοινοβουλίου σε 21 γλώσσες της περιόδου 1996 έως 2011. Η παρούσα έκδοση (7) του Europarl είναι προσπελάσιμη από τη διαδικτυακή διεπαφή του ιστότοπου OPUS, γνωστού για τις ποικίλες συλλογές μεταφραστικών σωμάτων κειμένων.

• Digital Corpus of the European Parliament (DCEP): Περιέχει 1,3 δισεκατομμύριο λέξεις από κείμενα που δημοσιεύονται στον επίσημο ιστότοπο του Ευρωπαϊκού Κοινοβουλίου σε 23 γλώσσες (253 ζεύγη γλωσσών) κατά την περίοδο 2001 έως 2012. Περιλαμβάνει ποικιλία κειμένων (π.χ. ημερήσιες διατάξεις ολομέλειας, δελτία τύπου και αναφορές των επιτροπών του Ευρωπαϊκού Κοινοβουλίου, εσωτερικούς κανονισμούς λειτουργίας, προτάσεις ψηφίσματος των μελών κ.ά.), αλλά όχι τα κείμενα που περιέχονται στο σώμα κειμένων Euro-parl. Είναι ελεύθερα διαθέσιμο σε καταφορτώσιμη μορφή.

• JRC-Acquis Corpus: Περιλαμβάνει το σύνολο της κοινοτικής νομοθεσίας από το 1950 έως σήμερα σε 22 γλώσσες –δεν περιλαμβάνονται οι ιρλανδικές μεταφράσεις. Έχει μέγεθος 1 δισεκατομμύριο λέξεις. Είναι ελεύθερα διαθέσιμο σε καταφορτώσιμη μορφή.

Τα μεταφραστικά σώματα κειμένων μπορούν να υποστηρίξουν διαφορετικά είδη γλωσσικών ερευνών και μεταφραστικών εφαρμογών όπως οι ακόλουθες:

• τη συγκριτική μελέτη γλωσσικών φαινομένων σε κείμενα πρωτότυπα και μεταφρασμένα, • τη μελέτη γλωσσικών φαινομένων μόνο σε πρωτότυπα ή μόνο σε μεταφρασμένα κείμενα, • τη σύγκριση διαφορετικών μεταφράσεων του ίδιου κειμένου, • την εκπαίδευση και βελτίωση συστημάτων στατιστικής μηχανικής μετάφρασης.

Για να διασφαλιστεί η εγκυρότητα των αποτελεσμάτων οποιασδήποτε έρευνας ή αναζήτησης σε

μεταφραστικά σώματα κειμένων, είναι χρήσιμο να γνωρίζoυμε (π.χ. από το σχετικό υλικό τεκμηρίωσης) ποια είναι τα πρωτότυπα κείμενα και ποιες οι μεταφράσεις τους. Ωστόσο, για τα πολυκατευθυντικά σώματα κειμένων συχνά η πληροφορία αυτή δεν παρουσιάζεται με ακρίβεια και σαφήνεια.

Για πρόσβαση σε ποικιλία μεταφραστικών σωμάτων κειμένων, επισκεφτείτε τον ιστότοπο OPUS.

4.1.1.5 Κωδικοποιημένα και γλωσσικά χαρακτηρισμένα σώματα κειμένων Τα σώματα κειμένων συνήθως εμπλουτίζονται στο εσωτερικό τους με τρία είδη πληροφορίας: με τα μεταδεδομένα (metadata), τους κειμενικούς χαρακτηρισμούς (textual annotations) και τους γλωσσικούς

Page 9: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

9

χαρακτηρισμούς ή τις γλωσσικές επισημειώσεις (linguistic annotations) (McEnery and Hardie 2012: 14, 30). Η διαδικασία εμπλουτισμού των κειμένων με μεταδεδομένα και κειμενικούς χαρακτηρισμούς ονομάζεται κωδικοποίηση κειμένων (text encoding) και αποτελεί μαζί με την απόδοση γλωσσικών χαρακτηρισμών το τελευταίο στάδιο κατά τη συγκρότηση σωμάτων κειμένων.

Μεταδεδομένα: Πρόκειται για πληροφορίες που αφορούν το ίδιο το κείμενο. Για παράδειγμα, στην περίπτωση του γραπτού υλικού, τα μεταδεδομένα μπορούν να μας πληροφορήσουν για το ποιος το έγραψε, πότε και σε ποιο μέσοδημοσιεύθηκε, σε ποια γλώσσα είναι γραμμένο, σε ποιο κειμενικό είδος ανήκει κ.ά. Στην περίπτωση του προφορικού υλικού, τα μεταδεδομένα συχνά μπορεί να περιλαμβάνουν λεπτομέρειες σχετικά με το πότε και πού έγινε η ηχογράφηση, αν μια συνομιλία είναι αυθόρμητος καθημερινός λόγος ήεπίσημη ομιλία, πόσα άτομα συνομιλούν, ποια είναι η ηλικία και το φύλο τους, ή ποια είναι η σχέση και ο ρόλος των συνομιλητών (π.χ. μαθητής, καθηγητής, γονιός, παιδί). Τα μεταδεδομένα κωδικοποιούνται είτε μέσα στο κείμενο στην ενότητα πληροφοριών που προηγείται του κειμένου και ονομάζεται κεφαλίδα (header) είτε διατηρούνται σε χωριστό έγγραφο ή σε βάση δεδομένων.

Κειμενικός χαρακτηρισμός: Πρόκειται για διαδικασία μέσω της οποίας εντοπίζονται και επισημαίνονται σε ένα κείμενο στοιχεία της δομής ή/και της μορφοτύπησής του, όπως, για παράδειγμα, τα σημεία στίξης, οι λέξεις, οι προτάσεις, οι παράγραφοι, οι τίτλοι, οι υπότιτλοι σε γραπτά κείμενα, οι πλάγιοι και οι έντονοι χαρακτήρες, ή η αλλαγή ομιλητών σε μια συνομιλία.

Γλωσσικός χαρακτηρισμός: Πρόκειται για διαδικασία κατά την οποία οι λέξεις που έχουν αναγνωριστεί κατά το στάδιο του κειμενικού χαρακτηρισμού επισημειώνονται με ποικίλες γλωσσικές πληροφορίες: α) με το λήμμα, δηλαδή την ουδέτερη μορφή στην οποία ανάγονται όλοι οι κλιτικοί τύποι μιας λέξης (π.χ. οι κλιτικοί τύποι αντιδρούσε, αντιδρά, αντιδράσει ανάγονται στο λήμμα «αντιδράω/ώ»), β) τη γραμματική κατηγορία (π.χ. αν είναι ουσιαστικά, ρήματα, σύνδεσμοι κτλ.), γ) τις συντακτικές δομές (π.χ. αναγνώριση ονοματικών φράσεων, ρηματικών φράσεων, προθετικών φράσεων). Εκτός από μορφοσυντακτικές πληροφορίες τα κείμενα μπορούν να περιλαμβάνουν σημασιολογικούς, πραγματολογικούς, υφολογικούς ή/και κοινωνιογλωσσολογικούς χαρακτηρισμούς.

Η κωδικοποίηση κειμένων και ο γλωσσικός χαρακτηρισμός ολοκληρώνονται συνήθως με υπολογιστικά προγράμματα γλωσσικής ή στατιστικής επεξεργασίας, ή με ημι-αυτόματες διαδικασίες, που συνδυάζουν τη χρήση εργαλείων με τον έλεγχο από ειδικούς.

Τόσο τα μεταδεδομένα όσο και ο κειμενικός σχολιασμός μπορούν να αποβούν πολλαπλώς χρήσιμα κατά τη γλωσσική έρευνα. Για παράδειγμα, ο χρήστης μπορεί μέσω κάποιου εργαλείου αναζήτησης κειμένων να περιορίσει τις αναζητήσεις του σε ένα μόνο κειμενικό είδος (π.χ. κείμενα γνώμης) και μόνο στη δομική ενότητα «τίτλο» των κειμένων, να συγκρίνει τις εμφανίσεις μιας συντακτικής δομής (π.χ. ουσιαστικό + γενική) σε κείμενα επιστημονικά και σε κείμενα λογοτεχνικά, ή ακόμη να συγκρίνει συγκεκριμένες λέξεις ή συντακτικές δομές που μπορεί να διαφοροποιούν τον λόγο γυναικών και αντρών σε αυθόρμητες συνομιλίες.

4.1.1.6 Το διαδίκτυο ως σώμα κειμένων Την εποχή του διαδικτύου με τα αναρίθμητα ηλεκτρονικά αρχεία, που αυξάνονται συνεχώς και σε αριθμό και σε ποικιλία, πολλοί ερευνητές έθεσαν σε αμφισβήτηση την παραδοσιακή διαδικασία συγκρότησης σωμάτων κειμένων (Kilgarriff & Grefenstette 2003∙ Fletcher 2004∙ Atkins & Rundell 2008). Στη θέση των παραδοσιακών πρότειναν νέες μεθοδολογίες συγκρότησης, που εστιάζουν σε έξυπνους τρόπους μαζικής συγκέντρωσης κειμένων από το διαδίκτυο είτε δυναμικά (π.χ. συγκομιδή κειμένων σε πραγματικό χρόνο) είτε στατικά (π.χ. αλίευση κειμένων, εφαρμογή κάποιας αυτόματης επεξεργασίας απομάκρυνσης περιττών πληροφοριών και συγκρότησή τους σε σώμα κειμένων).

Το κρίσιμο ερώτημα σχετικά με το αν «μπορεί το διαδίκτυο να θεωρηθεί σώμα κειμένων;», που συνοδεύει τη νέα προσέγγιση, αποτελεί ένα από τα πιο πολυσυζητημένα στην επιστημονική κοινότητα της γλωσσικής τεχνολογίας και της γλωσσολογίας σωμάτων κειμένων μετά από τη δεκαετία του 2000. Η απάντηση στο ερώτημα αυτό δεν είναι ούτε μονολεκτική ούτε απλή. Στη νέα προσέγγιση ελλοχεύουν προβλήματα, που μπορούν να συνοψιστούν στα ακόλουθα:

• Σε αντίθεση με τα περισσότερα σώματα κειμένων, το διαδίκτυο περιλαμβάνει προσεκτικά επιμελημένα κείμενα αλλά και από εντελώς αφρόντιστα γλωσσικά κείμενα.

• Το διαδίκτυο περιλαμβάνει κείμενα φυσικών ομιλητών αλλά και μεταφράσεις.. • Το υλικό των ιστοσελίδων στην πλειονότητά του αποτελεί μια αδιαφοροποίητη μάζα ως προς

το κειμενικό είδος, το θέμα ή τον συγγραφέα, και ως εκ τούτου τα αποτελέσματα μιας

Page 10: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

10

αναζήτησης στο διαδίκτυο μπορεί να απαιτούν αρκετή επεξεργασία πριν τη μελέτη και την εξαγωγή συμπερασμάτων σχετικά με κάποιο γλωσσικό φαινόμενο.

• Πολλά κείμενα στο διαδίκτυο βρίθουν από γλωσσικά λάθη (π.χ. ορθογραφικά, μορφολογικά, συντακτικά, σημασιολογικά κ.ά.).

Παρ’ όλα αυτά, όπως εύστοχα επισημαίνεται από τους Kilgarriff & Grefenstette (2003: 333), οι επιστήμονες της γλώσσας και οι γλωσσικοί τεχνολόγοι ολοένα και περισσότερο στρέφονται προς το διαδίκτυο ως πηγή γλωσσικών δεδομένων, «επειδή είναι εξαιρετικά μεγάλο, επειδή είναι η μόνη διαθέσιμη πηγή για το είδος της γλώσσας που ερευνούν, ή απλώς επειδή είναι δωρεάν και άμεσα διαθέσιμο.»

Οι χρήστες τέτοιων σωμάτων κειμένων θα πρέπει να είναι ενήμεροι για τα προβλήματα αυτά και για τον «θόρυβο», δηλαδή τις λανθασμένες ενδείξεις, που μπορεί να ανακύψουν κατά την ανάλυση και ερμηνεία των δεδομένων τους.

4.1.2 Σώματα κειμένων της νέας ελληνικής Τα διαθέσιμα ηλεκτρονικά σώματα κειμένων της νέας ελληνικής είναι περιορισμένα σε μέγεθος σε σύγκριση τουλάχιστον με τα αντίστοιχα σώματα κειμένων της αγγλικής. Το καθένα από αυτά έχει διαφορετική οργάνωση σε κειμενική ποικιλία, εκπροσωπεί διαφορετικά είδη λόγου και υποστηρίζεται από διαφορετικά υπολογιστικά εργαλεία. Υπάρχουν σήμερα τρία γενικά σώματα κειμένων και τρία εξειδικευμένα σώματα για την ελληνική γλώσσα, τα οποία είναι όλα διαθέσιμα στο διαδίκτυο με πλήρη ή μερική πρόσβαση στο περιεχόμενό τους.

4.1.2.1 Γενικά σώματα κειμένων 1. Ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ) του Ινστιτούτου Επεξεργασίας του

Λόγου αναπτύχθηκε επί σειρά ετών και είναι το πιο μεγάλο σε αριθμό λέξεων σώμα κειμένων της νέας ελληνικής (Χατζηγεωργίου κ.ά. 2000). Σήμερα περιλαμβάνει περισσότερες από 47 εκατομμύρια λέξεις και εμπλουτίζεται σε τακτά χρονικά διαστήματα. Τα κείμενα που περιλαμβάνονται στον ΕΘΕΓ έχουν επιλεγεί ως αντιπροσωπευτικά της σύγχρονης ελληνικής γλώσσας και χρονολογούνται στην πλειονότητά τους από το 1990 και μετά. Τα κείμενα του ΕΘΕΓ ταξινομούνται με βάση το μέσο δημοσίευσης (π.χ. εφημερίδες, περιοδικά, βιβλία διαφημιστικά φυλλάδια κ.ά.), το κειμενικό είδος/γένος (π.χ. κείμενα γνώμης, βιογραφία, λογοτεχνία, πληροφόρηση, γραπτές συζητήσεις και συνεντεύξεις, επίσημα κείμενα κ.ά.) και με βάση το θέμα/περιεχόμενο (π.χ. ασχολίες, γεωγραφία, επιστήμη, τέχνες, υγεία, ιστορία, κοινωνία). Ο ΕΘΕΓ είναι προσβάσιμος με μια ιδιαίτερα εξελιγμένη διαδικτυακή διεπαφή, που επιτρέπει αναζητήσεις με βάση λέξεις, λήμματα και γραμματικές κατηγορίες. Πρόκειται για ένα δυναμικό σώμα κειμένων που περιλαμβάνει πλούσια μεταδεδομένα, και κειμενικούς και γλωσσικούς χαρακτηρισμούς. Μειονέκτημα της παρούσας έκδοσης είναι ότι επιτρέπει μερική μόνο πρόσβαση στα δεδομένα για τους μη συνδρομητές.

2. Το Σώμα Ελληνικών Κειμένων (ΣΕΚ) περιλαμβάνει κείμενα από το 1990 μέχρι και το 2003. Είναι ένα γενικό μονόγλωσσο συγχρονικό σώμα της νέας ελληνικής που, διαφορετικά από ό,τι ο ΕΘΕΓ, περιλαμβάνει τόσο γραπτά και όσο προφορικά δεδομένα σε ποσοστό 10% (Γούτσος 2003). Το ΣΕΚ περιέχει 30 εκατομμύρια λέξεις από μια ποικιλία κειμενικών ειδών (π.χ. ακαδημαϊκά, λογοτεχνικά,ειδησεογραφικά κείμενα, ραδιοτηλεοπτικές συνεντεύξεις, μηνύματα ηλεκτρονικού ταχυδρομείου κ.ά.) και είναι ελεύθερα προσβάσιμο από το διαδίκτυο στο σύνολό του. Ειδικότερα, στα προφορικά δεδομένα του ΣΕΚ περιλαμβάνονται κείμενα πληροφορίας, όπως ειδήσεις (επίκαιρα και ψυχαγωγικά νέα από ραδιόφωνο και τηλεόραση),συνεντεύξεις (από ραδιόφωνο, τηλεόραση κ.ά.), ομιλίες (ακαδημαϊκές και μη), και κείμενα μη πληροφορίας, δηλαδή συνομιλίες, πρόσωπο με πρόσωπο και τηλεφωνικές. Ο σχεδιασμός του, πιο συστηματικός από τον σχεδιασμό του ΕΘΕΓ, επιχειρεί να ακολουθήσει τις βασικές αρχές συγκρότησης του BNC. Στα βασικά του μειονεκτήματα συγκαταλέγονται η έλλειψη γλωσσικών χαρακτηρισμών και η σχετικά απλοϊκή διεπαφή προσπέλασης, η οποία δεν επιτρέπει παρά μόνο αναζητήσεις με λέξεις.

3. Το GkWaC είναι ένα γενικό σώμα κειμένων που δημιουργήθηκε αποκλειστικά από κείμενα του διαδικτύου με αρχικό στόχο να αποτελέσει ένα γενικό σώμα της νέας ελληνικής για αξιοποίηση στο πλαίσιο λεξικογραφικών εφαρμογών. Είναι προσβάσιμο μέσω του

Page 11: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

11

συστήματος αναζήτησης Sketch Engine και περιλαμβάνει σήμερα περίπου 124 εκ. λέξεις. Το βασικό τουμειονέκτημα είναι ότι λόγω του σχεδιασμού και της συγκρότησής του αποκλειστικά από κείμενα του διαδικτύου δεν χαρακτηρίζεται από αντιπροσωπευτικότητα και ισορροπία στην αναλογία μεταξύ των κειμενικών ειδών που περιλαμβάνει. Το μεγάλο του πλεονέκτημα, ωστόσο, είναι ότι περιλαμβάνει γλωσσικούς χαρακτηρισμούς και συνοδεύεται από μια γραμματική για αυτόματη συντακτική ανάλυση των κειμένων, που επιτρέπει ιδιαίτερα εξελιγμένες αναζητήσεις στα δεδομένα (§ 4.1.5.2).

4.1.2.2 Εξειδικευμένα σώματα κειμένων 1. Το Σώμα Νέων Ελληνικών Κειμένων του Κέντρου Ελληνικής Γλώσσας (ΚΕΓ) είναι

προσβάσιμο από την Πύλη για την Ελληνική Γλώσσα, Περιλαμβάνει συνολικά 7 εκατομμύρια λέξεις από δημοσιογραφικά κείμενα (2 εκατομμύρια από την εφημερίδα ΤΑ ΝΕΑ και 3 εκατομμύρια λέξεις από την εφημερίδα ΜΑΚΕΔΟΝΙΑ) και από κείμενα των σχολικών βιβλίων, 2 εκατομμυρίων λέξεων. Η εστίαση στον δημοσιογραφικό λόγο επέτρεψε μια λειτουργική και λεπτομερή ταξινόμηση των ειδών των δημοσιογραφικών κειμένων (Πολίτης στην στην Πύλη για την Ελληνική Γλώσσα). Τα κείμενα του σώματος είναι λημματοποιημένα και η αναζήτηση σε αυτά μπορεί να γίνει με λέξεις, λήμματα και φράσεις. Διαφορετικά από ό, τι συμβαίνει με τα υπόλοιπα γενικά σώματα της νέας ελληνικής επιτρέπει τη μετάβαση από τους συμφραστικούς πίνακες σε ολόκληρο το κείμενο και όχι μόνο σε μικρό απόσπασμα.

2. Το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών του Ιδρύματος Τριανταφυλλίδη αναπτύχθηκε στο πλαίσιο του έργου «Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας» (Pavlidou 2012). Το Corpus Προφορικού Λόγου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Ως εκ τούτου, αποδίδεται ιδιαίτερη βαρύτητα στην απομαγνητοφώνηση του ηχογραφημένου ή βιντεοσκοπημένου υλικού ως πιστή απεικόνιση της ηχητικής πραγματικότητας. Tο ψηφιοποιημένο τμήμα του Corpus (ηχογραφημένο / βιντεοσκοπημένο) ανέρχεται σε περίπου 190,000 MB, ενώ το απομαγνητοφωνημένο ξεπερνά το 1,8 εκατομμύρια λέξεις. Το υλικό έχει αντληθεί από φυσικές περιστάσεις επικοινωνίας με διαφορετικό βαθμό θεσμικότητας και περιλαμβάνει ποικίλα είδη λόγου: καθημερινές συνομιλίες μεταξύ φίλων και συγγενών, τηλεφωνικές συνδιαλέξεις μεταξύ φίλων και συγγενών, γλωσσική διεπίδραση στη σχολική τάξη, τηλεοπτικά δελτία ειδήσεων και άλλες τηλεοπτικές εκπομπές. Προσπελάσιμο μέσω διαδικτυακής διεπαφής είναι μόνον ένα υποσύνολό του, συνολικού μεγέθους 374.025 λέξεων, που αποτελείται από 40 καθημερινές συνομιλίες, 140 τηλεφωνικές συνδιαλέξεις και 7 τηλεοπτικές συνεντεύξεις. Για την πρόσβαση στο υλικό αυτό απαιτείται δωρεάν εγγραφή.

3. Το Σώμα Κειμένων ΙΑΤΡΟΛΕΞΗ, δημιουργήθηκε στο πλαίσιο του ομώνυμου ερευνητικού προγράμματος που είχε στόχο τη δημιουργία κατάλληλης υποδομής για εξελιγµένες εφαρµογές επεξεργασίας φυσικής γλώσσας (ΕΦΓ) στο γνωστικό πεδίο της βιοϊατρικής, Πρόκειται για το μοναδικό διαθέσιμο εξειδικευμένο σώμα κειμένων της νέας ελληνικής και περιέχει περίπου 11,5 εκατομμύρια λέξεις. Τα κείμενα που περιλαμβάνει εκδόθηκαν από το 1996 μέχρι το 2007 και αντλήθηκαν από το διαδίκτυο από ελληνικές ιστοσελίδες με ιατρικά επιστημονικά περιοδικά, ιατρικές εφημερίδες και από πρακτικά ιατρικών συνεδρίων. Η προσπέλαση στο σώμα κειμένων, που είναι κειμενικά και γλωσσικά χαρακτηρισμένο, γίνεται μέσω ενός εργαλείου συμφραστικών πινάκων, που επιτρέπει αναζητήσεις με λέξεις, λήμματα και γραμματικές κατηγορίες (Tsalidis et al. 2007).

4.1.3 Εργαλεία αναζήτησης Παλαιότερα, η ανάλυση σωμάτων κειμένων σε έντυπη μορφή επέβαλε ο χρήστης να διατρέχει όλο το κειμενικό υλικό από την αρχή ως το τέλος και να επιστρέφει σε συγκεκριμένα σημεία που είχε εντοπίσει για να τα μελετήσει προσεκτικότερα. Σήμερα, υπάρχει ποικιλία υπολογιστικών προγραμμάτων, τα λεγόμενα συστήματα αναζήτησης σε σώματα κειμένων (corpus query systems), που επιτρέπουν την πρόσβαση και την παρουσίαση τεράστιου όγκου δεδομένων με ποικίλους τρόπους. Τα συστήματα αυτά με τη χρήση

Page 12: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

12

μεθοδολογικών εργαλείων όπως είναι οι συμφραστικοί πίνακες (concordance tables), οι κατάλογοι λέξεων (word lists) και οι κατάλογοι λεξικών συμπλεγμάτων (n-grams) δίνουν τη δυνατότητα να αναζητήσουμε και να μελετήσουμε, για παράδειγμα: α) τις πιο συχνές σημασίες μιας λέξης, β) τις πιο συχνές λεξικές συνάψεις ή συμφράσεις της (collocations), δηλαδή τις στατιστικά σημαντικές και όχι τις τυχαίες συνεμφανίσεις της με άλλες λέξεις (π.χ. θερμό επεισόδιο, θερμή χειραψία), γ) τις φράσεις στις οποίες χρησιμοποιείται μια λέξη, δ) τα κειμενικά είδη ή τις κειμενικές υποκατηγορίες στις οποίες εμφανίζεται συχνότερα μια λέξη ή μια φράση, ε) το λεξιλόγιο που χρησιμοποιεί ένας συγγραφέας, ή στ) το λεξιλόγιο που χρησιμοποιείται συχνότερα σε ένα γνωστικό πεδίο.

Οι συμφραστικοί πίνακες αποτελούν μια εξαιρετικά πολύτιμη τεχνική ανάλυσης, καθώς συγκεντρώνουν σε έναν πίνακα που περιλαμβάνει αριθμημένες γραμμές όλες τις εμφανίσεις ενός γλωσσικού στοιχείου όπως χρησιμοποιείται σε αυθεντικά κείμενα, μαζί με τμήμα από το αριστερό και το δεξί συγκείμενο (context), δηλαδή το γειτονικό του περιβάλλον,. Το συγκείμενο ανάλογα με το σύστημα αναζήτησης μπορεί να αποτελείται από συγκεκριμένο αριθμό λέξεων από αριστερά και δεξιά που ονομάζεται εύρος (span).

Το συνηθέστερο μορφότυπο παράστασης συμφραστικών πινάκων είναι το KWIC (Key Word in Context), στο οποίο η υπό εξέταση λέξη, που ονομάζεται κόμβος (node) ή κομβική λέξη (node word), παρουσιάζεται στο κέντρο κάθε γραμμής, όπως φαίνεται στην Εικόνα 4.1. Το μεγάλο πλεονέκτημα αυτής της παρουσίασης είναι ότι παρατίθενται με τρόπο ευκρινή και άμεσο όλες οι χρήσεις των αναζητούμενων λεκτικών τύπων, ενώ ταυτόχρονα συνδυάζονται κατά την ανάλυση των δεδομένων οι δύο άξονες της γλώσσας: ο οριζόντιος (συνταγματικός) άξονας, που δείχνει το άμεσο ή ευρύτερο συγκείμενο της κομβικής λέξης, και ο κάθετος (παραδειγματικός) άξονας, που δείχνει τις ομοιότητες και τις διαφορές μεταξύ των διαφορετικών χρήσεων της ίδιας της λέξης. Η εμφάνιση επαναλαμβανόμενων λεξικών συνδυασμών και συντακτικών δομών είναι αποκαλυπτική για τη γλωσσική ανάλυση, καθώς πολύ συχνά μας προσφέρει ενδείξεις που μας κατευθύνουν σε πιο εστιασμένες και πιο εξειδικευμένες αναζητήσεις.

Page 13: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

13

Εικόνα 4.1 Συμφραστικός πίνακας του λήμματος «ευκαιρία» σε KWIC από το Sketch Engine Το παράδειγμα στην Εικόνα 4.2 παρουσιάζει έναν εναλλακτικό τρόπο παρουσίασης των δεδομένων,

όπου η κομβική λέξη εμφανίζεται με υπογράμμιση ή με έντονους χαρακτήρες μέσα στο συγκείμενο ολόκληρης πρότασης. Κάποια συστήματα προσφέρουν και τις δύο δυνατότητες παρουσίασης (π.χ. το Sketch Engine).

Εικόνα 4.2 Συμφραστικός πίνακας της λέξης «ευκαιρία» σε εύρος ολόκληρης πρότασης

4.1.3.1 Είδη συστημάτων αναζήτησης σε σώματα κειμένων Διακρίνουμε τέσσερις βασικές κατηγορίες συστημάτων ανάλυσης σωμάτων κειμένων:

1. Τα κλειστά συστήματα, που επιτρέπουν την αναζήτηση και ανάλυση δεδομένων σε έτοιμα και ήδη ενσωματωμένα σε αυτά σώματα κειμένων. Συνήθως, δεν προσφέρουν τη δυνατότητα για ανάλυση σωμάτων κειμένων του χρήστη.

2. Τα ανοιχτά συστήματα, που επιτρέπουν στον χρήστη να ενσωματώσει σε αυτά είτε έτοιμα σώματα κειμένων, εφόσον είναι διαθέσιμα, είτε δικά του σώματα κειμένων.

κομβική λέξη

παραδειγματικός άξονας

συνταγματικός άξονας

Page 14: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

14

3. Τα συστήματα που επιτρέπουν την αναζήτηση σε κείμενα του διαδικτύου σε πραγματικό χρόνο. Τα αποτελέσματα παρουσιάζονται με τη μορφή συμφραστικών πινάκων (βλ. Εικόνα 4.3).

4. Τα συστήματα που επιτρέπουν μέσω συγκεκριμένων εργαλείων τη δημιουργία σωμάτων κειμένων από το διαδίκτυο.

Ακολουθεί μια σύντομη παρουσίαση των δημοφιλέστερων υπολογιστικών εργαλείων αναζήτησης σε σώματα κειμένων (βλ. Πίνακα 4.1).

Εικόνα 4.3 Συμφραστικός πίνακας της φράσης «ισοδύναμα μέτρα» από κείμενα του διαδικτύου με το εργαλείο WebCorpLive

Page 15: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

15

Ονομασία

Γλώσσα κειμένων Περιγραφή

κλειστά συστήματα Σώμα Ελληνικών Κειμένων

ελληνικά Διαδικτυακή εφαρμογή, διαθέσιμη δωρεάν, με πρόσβαση στο ομώνυμο σώμα κειμένων, με περιορισμένες λειτουργίες αναζήτησης.

Εθνικός Θησαυρός Ελληνικής Γλώσσας

ελληνικά Διαδικτυακή εφαρμογή, διαθέσιμη με συνδρομή, με πρόσβαση στο ομώνυμο σώμα κειμένων. Δωρεάν πρόσβαση σε πολύ περιορισμένο αριθμό αποτελεσμάτων.

Ανεμόσκαλα ελληνικά Διαδικτυακό λογισμικό δημιουργίας συμφραστικών πινάκων από κείμενα Ελλήνων ποιητών Corpus BYU αγγλικά, ισπανικά

πορτογαλικά Διαδικτυακή εφαρμογή, διαθέσιμη δωρεάν, με πρόσβαση σε διαφορετικά μονόγλωσσα σώματα κειμένων, με σημαντικό αριθμό αποτελεσμάτων και δυνατότητα για πλήρη πρόσβαση με εγγραφή.

OPUS παράλληλα σώματα κειμένων

Διαδικτυακή εφαρμογή, διαθέσιμη δωρεάν για αναζήτηση σε πολύγλωσσα σώματα κειμένων.

ανοιχτά συστήματα Word Smith Tools

πολλές γλώσσες, + ελληνικά

Λογισμικό επί πληρωμή, για εγκατάσταση σε τοπικό δίσκο ή διαδικτυακή πρόσβαση για περισσότερους χρήστες. Επιτρέπει τη δημιουργία συμφραστικών πινάκων, καταλόγων λέξεων και λέξεων-κλειδιών. Παρέχονται πολλαπλές δυνατότητες αναζήτησης και στατιστικής ανάλυσης λέξεων και συμφράσεων.

MonoConc πολλές γλώσσες, υποστήριξη και ελληνικών

Λογισμικό επί πληρωμή για ανάλυση μονόγλωσσων σωμάτων κειμένων που περιλαμβάνουν κειμενικό σχολιασμό και γλωσσικές επισημειώσεις. Συνοδεύεται και από μικρό σώμα προφορικών κειμένων 2 εκατομμυρίων λέξεων στα αγγλικά.

AntConc πολλές γλώσσες, + ελληνικά

Ελεύθερο λογισμικό ανάλυσης μονόγλωσσων σωμάτων κειμένων. Επιτρέπει τη δημιουργία συμφραστικών πινάκων, καταλόγων λέξεων και λέξεων-κλειδιών.

Sketch Engine πολλές γλώσσες, + ελληνικά + παράλληλα κείμενα

Διαδικτυακή εφαρμογή με συνδρομή, που επιτρέπει ωστόσο τη δοκιμαστική χρήση για περιορισμένο χρονικό διάστημα. Περιλαμβάνει σώματα κειμένων σε διάφορες γλώσσες και για τα ελληνικά (π.χ. GkWaC). Επιτρέπει επίσης τη δημιουργία και ανάλυση σωμάτων κειμένων του χρήστη καθώς και παράλληλων σωμάτων κειμένων. Δημιουργήθηκε κυρίως για χρήση στη λεξικογραφία.

NoSketch Engine πολλές γλώσσες , + ελληνικά

Πρόκειται για ελεύθερο λογισμικό, που περιλαμβάνει περιορισμένες λειτουργίες του εμπορικού συστήματος αναζήτησης σε σώματα κειμένων Sketch Engine.

ParaConc παράλληλα σώματα κειμένων

Λογισμικό επί πληρωμή, για αναζήτηση και ανάλυση πολύγλωσσων σωμάτων κειμένων. Επιτρέπει τη στοίχιση των παράλληλων γλωσσικών τμημάτων των κειμένων του χρήστη σε επίπεδο παραγράφου και πρότασης. Πολλαπλές δυνατότητες αναζήτησης και στατιστικής ανάλυσης.

AntPConc παράλληλα σώματα κειμένων

Ελεύθερο λογισμικό ανάλυσης μονόγλωσσων σωμάτων κειμένων. Επιτρέπει τη στοίχιση παράλληλων τμημάτων των κειμένων του χρήστη. Επιτρέπει απλές αναζητήσεις σε συμφραστικούς πίνακες.

αναζήτηση στο διαδίκτυο WebCorpLive πολλές γλώσσες,

+ ελληνικά Μηχανή μετα-αναζήτησης με δυνατότητα δημιουργίας συμφραστικών πινάκων από κείμενα του διαδικτύου σε πραγματικό χρόνο.

δημιουργία κειμένων από το διαδίκτυο WebBootCamp πολλές γλώσσες,

+ ελληνικά Εργαλείο ενσωματωμένο στο Sketch Engineγια τη δημιουργία σωμάτων κειμένων από το διαδίκτυο.

WebGetter πολλές γλώσσες, + ελληνικά

Εργαλείο ενσωματωμένο στοWord Smith Tools για τη δημιουργία σωμάτων κειμένων από το διαδίκτυο.

Πίνακας 4.1 Συστήματα αναζήτησης σε σώματα κειμένων

Page 16: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

16

Μελέτη περίπτωσης: Εργαλεία διαχείρισης και δημιουργίας κειμένων από το διαδίκτυο Στο διαδίκτυο υπάρχουν σήμερα διαθέσιμα εργαλεία που μας επιτρέπουν να δημιουργήσουμε συμφραστικούς πίνακες δυναμικά και σε πραγματικό χρόνο από κείμενα του διαδικτύου, χρησιμοποιώντας το ελεύθερο εργαλείο WebCorpLive. Το WebCorpLive επιτρέπει τη δημιουργία συμφραστικών πινάκων σε διάφορες γλώσσες συμπεριλαμβανομένης και της ελληνικής.

Για έρευνες στην αγγλική προσφέρεται η δυνατότητα για πιο σύνθετες αναζητήσεις (π.χ. με λέξεις, χαρακτήρες μπαλαντέρ, φράσεις, γραμματικούς χαρακτηρισμούς κ.ά.) σε έτοιμα σώματα κειμένων που έχουν συλλεγεί από το διαδίκτυο και είναι εμπλουτισμένα με γλωσσικές επισημειώσεις. Μπορείτε να εγγραφείτε δωρεάν στη δοκιμαστική έκδοση του WebCorpLSE.

To Sketch Engine, εκτός από την πρόσβαση σε έτοιμα σώματα κειμένων, επιτρέπει και τη δημιουργία των δικών σας κειμένων από το διαδίκτυο με τη χρήση του εργαλείου WebBootCamp. Η συγκεκριμένη εφαρμογή μπορεί να χρησιμοποιηθεί για τη δημιουργία μικρών σε μέγεθος και εξειδικευμένων σε περιεχόμενο σωμάτων κειμένων, ως πηγών δεδομένων κυρίως για εστιασμένες έρευνες. Η αλίευση των κειμένων βασίζεται σε συγκεκριμένες λέξεις ή φράσεις-κλειδιά (seed words), που με βάση το αντικείμενο της έρευνας ή τη ς μελέτης σας αποτελούν και το υπό εξέταση υλικό (π.χ. αθλητική ορολογία, βασικοί όροι πληροφορικής). Δείτε το ενημερωτικό βίντεο στα αγγλικά και φτιάξτε τα δικά σας σώματα κειμένων από το διαδίκτυο με τη βοήθεια του WebBootCamp.

Αντίστοιχα χαρακτηριστικά διαθέτει και το εργαλείο WebGetter, που είναι ενσωματωμένο στo σύστημα αναζήτησης Word Smith Tools.

Αν και κάθε σύστημα αναζήτησης διαθέτει τα δικά του ιδιαίτερα χαρακτηριστικά για τα οποία μπορούμε να ενημερωθούμε χρησιμοποιώντας είτε το υλικό Βοήθειας (Help) ή τον Οδηγό (Guide) του κάθε εργαλείου είτε την εμπειρική δοκιμή, στις υποενότητες που ακολουθούν θα παρουσιάσουμε κάποιες από τις βασικές κοινές λειτουργίες των δημοφιλέστερων συστημάτων εστιάζοντας στους:

• τρόπους αναζήτησης, • τρόπους παρουσίασης και διαχείρισης των αποτελεσμάτων, • καταλόγους λέξεων, λημμάτων και λεξικών συμπλεγμάτων.

4.1.4 Τρόποι αναζήτησης Για να ανασύρει ένας χρήστης αποτελέσματα από ένα σώμα κειμένων, πρέπει να εισαγάγει ως ερωτήματα στη διεπαφή αναζήτησης συγκεκριμένες εκφράσεις. Αυτές μπορεί να είναι λεξικές εκφράσεις, γραμματικές εκφράσεις, υβριδικές εκφράσεις ή/και ασυνεχείς συνδυασμοί λεξικών και γραμματικών εκφράσεων (Pastor & Alcina 2009∙ Tribble 2010, Atkins & Rundell 2008). Η εμβέλεια των ερωτημάτων μπορεί να περιοριστεί με την εφαρμογή φίλτρων ή περιοριστικών κριτηρίων.

4.1.4.1 Αναζητήσεις με λεξικές εκφράσεις Μια λεξική έκφραση μπορεί να είναι ένας μονολεκτικός λεκτικός τύπος (word-form), ένας χαρακτήρας, ένας αριθμός, ένα λήμμα (lemma) ή μία ακολουθία λεκτικών τύπων ή λημμάτων.

Η αναζήτηση με λεκτικούς τύπους συνιστά την πιο απλή τεχνική. Τη χρησιμοποιούμε, για παράδειγμα, όταν θέλουμε να διερευνήσουμε τις σημασίες, τη συντακτική ή τη μορφολογική συμπεριφορά συγκεκριμένου λεκτικού τύπου (π.χ. «μουσικές», «ευρήματα», «παραγάγει», «παράξει κτλ.).

Κάποια συστήματα προσφέρουν στον χρήστη τη δυνατότητα να αναζητήσει ταυτόχρονα περισσότερους από έναν λεκτικούς τύπους της ίδιας λέξης (π.χ. τους τύπους «διδάσκοντα» και «διδάσκοντος», βλ. Εικόνα 4.4). Για να διατυπώσει τέτοιες σύνθετες εκφράσεις ο χρήστης πρέπει να γνωρίζει τις βασικές συμβάσεις της γλώσσας Corpus Query Processor (CPQ).

Page 17: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

17

Εικόνα 4.4 Αναζήτηση με δύο λεκτικούς τύπους

Διαφορετικά από ό,τι συμβαίνει με την απλή αναζήτηση με έναν ή περισσότερους λεκτικούς

τύπους, η αναζήτηση με λήμμα, δηλαδή με την ουδέτερη μορφή στην οποία ανάγονται όλοι οι κλιτικοί τύποι μιας λέξης (π.χ. μουσικές/μουσικής/μουσική/μουσικών λήμμα «μουσική»), προϋποθέτει ότι το σώμα κειμένων είναι λημματοποιημένο, έχει δηλαδή αναγνωριστεί για κάθε λεκτικό του τύπο το λήμμα στο οποίο ανάγεται. Η τεχνική αυτή εφαρμόζεται συνήθως σε περιπτώσεις κατά τις οποίες ο χρήστης δε διερευνά τη χρήση συγκεκριμένων λεκτικών τύπων αλλά τις σημασίες ή/ και τις λεξικές συνάψεις όλων των λεκτικών τύπων που έχουν επισημειωθεί στο σώμα κειμένων με το ίδιο λήμμα, όπως στην Εικόνα 4.5.

Page 18: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

18

Εικόνα 4.5 Αναζήτηση με λήμμα

Τα περισσότερα συστήματα αναζήτησης επιτρέπουν επίσης τη χρήση χαρακτήρων μπαλαντέρ

(wild-card characters). Όπως ήδη αναφέρθηκε στο Κεφάλαιο 3, οι συνηθέστεροι χαρακτήρες μπαλαντέρ είναι ο αστερίσκος (*), που αντικαθιστά έναν ή περισσότερους χαρακτήρες, και το ερωτηματικό (?), που αντικαθιστά έναν μόνο χαρακτήρα. Είναι ιδιαίτερα χρήσιμοι όταν ψάχνουμε για λέξεις που αρχίζουν, περιέχουν ή τελειώνουν σε μια ορισμένη ακολουθία χαρακτήρων, για να αντλήσουμε, για παράδειγμα, παράγωγες ή σύνθετες λέξεις όπως απαντούν σε αυθεντικά κείμενα (βλ. Πίνακα 4.2).

χαρακτήρας μπαλαντέρ

αναζήτηση αποτελέσματα

οποιοσδήποτε χαρακτήρας στην αρχή της λέξης

σύνθετα με α΄ συνθετικό μικρο*

οποιοσδήποτε χαρακτήρας περιέχεται σε μια λέξη

λέξεις που περιλαμβάνουν το θέμα *χρωμ*

οποιοσδήποτε χαρακτήρας στο τέλος μιας λέξης

σύνθετα με β΄ συνθετικό το *δρομος

Πίνακας 4.2 Αναζήτηση με χαρακτήρες μπαλαντέρ

1. Πριν να χρησιμοποιήσετε ένα σύστημα αναζήτησης θα πρέπει να ενημερωθείτε για το αν

υποστηρίζει τη χρήση χαρακτήρων μπαλαντέρ και ποιους συγκεκριμένους χαρακτήρες χρησιμοποιεί.

2. Οι χαρακτήρες μπαλαντέρ μπορούν να χρησιμοποιηθούν και σε σώματα κειμένων που δεν είναι λημματοποιημένα (π.χ. το ΣΕΚ). Η χρήση τους συνιστάται όταν θέλουμε να ανασύρουμε αποτελέσματα για όσον το δυνατόν περισσότερους κλιτικούς τύπους με τις λιγότερες δυνατές αναζητήσεις (π.χ. η δήλωση *φρέν* θα ανασύρει προτάσεις που περιλαμβάνουν όλους τους κλιτικούς τύπους του λήμματος «φρένο»). Ωστόσο, θα πρέπει να θυμάστε ότι η αναζήτηση με χαρακτήρες μπαλαντέρ συχνά παράγει επιθυμητά αλλά και μη επιθυμητά αποτελέσματα. Έτσι, για παράδειγμα, η αναζήτηση *φρέν* θα ανασύρει και ανεπιθύμητα αποτελέσματα, όπως

Page 19: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

19

σχιζοφρένεια, φρέντο, Φρέντυ. Αυτά θα πρέπει να αγνοούνται κατά τη γλωσσική ανάλυση.

Η αναζήτηση που προσφέρουν τα περισσότερα συστήματα δεν περιορίζεται σε μονολεκτικούς τύπους ή λήμματα· μπορεί επίσης να επεκταθεί σε συνδυασμούς δύο ή περισσότερων λεκτικών τύπων ή λημμάτων με ή χωρίς τη χρήση χαρακτήρων μπαλαντέρ (π.χ. «πέφτω από τα σύννεφα», «απορώ *», «δεν * να») (βλ. Πίνακα 4.3). Οι αναζητήσεις αυτού του είδους μάς επιτρέπουν να αντλούμε χρήσιμες πληροφορίες για περισσότερο ή λιγότερο παγιωμένους πολυλεκτικούς λεξικούς συνδυασμούς.

αναζήτηση αποτελέσματα

με συνδυασμό λημμάτων και λεκτικών τύπων, π.χ. «πέφτω από τα σύννεφα»

με συνδυασμό λημμάτων και χαρακτήρων μπαλαντέρ, π.χ. «δεν * να»

Πίνακας 4.3 Αναζήτηση με πολυλεκτικούς συνδυασμούς

4.1.4.2 Αναζητήσεις με γραμματικές εκφράσεις Οι γραμματικές εκφράσεις είναι δομές που περιλαμβάνουν μία γραμματική κατηγορία ή και ακολουθία γραμματικών κατηγοριών. Η αναζήτηση με γραμματικές εκφράσεις προϋποθέτει ότι το σώμα κειμένων περιλαμβάνει επισημειώσεις με τις γραμματικές κατηγορίες των λέξεων των κειμένων. Είναι ιδιαίτερα χρήσιμη όταν θέλουμε να διερευνήσουμε με ποιες λέξεις ή με ποιες ακολουθίες λέξεων πραγματώνονται λεξικά συγκεκριμένες γραμματικές δομές.

Για παράδειγμα, στον ΕΘΕΓ η αναζήτηση με μία μόνο γραμματική κατηγορία «κύριο ουσιαστικό» επιστρέφει έναν συμφραστικό πίνακα με τις εμφανίσεις των κύριων ουσιαστικών (βλ. Εικόνα 4.6). Αντίστοιχα, στο ΙΑΤΡΟΛΕΞΗ, η αναζήτηση με την έκφραση «επίθετο + ουσιαστικό» επιστρέφει έναν συμφραστικό πίνακα με δίλεκτους ιατρικούς όρους που αντιστοιχούν στη συγκεκριμένη δομή (βλ. Εικόνα 4.7).

1 Εμείς σαν Χρηματιστήριο θέλουμε στην αγορά τους σοβαρούς και τους μεγάλους της

Page 20: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

20

ποντοπόρου ναυτιλίας, ενώ θα ζητήσουμε, εφόσον επιτραπεί η είσοδος των εταιρειών του κλάδου, να πραγματοποιείται μία φορά τον χρόνο η συνέλευση των μετόχων στην Ελλάδα και να υπάρχει πλήρης ενημέρωση του επενδυτικού κοινού για τις

προοπτικές του κλάδου. 2 Το πρόγραμμα Adizes έχει αποδείξει διεθνώς αλλά και στην Ελλάδα ότι μπορεί να

κάνει αυτήν τη μετάβαση με επιτυχία. 3 - Η Ελλάδα σήμερα, παρ' ότι βρίσκεται σε μια ικανοποιητική οικονομική κατάσταση,

είναι τελευταία μεταξύ των 15 χωρών-μελών της Ευρωπαϊκής Ένωσης. Εικόνα 4.6 Aναζήτηση με μία μόνο γραμματική κατηγορία στον ΕΘΕΓ

Εικόνα 4.7 Aναζήτηση με συνδυασμό γραμματικών κατηγοριών

στο ΙΑΤΡΟΛΕΞΗ

4.1.4.3 Αναζητήσεις με υβριδικές εκφράσεις Οι υβριδικές εκφράσεις συνδυάζουν λεξικές εκφράσεις με γραμματικές εκφράσεις. Είναι χρήσιμες όταν αναζητούμε δομές για τις οποίες γνωρίζουμε τον λεξικό τύπο ή το λήμμα κάποιων λέξεων και τη γραμματική κατηγορία για άλλα τμήματα της υπό εξέταση δομής. Έτσι, για παράδειγμα, αν θέλουμε να διερευνήσουμε τις σημασίες του επιθέτου «τρελός», μπορούμε να αναζητήσουμε τις λεξικές συνάψεις του όταν ακολουθείται από ουσιαστικό διατυπώνοντας το ερώτημα «τρελός + ουσιαστικό»∙ αντίστοιχα, αν θέλουμε να διερευνήσουμε τα ρήματα που συμπληρώνονται από προτάσεις που εισάγονται με τον σύνδεσμο «ότι», μπορούμε να αναζητήσουμε τη δομή «ρήμα + ότι». Θα πρέπει να διευκρινιστεί ότι σε κάποια συστήματα αναζήτησης όταν η γραμματική έκφραση ακολουθεί την υπό εξέταση λέξη προσδιορίζουμε ότι ανήκει στο δεξί της συγκείμενο ενώ, όταν προηγείται, ότι ανήκει στο αριστερό της συγκείμενο (βλ. Εικόνα 4.8 και Εικόνα 4.9).

Page 21: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

21

Εικόνα 4.8 Αναζήτηση της υβριδικής έκφρασης «τρελός + ουσιαστικό»

Εικόνα 4.9 Αναζήτηση της υβριδικής έκφρασης «ρήμα + ότι»

4.1.4.4 Αναζητήσεις με ασυνεχείς συνδυασμούς λεξικών και γραμματικών εκφράσεων Στον γραπτό ή προφορικό λόγο, η ακολουθία των στοιχείων μιας φράσης δεν είναι πάντοτε συνεχής, καθώς πολύ συχνά μεταξύ των συστατικών της μεσολαβούν και άλλοι λεκτικοί τύποι. Η συγκεκριμένη τεχνική αναζήτησης δίνει τη δυνατότητα στον χρήστη να διατυπώνει πιο ευέλικτες αναζητήσεις, προσδιορίζοντας την απόσταση που μπορεί να μεσολαβεί μεταξύ της κομβικής λέξης και των αναζητούμενων λεξικών ή γραμματικών στοιχείων που βρίσκονται στο αριστερό και στο δεξί της συγκείμενο. Η απόσταση μπορεί να ρυθμίζεται με βάση τις λέξεις ή γενικότερα τα τεμάχια (tokens), στα οποία, ανάλογα με την επεξεργασία και τον σχολιασμό των κειμένων, μπορεί να αντιστοιχούν όχι μόνο λέξεις αλλά σε σημεία στίξης.

Έτσι, για παράδειγμα, αν διερευνούμε τις ρηματικές εκφράσεις στις οποίες συμμετέχει το ουσιαστικό «καρδιά», μπορούμε να συνδυάσουμε στο ερώτημά μας το λήμμα «καρδιά» με τη γραμματική κατηγορία «ρήμα» να προηγείται σε απόσταση 3 λέξεων. Η δυνατότητα ρύθμισης της απόστασης επιστρέφει και εμφανίσεις όπως «έκανα πέτρα την καρδιά μου», «έκλεψαν/πλάνεψαν τις καρδιές τους», «άγγιξε τις καρδιές μας», «άνοιξε την καρδιά του», που δε θα μπορούσαν να ανασυρθούν, αν θεωρούσαμε δεδομένη τη μη διακοπτόμενη συνεμφάνιση των συστατικών των ρηματικών εκφράσεων (βλ. Εικόνα 4.10). Σε κάθε περίπτωση, ο χρήστης μπορεί να πειραματίζεται με τη δυνατότητα ρύθμισης

Page 22: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

22

της απόστασης μεταξύ των συστατικών της υπό εξέταση δομής και ανάλογα με τα αποτελέσματα να κρίνει αν και σε ποιες περιπτώσεις μπορεί να την αυξάνει ή να την περιορίζει..

Εικόνα 4.10 Αναζητήσεις με ασυνεχείς εκφράσεις και προσδιορισμό της μεταξύ τους απόστασης

4.1.4.5 Αναζητήσεις με φίλτρα ή περιοριστικά κριτήρια Η αναζήτηση μπορεί να περιοριστεί σε μία ή περισσότερες ενότητες των σωμάτων κειμένων με τη χρήση φίλτρων όπως το κειμενικό είδος και υπο-είδος, ο τρόπος επικοινωνίας, το μέσο, η ημερομηνία, ο συγγραφέας ή η δομική ενότητα του κειμένου.

Έτσι, για παράδειγμα, στο BNC με το εργαλείο Sketch Engine ο χρήστης μπορεί να περιορίσει τις αναζητήσεις του σε ένα ή περισσότερα κειμενικά είδη (π.χ. γραπτά κείμενα), σε συγκεκριμένες χρονικές περιόδους (π.χ. 1960-1974 και 1975-1984) και σε συγκεκριμένα επικοινωνιακά μέσα (π.χ. βιβλία και άλλα δημοσιευμένα έντυπα)∙ στο ΣΕΚ μπορεί επιπλέον να περιορίσει τις αναζητήσεις του σε συγκεκριμένη γεωγραφική ποικιλία ενώ στον ΕΘΕΓ έχει τη δυνατότητα να επιλέξει μεταξύ άλλων και συγκεκριμένους συγγραφείς για να εφαρμόσει τις αναζητήσεις του. Στην έκδοση του BNC με το σύστημα αναζήτησης Corpus BYU, ο χρήστης μπορεί να επιλέξει δύο ενότητες κριτηρίων επιλογής κειμένων όταν θέλει να διενεργήσει αυτόματα συγκρίσεις σε δύο διαφορετικά κειμενικά είδη (π.χ. σύγκριση των ουσιαστικών με επίθημα *ment σε ακαδημαϊκά συγγράμματα και σε λογοτεχνικά κείμενα) (βλ. Πίνακα 4.4).

Page 23: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

23

Σώμα κειμένων Φίλτρα για επιλογή κειμένων BNC – Sketch Engine

ΣΕΚ

ΕΘΕΓ

Page 24: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

24

BNC – Corpus BYU

Πίνακας 4.4 Φίλτρα για επιλογή κειμένων

Περιοριστικά κριτήρια μπορεί να εφαρμοστούν και κατά τη διατύπωση των ερωτημάτων. Έτσι, ο

χρήστης μπορεί να αναζητήσει λεκτικούς τύπους ή λήμματα που ανήκουν σε συγκεκριμένη γραμματική κατηγορία (π.χ. αναζήτηση του λήμματος “taste” όταν χρησιμοποιείται ως ρήμα) (βλ. Εικόνα 4.11). Χωρίς το φίλτρο αυτό το σύστημα θα παρήγαγε συμφραστικό πίνακα με εμφανίσεις των τύπων του “taste”και ως ουσιαστικού και ως ρήματος.

Εικόνα 4.11 Αναζήτηση με περιορισμό γραμματικής κατηγορίας

Η εφαρμογή αυτού του φίλτρου είναι ιδιαίτερα χρήσιμη στις αναζητήσεις με ομόγραφες λέξεις που ανήκουν σε διαφορετικές γραμματικές κατηγορίες, φαινόμενο πολύ συχνό στα αγγλικά (π.χ. wound (ρήμα) - wound (ουσιαστικό), desert (ρήμα) – desert (ουσιαστικό) , όχι όμως σπάνιο και στα ελληνικά (π.χ. αντιδράσεις < αντιδρώ (ρήμα) – αντιδράσεις < αντίδραση (ουσιαστικό)).

Φίλτρα μπορούν να εφαρμοστούν κατά την αναζήτηση για τον αποκλεισμό συγκεκριμένων

λεκτικών τύπων, λημμάτων ή/και γραμματικών κατηγοριών. Η εφαρμογή τους μπορεί να περιορίσει την εμβέλεια της αναζήτησης, βοηθώντας τον χρήστη να επικεντρωθεί σε λιγότερα σε αριθμό αλλά πιο εστιασμένα σε περιεχόμενο αποτελέσματα.

Για παράδειγμα, αν ο χρήστης θέλει να μελετήσει περισσότερα παραδείγματα, όπου το “taste” ως ρήμα ακολουθείται μόνο από επίθετα (π.χ. tastes good, tasted exquisite), τα οποία έχουν μόνο θετική

Page 25: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

25

σημασία, θα πρέπει να προσδιορίσει συμπληρωματικά ότι το ρήμα “taste” στο δεξί συγκείμενο θα πρέπει να ακολουθείται από “adjective” (επίθετο), αποκλείοντας συγκεκριμένα επίθετα που έχουν αρνητική σημασία, όπως bad, worse, worst, ugly, awful, terrible (βλ. Εικόνα 4.12). Αντίστοιχα, μπορεί να αποκλείσει από την αναζήτηση συγκεκριμένες γραμματικές κατηγορίες που δεν επιθυμεί να εμφανίζονται στις υπό εξέταση δομές (π.χ. αναζήτηση συμφράσεων του «έχω», με αποκλεισμό από το δεξί συγκείμενο της γραμματικής κατηγορίας «ρήμα», με την οποία συνεμφανίζεται το βοηθητικό «έχω» στους συντελικούς χρόνους (π.χ. έχω δοκιμάσει, είχαν δώσει, θα έχουν διαβάσει κτλ.). Ο αποκλεισμός αυτών των δομών οδηγεί στον περιορισμό των παραδειγμάτων του συμφραστικού πίνακα στις υπόλοιπες χρήσεις του «έχω» (βλ. Εικόνα 4.13).

Εικόνα 4.12 Αναζήτηση με αποκλεισμό λημμάτων

Page 26: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

26

Εικόνα 4.13 Αναζήτηση με αποκλεισμό γραμματικής κατηγορίας

4.1.5 Παρουσίαση και διαχείριση των αποτελεσμάτων Τα σύγχρονα συστήματα αναζήτησης προσφέρουν ποικίλους τρόπους θέασης και διαχείρισης των αποτελεσμάτων, διευκολύνοντας τους χρήστες να επεξεργαστούν με μεγαλύτερη ευκολία, ευελιξία και ακρίβεια τα δεδομένα της μελέτης τους, όπως περιγράφεται στη συνέχεια.

4.1.5.1 Ταξινόμηση Πρώτο βήμα κατά την επεξεργασία των αποτελεσμάτων αποτελεί η ταξινόμηση των δεδομένων των συμφραστικών πινάκων με τρόπο τέτοιο ώστε οι όμοιοι λεξικοί τύποι ή οι όμοιες γραμματικές δομές να συγκεντρώνονται μαζί. Τρεις είναι οι βασικοί τρόποι ταξινόμησης που προσφέρονται από την πλειονότητα των συστημάτων: με βάση την κομβική λέξη, με βάση το αριστερό συγκείμενο και με βάση το δεξί συγκείμενο. Καθεμία από τις τρεις αυτές δυνατότητες μπορεί να εφαρμοστεί αυτόνομα ή και σε συνδυασμό με τις υπόλοιπες δύο. Η ταξινόμηση μπορεί επίσης να γίνεται είτε κατ’ αύξουσα είτε κατά φθίνουσα αλφαβητική σειρά, ενώ ανάλογα με το σύστημα αναζήτησης μπορεί να εκτείνεται σε μία, δύο, τρεις ή περισσότερες λέξεις δεξιά ή αριστερά της κομβικής λέξης.

Τα παραδείγματα που ακολουθούν για το αναζητούμενο λήμμα «υποδαυλίζω»(= ενισχύω εντέχνως πάθη, μίση ή ανατρεπτικές καταστάσεις) αποτυπώνουν τις δυνατότητες αυτής της προσέγγισης.

Η ταξινόμηση με βάση την κομβική λέξη αποκαλύπτει ποιοι κλιτικοί τύποι του «υποδαυλίζω» απαντούν στο σώμα κειμένων και ποιοι είναι συχνότεροι ή λιγότερο συχνοί. Όπως φαίνεται στην Εικόνα 4.14, ο τύπος «υποδαυλίζει» είναι ο συχνότερος με 37 εμφανίσεις, ενώ ο τύπος «υποδαυλίζεται» της παθητικής φωνής και ο τύπος «υποδαυλίζεις» απαντούν μία μόνο φορά στο σώμα κειμένων.

Εικόνα 4.14 Ταξινόμηση με βάση την κομβική λέξη

Η ταξινόμηση με βάση το αριστερό συγκείμενο μας δείχνει τα τυπικά υποκείμενα του

«υποδαυλίζω» (π.χ. κυβερνήσεις, ένοπλες ομάδες, πιστοί, ΜΜΕ, φευδο-πατριώτες, πολιτικοί, ιερατείο κ.ά) (βλ. Εικόνα 4.15), ενώ η ταξινόμηση με βάση το δεξί συγκείμενο μας αποκαλύπτει τα τυπικά συμπληρώματα του ρήματος (π.χ. βιαιοπραγίες, συγκρούσεις, μίσος, εθνικισμό, ρατσισμό) (βλ. Εικόνα 4.16).

Page 27: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

27

Εικόνα 4.15 Ταξινόμηση με βάση το αριστερό συγκείμενο

Εικόνα 4.16 Ταξινόμηση με βάση το δεξί συγκείμενο

4.1.5.2 Περιορισμός των αποτελεσμάτων Οι αναζητήσεις λέξεων και λημμάτων με μεγάλη συχνότητα εμφάνισης σε μεγάλα σώματα κειμένων πολλές φορές παράγουν ογκώδεις συμφραστικούς πίνακες, τους οποίους οι ερευνητές είναι πολύ δύσκολο ή σχεδόν αδύνατο να επεξεργαστούν. Πολλά σύγχρονα συστήματα προσφέρουν τη δυνατότητα περιορισμού των αποτελεσμάτων μέσω μιας αυτόματης λειτουργίας που ονομάζεται δειγματοληψία (sampling), μέσω της οποίας επιτυγχάνεται η επιλογή ενός τυχαίου δείγματος που αποτελεί υποσύνολο των αρχικών αποτελεσμάτων. Ο χρήστης μπορεί, εφόσον το επιτρέπει το σύστημα αναζήτησης, να προσδιορίσει τον αριθμό των γραμμών του νέου περιορισμένου δείγματος. Για παράδειγμα, η αναζήτηση του λήμματος «σκοτώνω» στο σώμα κειμένων GkWaC (124 εκατομμυρίων λέξεων) παράγει έναν συμφραστικό πίνακα με 15.341 γραμμές. Το αποτέλεσμα αυτό μπορεί να περιοριστεί με τη λειτουργία Sample ενώ, ανάλογα με το σύστημα, μπορεί να προσφέρεται η δυνατότητα για προσδιορισμό του επιθυμητού αριθμού των γραμμών του δείγματος (π.χ. 250 γραμμές) (βλ. Εικόνα 4.17).

Εικόνα 4.17 Περιορισμένος συμφραστικός πίνακας με τυχαία δειγματοληψία

Page 28: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

28

Εναλλακτικά, μείωση των αποτελεσμάτων μπορεί να επιτευχθεί με την εφαρμογή φίλτρων που είτε περιορίζουν την αναζήτηση σε συγκεκριμένο υπο-σώμα κειμένων είτε αποκλείουν από αυτή συγκεκριμένους λεκτικούς τύπους, λήμματα και γραμματικές κατηγορίες (§ 4.1.4.5)

Μελέτη περίπτωσης: Λεξικά προφίλ - Η σύγχρονη απάντηση στους συμφραστικούς πίνακες Ο «παραδοσιακός» τρόπος παρουσίασης και θέασης της λεξικής πληροφορίας μέσω των συμφραστικών πινάκων θεωρήθηκε δύσχρηστος και αναποτελεσματικός, όταν το μέγεθος των σωμάτων κειμένων άρχισε να αυξάνεται δραματικά, ειδικότερα αυτών που χρησιμοποιούνται στη λεξικογραφία. Έτσι, σε σώματα κειμένων των 100 εκ. λέξεων και άνω, οι συμφραστικοί πίνακες, ακόμη και για λέξεις μέτριας συχνότητας, παράγουν μερικές χιλιάδες γραμμές εμφανίσεων, καθιστώντας σχεδόν αδύνατη την επεξεργασία τους από τους λεξικογράφους.

Μια προσέγγιση που μεγιστοποιεί την αξία του μεγάλου σε όγκο σώματος κειμένων ενώ ταυτόχρονα μειώνει την προσπάθεια που απαιτείται να καταβάλει ο ερευνητής για την ανάγνωση και την ερμηνεία των δεδομένων είναι ο σχεδιασμός του προφίλ μιας λέξης ή ενός λήμματος, ενός είδους δηλαδή στατιστικής περίληψης που παρουσιάζει τις συντακτικές σχέσεις της αναζητούμενης λέξης. Έτσι, για παράδειγμα, το λεξικό προφίλ της λέξης «χειραψία» παρουσιάζει με τρόπο συνοπτικό με σειρά σημαντικής συχνότητας ποια είναι ακριβώς τα ρήματα με τα οποία αυτή συνεμφανίζεται ως αντικείμενο (π.χ. ανταλλάσσω, πραγματοποιώ, κάνω) και τους επιθετικούς προσδιοριστές της (π.χ. άνευρος, θερμός, ψυχρός, εγκάρδιος, επίσημος, τυπικός) (βλ. Εικόνα 4.18). Τη δυνατότητα δημιουργίας και παρουσίασης των προφίλ των λέξεων προσφέρει το εργαλείο Word Sketch του Sketch Engine.

Εικόνα 4.18 Το λεξικό προφίλ της λέξης «χειραψία»

Η προσέγγιση αυτή προϋποθέτει ότι το σώμα κειμένων περιλαμβάνει γλωσσικές επισημειώσεις (π.χ.

αναγνώριση λημμάτων, γραμματικών κατηγοριών) στις οποίες στηρίζεται μια γραμματική με κανόνες που αναγνωρίζει τις συντακτικές σχέσεις μεταξύ των λέξεων.

Απλή συχνότητα: αριθμός εμφανίσεων

Στατιστική σημαντικότητα του συνδυασμού: όσο μεγαλύτερη τόσο ισχυρότερος ο συνδυασμός.

Page 29: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

29

4.1.5.3 Πληροφορίες για τα κείμενα Όλα τα συστήματα αναζήτησης προσφέρουν πληροφορίες για την πηγή από την οποία αντλήθηκε κάθε γραμμή του συμφραστικού πίνακα, αξιοποιώντας ουσιαστικά την πληροφορία που προσφέρει ο κειμενικός χαρακτηρισμός και τα μεταδεδομένα του σώματος κειμένων, εφόσον αυτές υπάρχουν. Οι πληροφορίες αυτές είναι πολύ χρήσιμες για τους λεξικογράφους, αφού μπορούν έτσι να βοηθηθούν στην απόδοση γλωσσικών χαρακτηρισμών για τα λήμματα του λεξικού (π.χ. επίσημο/ανεπίσημο ύφος, λήμμα που απαντά σε κείμενα των εφημερίδων κ.ά.), ενώ ταυτόχρονα μπορούν να αξιοποιηθούν από τα στατιστικά εργαλεία του συστήματος, προκειμένου να διαπιστωθεί αν μια λέξη απαντά σε πολλά κειμενικά είδη ή είναι συχνότερη σε ένα μόνο κειμενικό είδος.

Επίσης, επειδή το τυπικό παράθυρο ενός συμφραστικού πίνακα παρουσιάζει έναν περιορισμένο αριθμό λέξεων, συνήθως 20 λέξεις συνολικά για το αριστερό και το δεξί συγκείμενο της υπό εξέτασης λέξης, οι οποίες συχνά δεν μπορούν να περιγράψουν επαρκώς τη χρήση της, τα περισσότερα συστήματα επιτρέπουν τη θέαση μεγαλύτερου αποσπάσματος για κάθε κομβική λέξη (βλ. Εικόνα 4.19). Να σημειωθεί ότι το ευρύτερο συγκείμενο είναι ιδιαίτερα χρήσιμο για τη μελέτη και τη γλωσσική ανάλυση των δεικτών λόγου (π.χ. αντίθετα, εντάξει, αλλά, συνεπώς κ.ά.) σε ποικίλα κειμενικά είδη.

Εικόνα 4.19 Πληροφορίες για την προέλευση του κειμένου - Ευρύτερο συγκείμενο

4.1.5.4 Αποθήκευση των αποτελεσμάτων Σε σύνθετες γλωσσικές μελέτες και έρευνες κατά τις οποίες δεν απαιτούνται απλώς μεμονωμένες αναζητήσεις αλλά μια σειρά αναζητήσεων, ο ερευνητής χρειάζεται να συγκεντρώσει ένα επαρκές δείγμα δεδομένων πριν να προχωρήσει στην ανάλυσή τους. Τα περισσότερα συστήματα αναζήτησης καλύπτουν την ανάγκη για επεξεργασία των αποτελεσμάτων σε μεταγενέστερο στάδιο επιτρέποντας την αποθήκευσή τους. Ανάλογα με το εργαλείο αναζήτησης, τα αποτελέσματα μπορούν να αποθηκεύονται με δυνατότητα επιλογής της μορφής του αρχείου (π.χ. αρχεία απλού κειμένου [.txt] , αρχεία .XML) και με δυνατότητα προσδιορισμού του αριθμού των σειρών ή σελίδων του συμφραστικού πίνακα. Στα διαδικτυακά συστήματα προσφέρεται επίσης η δυνατότητα για την αποθήκευση του συνδέσμου (link) μέσω του οποίου μπορεί να είναι προσπελάσιμος ο συγκεκριμένος συμφραστικός πίνακας.

4.1.6 Κατάλογοι λέξεων και στατιστικές πληροφορίες

Page 30: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

30

Εκτός από τους συμφραστικούς πίνακες ένα σύστημα αναζήτησης μπορεί να περιλαμβάνει και μια σειρά άλλων εργαλείων που παρουσιάζουν στοιχεία της ποσοτικής ανάλυσης των δεδομένων, προσφέροντας στον ερευνητή ενδείξεις για την περαιτέρω αξιολόγηση και την ποιοτική ερμηνεία τους. Για μια συνοπτική παρουσίαση τέτοιων εργαλείων συμβουλευτείτε τον Πίνακα 4.5.

Page 31: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

31

εργαλείο περιγραφή παράδειγμα κατάλογοι λέξεων

Παρουσιάζουν τις συχνότερες λέξεις σε ένα σώμα ή σε ένα υπο-σώμα κειμένων, ή ακόμη και σε ένα κείμενο, προσφέροντας χρήσιμες ενδείξεις για το συχνότερο λεξιλόγιο μιας γλώσσας, μιας γλωσσικής ποικιλίας ή ενός θεματικού πεδίου.

Απόσπασμα από τις 100 συχνότερες λέξεις του ελληνικού Corpus Προφορικού Λόγου

κατάλογοι λημμάτων Εφόσον ένα σώμα κειμένων είναι λημματοποιημένο, είναι δυνατή και η εξαγωγή καταλόγων με τα συχνότερα λήμματα. Για παράδειγμα, στο COCA, ο κατάλογος των λέξεων περιλαμβάνει πληροφορίες για τη συχνότητά τους σε διαφορετικά κειμενικά είδη.

Απόσπασμα από τον κατάλογο συχνότερων λέξεων στο σώμα κειμένων COCA

κατάλογοι συνωνύμων ή άλλων σχετιζόμενων λέξεων (π.χ. αντιθέτων)

Μερικά συστήματα επιτρέπουν αναζητήσεις που στηρίζονται είτε σε συγκρίσεις μεταξύ των κοινών συντακτικών δομών μεταξύ δύο ή περισσότερων λέξεων είτε των κοινών σημασιολογικών χαρακτηριστικών τους. Η επιλογή αυτή επιτρέπει στον χρήστη να ανασύρει καταλόγους συνωνύμων ή αντιθέτων για τη λέξη που αναζητά. Στο Sketch Engine η συγκεκριμένη λειτουργία προσφέρεται μέσω του εργαλείου Thesaurus.

Κατάλογος συνωνύμων της λέξης “gorgeous” στο BNC με το εργαλείο του Corpus BYU

Page 32: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

32

κατάλογοι λεξικών συμπλεγμάτων (N-grams)

Τα λεξικά συμπλέγματα είναι μη διακοπτόμενες ακολουθίες περισσότερων των δύο λέξεων. Ο χρήστης μπορεί να αναζητήσει όλα τα συμπλέγματα ενός σώματος κειμένων ή ενός κειμένου προσδιορίζοντας τον αριθμό N των συνδυαζόμενων λέξεων (π.χ. n2, n3, n4 κτλ.). Λέξεις ή γραμματικές κατηγορίες που μπορούν να εμφανίζονται στα λεξικά συμπλέγματα μπορούν επίσης να προσδιοριστούν από τον χρήστη. Οι κατάλογοι λεξικών συμπλεγμάτων μπορούν να προσφέρουν μια χρήσιμη εποπτεία για λεξικούς συνδυασμούς που μπορούν να αποτελούν συνάψεις ή πολυλεκτικούς όρους σε ένα θεματικό πεδίο. Καταλόγους συμπλεγμάτων παράγουν επίσης τα διαδιακτυακά εργαλεία: ΝgramViewer της Google και το WebCorpLive.

Απόσπασμα καταλόγου λεξικών συμπλεγμάτων της λέξης “much” στο COCA

κατάλογοι με λέξεις-κλειδιά

To εργαλείο αυτό δείχνει ποιες λέξεις είναι ασυνήθιστα συχνές ή σπάνιες σε ένα σώμα κειμένων σε σύγκριση με τις λέξεις που απαντούν σε ένα σώμα αναφοράς. Η λειτουργία αυτή επιτρέπει να εντοπιστούν οι όροι που απαντούν σε ένα συγκεκριμένο θεματικό πεδίο ή σε ένα συγκεκριμένο κειμενικό είδος.

Λέξεις-κλειδιά στο ελληνικό σώμα κειμένων του Ευρωπαϊκού Κοινοβουλίου και οι αντίστοιχες εμφανίσεις τους στο ελληνικό σώμα αναφοράς GkWaC

Πίνακας 4.5 Εργαλεία παραγωγής καταλόγων με στατιστικές πληροφορίες

Page 33: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

33

4.1.7 Μελετώντας και ερμηνεύοντας τα δεδομένα Όπως ήδη παρουσιάστηκε, τα συστήματα αναζήτησης σε σώματα κειμένων προσφέρουν ποικίλους τρόπους και μεθοδολογικά εργαλεία που επιτρέπουν πλέον ταχύτερη, φιλικότερη και πιο εξονυχιστική άντληση τεράστιου όγκου δεδομένων από αυθεντικά κείμενα∙ εντούτοις τα ίδια δεν είναι σε θέση από μόνα τους να τα ερμηνεύσουν. Αποτελεί έργο λοιπόν του ερευνητή να τα αναλύσει, να τα αξιολογήσει, να τα ερμηνεύσει και, τελικά, να επαληθεύσει ή να αναθεωρήσει τις αρχικές γλωσσικές υποθέσεις, ή και να διατυπώσει νέες.

Στην ενότητα αυτή θα περιγράψουμε αναλυτικά τα βήματα που είναι χρήσιμο να ακολουθούμε για να μελετήσουμε και να ερμηνεύσουμε τα δεδομένα που αντλήσαμε με τη βοήθεια ενός συστήματος αναζήτησης, όπως προτείνονται από τον Sinclair (2003:xvi-xvii).

Ας υποθέσουμε ότι ένας ερευνητής ή ένας εκπαιδευτικός θέλει να διερευνήσει τις πρακτικές συγγραφής ενδοκειμενικών βιβλιογραφικών παραπομπών στα γραπτά ακαδημαϊκά κείμενα του BNC, χρησιμοποιώντας το εργαλείο Sketch Engine. Η έρευνα μπορεί να ξεκινήσει αναζητώντας αρχικά όλες τις ημερομηνίες που εσωκλείονται σε παρενθέσεις και οι οποίες δε βρίσκονται στο τέλος των προτάσεων, καθώς με αυτόν τον περιορισμό είναι πιθανότερο να εντοπίσει βιβλιογραφικές αναφορές στο εσωτερικό των προτάσεων. Η αναζήτηση θα πρέπει να έχει τη μορφή:

«Βρες την ακολουθία (19* ) που δεν ακολουθείται (στο δεξί συγκείμενο) από τον χαρακτήρα ‘.’ σε απόσταση 5 τεμαχίων» (βλ. Εικόνα 4.20).

Εικόνα 4.20 Αναζήτηση ημερομηνίας στις βιβλιογραφικές παραπομπές

Βήμα 1: Εκκίνηση της μελέτης Κατά το αρχικό αυτό στάδιο, ο ερευνητής ψάχνει για ευρύτερα σχήματα στο δεξί ή στο αριστερό

συγκείμενο της κομβικής λέξης, που είναι πιθανόν κυρίαρχα και στα οποία αξίζει να εστιάσει την προσοχή του, προκειμένου να αξιολογήσει τη πιθανή τους συσχέτιση με το αρχικό ερώτημα (βλ. Πίνακα 4.6). Είναι χρήσιμο πριν την ανάλυση να ταξινομήσει το υλικό με βάση την κομβική λέξη και στη συνέχεια με βάση το αριστερό και το δεξί συγκείμενο σε απόσταση 3 τεμαχίων (§ 4.1.5.1).

Σε μια αρχική ανάλυση των αποτελεσμάτων του συμφραστικού πίνακα που παράγεται από την παραπάνω αναζήτηση, ο ερευνητής μπορεί να παρατηρήσει ότι υπάρχει μία ευρύτερη δομή στην οποία εντάσσεται η κομβική λέξη: “ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ)” (βλ. Πίνακα 4.6).

Page 34: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

34

J0T

historical survey is provided by Hallam (1973) who has also written an assessment of Wegener

J0T Cordillera are considered by Coney et al. (1980) and the possible role of oceanic plateaus

J0T McKenzie (1983), while Pollack and Chapman (1977) discuss the use of heat flow data in the

J0T presented byPollack et al. (1981). Crough (1979) explores the possible morphological consequences

J0T rifts are introduced by Frostick and Reid (1987) and examined in depth by Rosendahl (1987

J0T 1987) and examined in depth by Rosendahl (1987) and in Frostick et al. (1986). The influence

H8K quasar. One case reported by Surdej et al. (1987) provides unequivocal evidence for this

GV0 have been intensively studied by Bagnold (1941) who distinguishes between the small-scale

J0T volcanoes is discussed by Francis and Self (1987) and the global occurrence of different

J0T useful introductory reviews, and Molnar (1988) considers the problem of reconciling the

J0T James (1971) and Dalziel (1986). Garner (1983) discusses the tectonic geomorphology of

J0T and Selby (1982). Berryman (1988) and Kamp (1988) examine landforms associated with oblique

J0T and Ben-Avraham (1983). Ollier and Pain (1988) draw attention to the neglected problem

J0T the eastern Australian margin while Bishop (1988) reviews the various models that have been

HGR constructions is far less frequent. Labov (1966) reported that less than 2% of everyday

AMG their mating and rearing roles. Trivers (1972) points out that the sex that invests most Πίνακας 4.6 Συμφραστικός πίνακας βιβλιογραφικών παραπομπών

Βήμα 2 : Ερμηνεία Σε αυτό το στάδιο, σύμφωνα με τον Sinclair (2003: xvi), ο ερευνητής, παρατηρώντας τις

επαναλαμβανόμενες λέξεις αριστερά και δεξιά του κόμβου, επιχειρεί να διατυπώσει μια υπόθεση που να τις συσχετίζει. Για παράδειγμα, ότι μπορεί να ανήκουν όλες στην ίδια γραμματική κατηγορία ή ότι μπορεί να έχουν την ίδια σημασία.

Στο δικό μας σενάριο, μια αρχική υπόθεση εργασίας μπορεί να είναι η ακόλουθη:

ΑΡΧΙΚΗ ΥΠΟΘΕΣΗ Στον γραπτό ακαδημαϊκό λόγο, η δομή “ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ)” χρησιμοποιείται για να περιγράψει μια δημοσιευμένη εργασία στην οποία γίνεται μια βιβλιογραφική παραπομπή. Στην περίπτωση αυτή δε χρησιμοποιείται ούτε το μικρό όνομα του συγγραφέα ούτε τα αρχικά του

Page 35: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

35

Βήμα 3: Ενίσχυση της αρχικής υπόθεσης Σε αυτό το στάδιο, ο ερευνητής ψάχνει στο ευρύτερο συγκείμενο της κομβικής λέξης για να εντοπίσει

αν υπάρχουν επιπλέον δομές ή παραλλαγές της αρχικής δομής. Όπως παρουσιάζεται στον Πίνακα 4.6, συγκεκριμένα ρήματα -με κόκκινο αυτά που βρίσκονται στο αριστερό συγκείμενο και με πράσινο αυτά που εμφανίζονται στο δεξί συγκείμενο- συνδέονται με την αρχική δομή. Το συμπέρασμα μπορεί να σχηματοποιηθεί ως εξής:

1. Η συγκεκριμένη δομή συνδέεται με κάποιο μικρό υποσύνολο ρημάτων (βλ. Πίνακα 4.7). Τα

ρήματα αυτά είτε προηγούνται είτε έπονται της αρχικής δομής και παράγουν δύο νέες εμπλουτισμένες δομές: 1. ΔΟΜΗ Α: ΡΗΜΑ + by + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) 2. ΔΟΜΗ Β: ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ

2. Τα ρήματα που προηγούνται της κομβικής λέξης διαφέρουν από τα ρήματα που την

ακολουθούν. Η παρατήρηση αυτή θα μπορούσε να αποτελέσει την αφορμή για πιο εξειδικευμένα ερευνητικά ερωτήματα, όπως, για παράδειγμα, για το αν η επιλογή του ρήματος αντανακλά την άποψη του συγγραφέα σχετικά με την αναφερόμενη πηγή, ή αν και σε ποιο βαθμό η επιλογή του ρήματος φανερώνει κάποιου είδους βεβαιότητα ή πρωτοτυπία της αναφερόμενης πηγής.

Ρήματα που προηγούνται Ρήματα που έπονται provided (by) points out considered (by) considers presented (by) discusses examined (by) examine reported (by) draw attention studied (by) reviews discussed (by) reported

Πίνακας 4.7 Ρήματα που προηγούνται ή ακολουθούν μια βιβλιογραφική παραπομπή

Βήμα 4: Διατύπωση της εμπλουτισμένης υπόθεσης Σύμφωνα με τον Sinclair (2003: xvii), όταν ο ερευνητής εξαντλήσει τις δομές που έχει παρατηρήσει

και έχει αναθεωρήσει ή έχει εμπλουτίσει την αρχική υπόθεση, τη διατυπώνει με τρόπο σαφή, ώστε να μπορεί να ανατρέξει σε αυτή σε μεταγενέστερο στάδιο. Η εμπλουτισμένη υπόθεση στο δικό μας σενάριο θα μπορούσε να διατυπωθεί ως εξής:

1η ΕΜΠΛΟΥΤΙΣΜΕΝΗ ΥΠΟΘΕΣΗ Σε κάποια συγκείμενα ο συγγραφέας-ερευνητής μπορεί να σχολιάζει τις απόψεις, τα συμπεράσματα κτλ. της αναφερόμενης πηγής. Αυτό γίνεται μέσω της χρήσης δύο βασικών δομών: ΔΟΜΗ Α: ΡΗΜΑ + by + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) Ενδεικτικά ρήματα: provide, consider, present, examine, report, study ΔΟΜΗΒ: ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ Ενδεικτικά ρήματα: point out, consider, discuss, examine, draw attention, review

Βήμα 5: Επανεξέταση Στο στάδιο αυτό ο ερευνητής επανεξετάζει και διευρύνει την έρευνά του στο αριστερό και στο δεξί

συγκείμενο της κομβικής λέξης. Η διαδικασία αυτή πιθανόν να οδηγήσει στον εντοπισμό και συμπληρωματικών δομών που αντανακλούν τα σχόλια ή την άποψη του συγγραφέα σχετικά με την αναφερόμενη πηγή του (βλ. Πίνακα 4.8). HX9 ambiguity. </p><p> Similarly Cole & Jakimik (1980) report that the data in the

AML good seed-years. Interestingly, Ritchie (1985) proposes that massive sand-blowing and

APH , the account offered by Weiss and Brown (1974) may seem to be over-elaborate. Testa and

Page 36: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

36

B2J publicly available. Maps given in Whittaker (1985) proved το be useful in arbitrating certain difficult

Πίνακας 4.8 Διευρυμένες δομές στις βιβλιογραφικές παραπομπές Η επανεξέταση οδηγεί σε δύο επιπλέον δομές:

3. ΔΟΜΗ Γ: ΕΠΙΡΡΗΜΑ [*] + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ 4. ΔΟΜΗ Δ: ΡΗΜΑ + by + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ + to_ΑΠΑΡΕΜΦΑΤΟ

+ ΑΞΙΟΛΟΓΙΚΟ ΕΠΙΘΕΤΟ Βήμα 6: Αποτέλεσμα Οι παρατηρήσεις αυτές μπορούν να καταγραφούν για μελλοντική έρευνα και να ενσωματωθούν σε

μία πληρέστερη διατύπωση που θα περιλαμβάνει και τη δεύτερη υπόθεση εργασίας:

1η ΕΜΠΛΟΥΤΙΣΜΕΝΗ ΥΠΟΘΕΣΗ Σε κάποια συγκείμενα ο συγγραφέας-ερευνητής μπορεί να σχολιάζει τις απόψεις, τα συμπεράσματα κτλ. της αναφερόμενης πηγής. Αυτό γίνεται μέσω της χρήσης δύο βασικών δομών: ΔΟΜΗ Α: ΡΗΜΑ + by + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) Ενδεικτικά ρήματα: provide, consider, present, examine, report, study ΔΟΜΗΒ: ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ Ενδεικτικά ρήματα: point out, consider, discuss, examine, draw attention, review 2η ΕΜΠΛΟΥΤΙΣΜΕΝΗ ΥΠΟΘΕΣΗ Συμπληρωματική ποιοτική πληροφορία μπορεί να εμπλουτιστεί στις ΔΟΜΕΣ Α και Β με δύο παρατηρήσεις: ΔΟΜΗ Γ: ΕΠΙΡΡΗΜΑ [+ προαιρετική πρόσθετη λέξη] + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ)+ ΡΗΜΑ ΔΟΜΗΔ: ΡΗΜΑ + by + ΕΠΩΝΥΜΟ + (ΗΜΕΡΟΜΗΝΙΑ) + ΡΗΜΑ + to_ΑΠΑΡΕΜΦΑΤΟ + ΑΞΙΟΛΟΓΙΚΟ ΕΠΙΘΕΤΟ

Βήμα 7: Επανάληψη Το έβδομο στάδιο είναι η επανάληψη της όλης διαδικασίας με περισσότερα δεδομένα, ώστε να

μπορέσει ο ερευνητής να ελέγξει, να διευρύνει, και τελικά να επαληθεύσει ή να αναθεωρήσει τις αρχικές και μεταγενέστερες υποθέσεις του.

Βιβλιογραφία προς μελέτη

Δημιουργία και χρήση σωμάτων κειμένων από το διαδίκτυο

Baroni, M. & Ueyama, M. (2006). Building General- and Special-Purpose Corpora by Web Crawling. Proceedings of the 13th NIJL International Symposium. 31-40. Ανακτήθηκε 18 Ιουνίου, 2015, από http://home.sslmit.unibo.it/~baroni/publications/bu_wac_kokken_formatted.pdf

Jones, S., Paradis, C., Murphy, L. M. & Wilners, C. (2007). Googling for Οpposites: Α Web-Based Study of Antonym Canonicity”. Corpora, Vol 2 (No 2), 129-155.

Thelwall, M. (2005). Creating and using Web corpora. International Journal of Corpus Linguistics, Vol 10 (No 4), 517-541.

Page 37: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

37

Μετάφραση, συγκριτικές μελέτες και σώματα κειμένων Baker, M. (1995). Corpora in Translation Studies: An Overview and Some Suggestions for Future Research.

International Journal of Translation Studies, Vol 7 (No 2), 223-243.

Granger S., Lerot, J., Petch-Tyson, S. (2003). Corpus-based Approaches to Contrastive Linguistics and Translation Studies. Amsterdam & Atlanta: Rodopi B.V.

Laviosa, S. (2002). Corpus-Based Translation Studies: Theory, Findings, Applications. Amsterdam –

New York, NY: Rodopi B.V.

Olohan, M. and M. Baker (2000). Reporting ‘that’ in Translated English: Evidence for Subconscious Processes of Explicitation? Across Languages and Cultures, Vol 1 (No 2), 141-158.

Olohan, M. (2003). How Frequent Are the Contractions? A Study of Contracted Forms in the Translational English Corpus. Target, Vol 15 (No 1), 59-89.

Ασκήσεις

Άσκηση 1 Πειραματιστείτε με ένα από τα συστήματα αναζήτησης Word Smith Tools, AntConc και Sketch Engine, μελετώντας ταυτόχρονα το αρχείο «Βοήθεια» ή τον «Οδηγό χρήσης», και προσπαθήστε να δώσετε απαντήσεις στα παρακάτω ερωτήματα:

Α1-1 Αρχικά, διερευνήστε τα βασικά χαρακτηριστικά λειτουργίας του συστήματος αναζήτησης. • Πώς μπορείτε να μεταφορτώσετε στο σύστημα αναζήτησης ένα δικό σας σώμα

κειμένων; • Το συνολικό σώμα κειμένων πρέπει να είναι σε ένα μόνο αρχείο ή το εργαλείο

μπορείτε να διαχειριστεί διαφορετικά αρχεία; • Ποια μορφή πρέπει να έχουν τα κείμενα; Αρκεί να είναι σε μορφή απλού αρχείου

.txt; Α1-2 Στη συνέχεια, διερευνήστε τις τεχνικές αναζήτησης που επιτρέπει.

• Πώς μπορείτε να αναζητήσετε μια συγκεκριμένη λέξη; • Μπορείτε να αναζητήσετε εκτός από λέξεις, λήμματα ή γραμματικές κατηγορίες, με

την προϋπόθεση ότι το σώμα κειμένων τα περιλαμβάνει; • Οι αναζητήσεις διαχωρίζουν πεζούς και κεφαλαίους χαρακτήρες (π.χ. διαχειρίζεται

διαφορετικά το «Α» και διαφορετικά το «α» ); Σας δίνετε η δυνατότητα να αλλάξετε αυτή την επιλογή;

• Μπορείτε να περιορίσετε τον αριθμό των αποτελεσμάτων στους συμφραστικούς πίνακες;

• Πώς μπορείτε να αποθηκεύσετε έναν συμφραστικό πίνακα για επεξεργασία σε μεταγενέστερο στάδιο;

Α1-3 Τέλος, εντοπίστε ποιες στατιστικές πληροφορίες προσφέρει και με ποια μορφή. • Πώς μπορείτε το εργαλείο να δημιουργήσει έναν κατάλογο με τις συχνότερες λέξεις

ή γραμματικές κατηγορίες; • Μπορεί το σύστημα να προσφέρει στατιστικές πληροφορίες για το σώμα κειμένων,

όπως συνολικό αριθμό λέξεων ή τεμαχίων, αναλογία μεταξύ λεκτικών τύπων και τεμαχίων;

• Μπορεί το εργαλείο να παραγάγει καταλόγους με λέξεις-κλειδιά; Με ποιο τρόπο το κάνει;

• Μπορεί το εργαλείο να δημιουργεί καταλόγους λεξικών συμπλεγμάτων (n-grams); • Πώς μπορείτε να αποθηκεύσετε αυτά τα στατιστικά αποτελέσματα;

Page 38: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

38

Άσκηση 2 Αναζητήστε στο ΣΕΚ ή στο σώμα GkWaC (με το εργαλείο SketchEngine) τις χρήσεις και τις σημασίες των παρακάτω λημμάτων: «αγγίζω», «εύλογος» και «μήτρα». Με βάση τους συμφραστικούς πίνακες, εντοπίστε αν υπάρχουν διαφορές μεταξύ της χρήσης τους στο σώμα κειμένων και της περιγραφής τους σε λεξικά της νέας ελληνικής. Για παράδειγμα, υπάρχουν σημασίες ή και χρήσεις που εμφανίζονται στο σώμα κειμένων και δεν περιγράφονται στα λεξικά ή, αντίστροφα, υπάρχουν σημασίες ή/και χρήσεις που περιγράφονται στα λεξικά και δεν εμφανίζονται στο σώμα κειμένων; Να καταγράψετε κάποιες ενδεικτικά.

Άσκηση 3 Χρησιμοποιήστε το εργαλείο Word Sketch του Sketch Engine για να ανασύρετε το λεξικό προφίλ για τα λήμματα «συμβάλλω» και «προκαλώ». Ποιες γραμματικές σχέσεις και ποιες συγκεκριμένες λεξικές συνάψεις για καθένα από αυτά τα λήμματα προσφέρουν ενδείξεις για τη σημασιολογική προσωδία (= την τάση να εμφανίζονται συστηματικά είτε με θετική είτε με αρνητική σημασία); Συμβουλευτείτε σύγχρονα λεξικά της νέας ελληνικής και παρατηρήστε αν καταγράφονται στους ορισμούς των συγκεκριμένων λημμάτων οι ενδείξεις της σημασιολογικής τους προσωδίας όπως εμφανίζονται στα σώματα κειμένων.

Άσκηση 4 Αναζητήστε στο σώμα κειμένων της αμερικανικής αγγλικής COCA τις λέξεις που τελειώνουν σε -ism. Ποια είναι η συχνότητα εμφάνισής τους σε κάθε χρονική περίοδο από τις αρχές του 1990 μέχρι σήμερα; Ποιες από αυτές τις λέξεις είναι συχνότερες τη δεκαετία του 2000 σε σχέση με τη δεκαετία του 1990 και αντίστροφα; Πώς οι διαφορές αυτές μάς δίνουν πληροφορίες για τυχόν αλλαγές στην αμερικανική κοινωνία και στον αμερικανικό πολιτισμό;

Άσκηση 5 Ακολουθήστε τα βήματα που προτείνονται από τον Sinclair (§ 4.1.7), για να μελετήσετε τα στερεότυπα που καλλιεργούνται από τα κείμενα των ΜΜΕ για τα λήμματα «άνδρας» και «γυναίκα» στο σώμα κειμένων της αμερικανικής αγγλικής COCA.

Κριτήρια αυτοξιολόγησης

Κριτήριο 1 Παρατηρήστε την κατανομή των κειμενικών ειδών σε ένα υποθετικό σώμα της αγγλικής (βλ. Πίνακα 4.9). Είναι ισορροπημένο; Είναι αντιπροσωπευτικό; Τέτοιοι ισχυρισμοί μπορούν να ισχύουν καθολικά και απόλυτα για τη δειγματοληψία όλων των σωμάτων κειμένων;

Γενικές και ειδικές κατηγορίες κειμένων Αριθμός λέξεων Εφημερίδες (ενημερωτικά κείμενα) 7.500.000 Εφημερίδες (κείμενα γνώμης) 5.000.000 Εφημερίδες (αθλητικά νέα) 5.000.000 Εφημερίδες (πολιτιστικά κείμενα) 5.000.000 Δημοσιευμένη λογοτεχνία (βιβλία) 3.500.000 Αδημοσίευτη λογοτεχνία (από το διαδίκτυο) 1.500.000 Γενικά βιβλία εκτός από λογοτεχνία 4.000.000 Ακαδημαϊκά περιοδικά (ανθρωπιστικές επιστήμες) 500.000 Ακαδημαϊκά περιοδικά (άλλες επιστήμες) 500.000

Πίνακας 4.9 Υποθετικό σώμα κειμένων της αγγλικής

Page 39: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

39

Κριτήριο 2 Αφού μελετήσετε τις αρχές συγκρότησης και οργάνωσης των δύο γενικών ελληνικών σωμάτων κειμένων ΣΕΚ και ΕΘΕΓ και, αφού πειραματιστείτε με τα υπολογιστικά προγράμματα που προσφέρουν πρόσβαση στο περιεχόμενό τους, να συγκρίνετε τα δύο σώματα κειμένων ως προς τα ακόλουθα: μέγεθος, αντιπροσωπευτικότητα, ισορροπία, μεταδεδομένα, γλωσσικές επισημειώσεις, διαδικτυακή διεπαφή.

Κριτήριο 3 Να αναφέρετε τα πλεονεκτήματα και τα μειονεκτήματα που χαρακτηρίζουν τα σώματα κειμένων που δημιουργούνται αποκλειστικά από κείμενα του διαδικτύου.

Κριτήριο 4 Είστε μεταφραστής/μεταφράστρια και σας ζητείτε να φτιάξετε ένα γλωσσάρι με τους βασικότερους όρους και τους ορισμούς τους για το επιτραπέζιο παιχνίδι Scrabble στα ελληνικά. Πριν ετοιμάσετε το γλωσσάρι, θα ήταν χρήσιμο να δημιουργήσετε ένα σώμα κειμένων από το διαδίκτυο για να αντλήσετε τους όρους και τους ορισμούς τους. Ποια βασικά σχεδιαστικά χαρακτηριστικά θα πρέπει να έχει αυτό το σώμα κειμένων; Κάντε μια σύντομη έρευνα στο διαδίκτυο και αναφέρετε ενδεικτικά πηγές που θα περιλαμβάνατε. Συζητήστε τις διαφορετικές προτάσεις.

Βιβλιογραφικές αναφορές

Ξενόγλωσσες αναφορές

Aarts, B., Close, J., Leech, G. & Wallis, S. (Eds.) (2013). The Verb Phrase in English: Investigating Recent Language Change with Corpora. Cambridge: Cambridge University Press.

Aston, G. & Burnard, L. (1998). The BNC Handbook: Exploring the British National Corpus with SARA. Edinburgh: Edinburgh University Press.

Atkins, B. T. S. & Rundell, M. ( 2008). The Oxford Guide to Practical Lexicography. Oxford: Oxford University Press.

Baker, P., Hardie , A. & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh University Press.

Biber, D. (1993). Representativeness in Corpus Design. Literary and linguistic Computing (No 7), 243-257.

Bowker, L. & Pearson, J.(2002). Working with Specialized Language: A practical Guide to Using Corpora. London: Routledge.

Davies, M. (2010). The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English”. Literary and Linguistic Computing, Vol 25 (No 4), 447-465.

Fletcher, W.H. (2004). Facilitating the Compilation and Dissemination of Ad-hoc Web Corpora. In G. Aston, S. Bernardini & D. Stewart (Eds.), Corpora and Language Learners (Studies in Corpus Linguistics 17), 273-300. Amsterdam: John Benjamins.

Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Kennedy, G. (1998). An Introduction to Corpus Linguistics. Harlow: Longman.

Kilgarriff, A. & Grefenstette, G. (2003). Introduction to the Special issue on the Web as Corpus. Computational Linguistics, Vol 29 (No 3), 333-348.

Page 40: Κεφάλαιο 4 Αναζήτηση σε σώματα κειμένων · 2016-06-08 · γραπτά κείμενα και το 10% μεταγραμμένα προφορικά

40

Lee, D.Y.W. (2010). What corpora are available? In A. O’Keefe & M. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 107-121). London: Routledge.

Leech, G. (1991). "The State of the Art in Corpus Linguistics. In K. Aijmer & B. Altenberg. (Eds.), English Corpus Linguistics: Studies in Honour of Jan Svartvik, 8-29. London: Longman.

McEnery, T., Xiao, R. Z. & Tono, Y. (2006). Corpus-based Language Studies: An Advanced Resource Book. London: Routledge.

McEnery, T. & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press.

O’Keefe, A. & McCarthy, Μ. (2010) (Eds.). The Routledge Handbook of Corpus Linguistics. London: Routledge.

Pastor, V. & Amparo, A. (2010). Search Techniques in Corpora for the Training of Translators. International Journal of Lexicography, Vol 23 (No 3), 307-354.

Pavlidou, Th.-S. (2012). The Corpus of Spoken Greek: Goals, Challenges, Perspectives. LREC Proceedings, Workshop 18 (Best Practices for Speech Corpora in Linguistic Research), 23-28.

Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford:Oxford University Press.

Sinclair, J. M. (2003). Reading Concordances. Harlow: Pearson Longman.

Tribble, Ch. (2010). What are Concordances and How are they Used? In A. O’Keefe & M. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 167-183). London: Routledge.

Tsalidis, Ch., Orphanos, G., Mantzari, E., Pantazara,M., Diolis, Ch. & Vagelatos, A. (2007). Developing a Greek Biomedical Borpus for Text Mining. Corpus Linguistics Conference, 27-30 Ιουλίου 2007. Ανακτήθηκε 18 Ιουνίου, 2015, από http://www.birmingham.ac.uk/research/activity/corpus/publications/conference-archives/2007-birmingham.aspx

Ελληνόγλωσσες αναφορές

Γούτσος, Δ. (2003). Σώμα Ελληνικών Κειμένων: Σχεδιασμός και υλοποίηση. Πρακτικά του 6ου Διεθνούς Συνεδρίου Ελληνικής Γλωσσολογίας, Πανεπιστήμιο Κρήτης, 18-21 Σεπτεμβρίου 2003. Ανακτήθηκε 18 Ιουνίου, 2015, από http://www.philology.uoc.gr/conferences/6thICGL/

Πολίτης, Π. Τα σώματα κειμένων. Ανακτήθηκε 18 Ιουνίου, 2015, από http://www.greek-language.gr/greekLang/modern_greek/bibliographies/corpora/index.html

Χατζηγεωργίου, Ν., Σπηλιωτοπούλου, Α., Βακαλοπούλου, Α., Παπακωστοπούλου, Α., Πιπερίδης, Στ., Γαβριηλίδου, Μ. (2000). Εθνικός Θησαυρός Ελληνικών Κειμένων: Σώμα Κειμένων της Νέας Ελληνικής στο Διαδίκτυο. Μελέτες για την Ελληνική Γλώσσα: Πρακτικά της 21ης Ετήσιας Συνάντησης του Τομέα Γλωσσολογίας της Φιλοσοφικής Σχολής του Αριστοτέλειου Πανεπιστήμιου (σσ. 812-821). Θεσσαλονίκη: Εκδόσεις Κυριακίδη.