Πρόγραμμα ηλεκτρονικής εύρεσης και ταξινόμησης νεολογισμών και ορολογίας

Πρόγραμμα ηλεκτρονικής εύρεσης και ταξινόμησης νεολογισμών και ορολογίας

Μια πρωτοποριακή ελληνική εφαρμογή στο Κέντρο Ερεύνης Επιστημονικών Όρων και Νεολογισμών της Ακαδημίας Αθηνών

keeonΤο Πρόγραμμα Ηλεκτρονικής Εύρεσης-Ταξινόμησης Νεολογισμών και Ορολογίας του Κέντρου Eρεύνης Επιστημονικών Όρων και Νεολογισμών είναι ένα λογισμικό βάσης δεδομένων που ελέγχει γλωσσικό υλικό εφημερίδων ευρείας κυκλοφορίας και αναπτύχθηκε με σύγχρονα υπολογιστικά εργαλεία ανοιχτού τύπου, για να υποστηρίξει το επιστημονικό έργο και την αποστολή του Κέντρου. Πρόκειται για την πρώτη ελληνική εφαρμογή που επιχειρεί αναζήτηση νεολογισμών και ανάλυση τέτοιας εμβέλειας, αξιοποιώντας τόσο τις δυνατότητες που προσφέρουν οι μηχανές του διαδικτύου στην προσπέλαση και την ταξινόμηση των δεδομένων όσο και τη δύναμη της υπολογιστικής γλωσσολογίας σωμάτων κειμένων για τη βέλτιστη αναζήτηση, εμπειρική μελέτη και διασύνδεση των δεδομένων μεταξύ τους. Ο γλωσσολογικός και επιστημονικός σχεδιασμός του προγράμματος ανήκει στη Δρ Αναστασία Χριστοφίδου, Διευθύντρια του Κέντρου, ενώ η τεχνική υλοποίηση έγινε από την technoXperts.

keeon1

«Μεταξύ των στόχων του προγράμματος είναι ο αυτόματος εντοπισμός νεολογισμών, ελληνικών και ξενόγλωσσων, σε σώματα κειμένων εφημερίδων, η εισαγωγή και καταχώρηση νεολογισμών και ορολογίας με μορφολογικά – συντακτικά – κειμενικά/ θεματικά κριτήρια, καθώς και η συνδυαστική αναζήτηση των λημμάτων με πολλαπλά γλωσσολογικά κριτήρια», επισημαίνει η Δρ Αναστασία Χριστοφίδου και συμπληρώνει: «Παράλληλα, η εφαρμογή στοχεύει στην οπτικοποίηση των δεδομένων με γραφηματική απεικόνιση των πληροφοριών των λημμάτων προς στατιστική επεξεργασία, καθώς και στην ερευνητική αξιοποίηση των συλλεχθέντων δεδομένων, ενώ δημιουργείται μια δυναμικού τύπου ηλεκτρονική βάση δεδομένων με δυνατότητα επέκτασης – αποθήκευσης νεολογισμών και ορολογίας παλαιότερων τόμων με υλικό του Κέντρου».

Πώς λειτουργεί

Το Σύστημα Εύρεσης – Ταξινόμησης Νεολογισμών δέχεται μεγάλο όγκο από ηλεκτρονικά κείμενα εφημερίδων, τα οποία ελέγχει για νέες λέξεις. Περιλαμβάνει τόσο τις αθησαύριστες λέξεις που έχουν καταχωρηθεί στα ήδη εκδοθέντα Δελτία Επιστημονικών Όρων και Νεολογισμών του ΚΕΕΟΝ (Δελτία 1-11) όσο και τις νέες καταχωρήσεις των οποίων τα δεδομένα αντλούνται από εφημερίδες ευρείας κυκλοφορίας.

keeon2

«Η τεχνική επεξεργασίας των δεδομένων είναι ημιαυτοποιημένη, καθώς εισάγουμε τα κείμενα από τις εφημερίδες χειροκίνητα και το σύστημα εντοπίζει τις λέξεις που θεωρεί ότι είναι νέες (ενώ υποσημειώνει τις λέξεις που είναι ήδη καταγεγραμμένες ως νεολογισμοί από το σύστημα)», μας εξηγούν οι συνεργάτες του ΚΕΕΟΝ. Για το ‘φιλτράρισμα’ και τον έλεγχο χρησιμοποιούνται λίστες λέξεων από δύο ηλεκτρονικά ελληνικά λεξικά με πλήρη κλιτικό λημματογράφo: η πρώτη βασίζεται στα λεξικά του  ελληνικού έργου elspell (άδεια χρήσης GNU GLP, βλ. και OpenOffice) με περίπου 680.000 λεκτικούς τύπους και η δεύτερη, με περίπου 1.200.000 λεκτικούς τύπους, αποτελεί τη βάση των εργαλείων γλωσσικού ελέγχου της Neurolingo (χρησιμοποιείται με άδεια της Neurolingo για τους σκοπούς της έρευνας). Εντούτοις είναι απαραίτητη η ανθρώπινη παρέμβαση στην τελική επιλογή των εντοπισμένων υποψήφιων νεολογισμών, αφού χρειάζεται έλεγχος για αποκλεισμό των λέξεων που εντοπίζονται καταχρηστικώς από το πρόγραμμα, επειδή δεν περιλαμβάνονται στη λίστα των λεξικών (όπως περιπτώσεις ακρωνυμίων, κύριων ονομάτων της επικαιρότητας, λέξεων σε λατινικό αλφάβητο, π.χ. sequel, οι οποίες όμως είναι δυνάμει ξενόγλωσσοι νεολογισμοί, τυπογραφικών λαθών ή άλλων κλιτών τύπων πέρα από την ονομαστική ενικού των ήδη θησαυρισμένων νεολογισμών, π.χ. οινοτουριστικών).

Βασικό εργαλείο για τη γλωσσολογική ανάλυση και επεξεργασία των νεολογισμών είναι το Ευρετήριο Νεολογισμών του προγράμματος. Από τις αναζητήσεις στο ευρετήριο διαφαίνονται οι διαδικασίες σχηματισμού λέξεων και οι τάσεις της γλώσσας για αλλαγή και δημιουργία νέων λέξεων. Δίνεται η δυνατότητα για αναζήτηση και προβολή των νεολογισμών με αλφαβητική ή καταληκτική σειρά (τύπος αντίστροφου λεξικού για τον έλεγχο της παραγωγικότητας των καταλήξεων) και κυρίως η συνδυαστική αναζήτηση των νεολογισμών με διάφορα κριτήρια.

keeon3

Το νέο ηλεκτρονικό περιβάλλον του ΚΕΕΟΝ συνδέεται επίσης με ένα συνεχώς ανατροφοδοτούμενο σώμα κειμένων δημοσιογραφικού λόγου, το οποίο χρησιμοποιείται εσωτερικά στο Κέντρο για την επεξεργασία των δεδομένων. Το Σώμα Αθησαύριστων Νεολογισμών, που έως τώρα απαριθμεί μισό εκατομμύριο περίπου λεκτικούς τύπους επισημειώνεται όχι μόνο ως προς τους νεολογισμούς και την προέλευσή τους, αλλά και ως προς άλλες παραμέτρους, όπως το κειμενικό είδος (δομή) και τη θεματική ενότητα του κειμένου μέσα στο οποίο εμφανίζονται, την αλληλουχία των κειμενικών μονάδων κ.ά. «Έτσι χάρη στην ευελιξία και τις δυνατότητες που μας παρέχει η τεχνολογία μέσα από την αξιοποίηση ειδικού λογισμικού επεξεργασίας σωμάτων κειμένων, το φαινόμενο της νεολογίας αντιμετωπίζεται ολιστικά, με ευρύτερες δυνατότητες ποσοτικής και ποιοτικής ανάλυσης. Άλλωστε, βρισκόμαστε στην εποχή όπου η γλωσσολογία βλέπει το διαδίκτυο ως ένα τεράστιο σώμα κειμένων και θησαυρό νέων λέξεων με θεματοφύλακες τις μηχανές αναζήτησης», σημειώνουν οι επιστήμονες του ΚΕΕΟΝ.

«Το συγκεκριμένο πρόγραμμα, εξ όσων γνωρίζω, αποτελεί για τα ελληνικά δεδομένα την πρώτη μηχανή εντοπισμού νεολογισμών. Επιπλέον έχει τη δυνατότητα συστηματικής ηλεκτρονικής ταξινόμησης και πολυεπίπεδου γλωσσολογικού σχολιασμού (πρβλ. και την Ηλεκτρονική Βάση Νεολογισμών του Α.Π.Θ., υπεύθυνη καθηγήτρια Αναστασιάδη-Συμεωνίδη), ώστε να καθίσταται σημαντικό λεξικογραφικό εργαλείο για τη συνεχή και ενημερωμένη περιγραφή της Κοινής Νέας Ελληνικής», επισημαίνει η Διευθύντρια του Κέντρου Δρ Αναστασία Χριστοφίδου. «Το νέο μας ηλεκτρονικό πρόγραμμα επιταχύνει και οργανώνει την καταγραφή νεολογισμών αποβλέποντας κυρίως στη στατιστική μελέτη των τάσεων αλλαγής και δημιουργίας νέων λέξεων και όρων, συμβάλλοντας δηλαδή στην ανεύρεση των πιο παραγωγικών διαδικασιών σχηματισμού λέξεων, οπότε και στην εμπεριστατωμένη απόδοση ξενόγλωσσων νεολογισμών και ορολογίας στην Ελληνική. Συνεπώς το πρόγραμμα του ΚΕΕΟΝ της Ακαδημίας Αθηνών υποστηριζόμενο από τη δημιουργία σώματος κειμένων και σωμάτων ειδικού λεξιλογίου (ορολογία) – τα οποία διαφοροποιούνται από τα ήδη υπάρχοντα – αποτελεί ισχυρό ερευνητικό εργαλείο που οδηγεί από την απλή καταγραφή των νεολογισμών στη μελέτη και την έρευνά τους με ευρύτερες προεκτάσεις στη γλωσσολογική-μορφολογική και κειμενο-γλωσσολογική έρευνα της Νέας Ελληνικής».

Υπεύθυνη Ομάδα:

Δρ Αναστασία Χριστοφίδου, Διευθύντρια ΚΕΕΟΝ

Δρ Αθανάσιος Καρασίμος, Βασιλική Αφεντουλίδου, ΜPhil & Ειρήνη Δημητροπούλου, MA

Στοιχεία επικοινωνίας:

Σμολένσκυ 17, 11473 Αθήνα

Τηλ:  210 3664731

E-mail: geon@academyofathens.gr

Εφορευτική Επιτροπή:

(επταμελής επιτροπή Ακαδημαϊκών)

Πρόεδρος:  Σπύρος Ιακωβίδης

Επόπτης:  Θανάσης Βαλτινός

Μέλη:  Αθανάσιος Καμπύλης, Κωνσταντίνος Δρακάτος,  Αντώνιος Κουνάδης, Βασίλειος Πετράκος,  Αντώνιος Ρεγκάκος

Original post on:
Advertisements

What do you think? Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s