Αυτόµατης Αναγνώρισης Ονοµατικών Οντοτήτων, Πτυχιακή Εργασία Τμήμα Πληροφορικής ΤΕΙ Θεσσαλονίκης
February 4th, 2008
E voila η πτυχιακή μου. Ορίστε ολόκληρη, ακολουθεί η εισαγωγή…
Σκοπός αυτής της εργασίας ήταν η διερεύνηση ενός σχετικά παρθένου ερευνητικά πεδίου, της Αυτόµατης Αναγνώρισης Ονοµατικών Οντοτήτων (ΑΑΟΟ) στην Ελληνική γλώσσα. Η παρούσα εργασία τοποθετείται στο ευρύτερο πεδίο της Επεξεργασίας Φυσικών Γλωσσών και ειδικότερα στο πεδίο της Εξαγωγής Πληροφορίας από κείµενο (Information Extraction). Ένα από τα προβλήµατα της Εξαγωγής Πληροφορίας είναι και η ΑΑΟΟ. Η ΑΑΟΟ ανήκει στη κατηγορία των προβληµάτων ταξινόµησης. Συστήµατα ΑΑΟΟ κατασκευάζονται µε συµβολικές µεθόδους, µε µεθόδους Μηχανικής Μάθησης, αλλά και µε µεθόδους που χρησιµοποιούν και τις δυο παραπάνω τεχνικές (υβριδικά συστήµατα). Το σύστηµα µας χρησιµοποιεί τεχνικές Μηχανικής Μάθησης που ανήκουν στον τοµέα της Τεχνητής Νοηµοσύνης και της Θεωρίας Στατιστικής Μάθησης. Συγκεκριµένα εφαρµόζουµε την τεχνική των Μηχανών Διανυσµάτων Υποστήριξης που αποτελεί τη βάση αυτής της εργασίας, την τεχνική της Μέγιστης Εντροπίας και την τεχνική του νευρωνικού ταξινοµητή One-Time. Επιλέξαµε την χρήση των Μηχανών ιανυσµάτων Υποστήριξης καθώς έχουν επιδείξει κορυφαίες επιδόσεις σε µια πληθώρα πρακτικών εφαρµογών και θεωρούνται πλέον “state of the art” στην κοινότητα της Μηχανικής Μάθησης. Ανάλογης αποδοχής τυγχάνει και η Μέγιστη Εντροπία, ενώ η χρήση του One-Time έγινε καθότι ο αλγόριθµος αυτός βρίσκεται σε στάδιο ανάπτυξης και έχει δώσει πολύ ενθαρρυντικά πρώτα δείγµατα ταχύτατης εκπαίδευσης και υψηλής απόδοσης.
Στα πλαίσια αυτής της εργασίας πραγµατοποιήθηκε υποβολή δύο δηµοσιεύσεων σε συνέδρια. Μια στο “7th International Conference on Greek Linguistics” που θα λάβει χώρα στο York της Αγγλίας τον Σεπτέµβριο όπου και η εργασία µας έχει γίνει δεκτή. Και µια στο ετήσιο αµερικάνικο συνέδριο “Machine Learning for Signal Processing” από όπου αναµένουµε έγκριση.
Ξεκινάµε µε το κεφάλαιο 1 και µια εισαγωγή στην Επεξεργασία Φυσικών Γλωσσών και τη Μηχανική Μάθηση. Στο κεφάλαιο 1 επιχειρείται µια σύντοµη παρουσίαση του πεδίου της Αυτόµατης Αναγνώρισης Ονοµατικών Οντοτήτων. Στο κεφάλαιο 2 παρουσιάζουµε τις τεχνικές Μηχανικής Μάθησης που εφαρµόσαµε στο σύστηµα µας. Στο κεφάλαιο 3 παρουσιάζουµε τα δεδοµένα των πειραµάτων µας και τα χαρακτηριστικά που εξάγαµε από τα σώµατα δεδοµένων για την τροφοδότηση των τεχνικών Μηχανικής Μάθησης. Με την παρουσίαση του πειράµατος, των αποτελεσµάτων και των σχολιασµό αυτών ολοκληρώνουµε στο κεφάλαιο 4.