Επεξεργασία της Ελληνικής φυσική γλώσσας
Όντας μία μικρή χώρα με μία περίπλοκη και μοναδική γλώσσα είναι αναμενόμενο να υστερούμε σημαντικά σε εργαλεία και πληροφορίες για την ανάλυση των Ελληνικών με υπολογιστές. Σκοπός αυτής της σελίδας είναι να συγκεντρώσει πληροφορίες και εργαλεία για NLP στα Ελληνικά (corpus lists, έτοιμα μοντέλα, stemmers, gazeteers κτλ).
Θα χαρώ πολύ αν επικοινωνήσετε μαζί μου στο info@php-nlp-tools.com είτε για να μοιραστείτε κάποια εργαλεία, πληροφορίες, κώδικα κτλ είτε για συζητήσουμε για την υλοποίηση κάποιων αλγορίθμων στην βιβλιοθήκη.
POS Taggers
Πιο ελληνικά, επισημειωτές μερών του λόγου. Για τον επισημειωτή των NlpTools μπορείτε να διαβάσετε παραπάνω στο blog.
- NlpTools pos-tag (η εφαρμογή) και τα μοντέλα
- AUEB's POS Tagger
Stemmers
NlpTools
Δεν υπάρχει ακόμη κάποιος stemmer υλοποιημένος. Να υλοποιηθεί κάποιος από τους από κάτω; Ίσως όλοι;
Papers
- Γεώργιος Νταής, Master Thesis, 2006 [pdf]
Gazeteers
- Λίστα ελληνικών ονομάτων (την συνέλεξε και την επεξεργάστηκε ο κύριος Φουνταλής)
Corpus
Χρήσιμα Link
- Τμήμα Φυσικής Γλώσσας και Εξαγωγής Γνώσης
- Ομάδα Επεξεργασίας Φυσικής Γλώσσας Οικονομικό Πανεπιστήμιο Αθηνών