Natural Language Toolkit

...software, data sets and tutorials for natural language processing...

Gr:Introduction

 

From NLTK

Jump to: navigation, search

Contents

1 Εισαγωγή στην επεξεργασία φυσικής γλώσσας

1.1 Γιατί η επεξεργασία γλωσσών είναι χρήσιμη

Πώς γράφουμε τα προγράμματα για να χειριστούμε τη φυσική γλώσσα; Σε ποιες ερωτήσεις για τη γλώσσα θα μπορούσαμε να απαντήσουμε; Πώς τα προγράμματα θα λειτουργούσαν, και ποια στοιχεία θα χρειάζονταν; Αυτοί είναι ακριβώς μερικά από τα θέματα που θα καλύψουμε σε αυτό το βιβλίο. Προτού να αντιμετωπίσουμε το θέμα συστηματικά, θα ρίξουμε μια γρήγορη ματιά σε μερικούς απλούς στόχους στους οποίους τα υπολογιστικά εργαλεία χειρίζονται τα γλωσσικά στοιχεία με ποικίλους ενδιαφέροντες και non-trivial τρόπους.

Το πρώτο παράδειγμά μας περιλαμβάνει την πίεση λέξησ. Το λεξικό προφοράς CMU είναι ένα αναγνώσιμο από μηχανή λεξικό που δίνει την προφορά πάνω από 125.000 λέξεων στα βορειοαμερικανικά αγγλικά. Κάθε είσοδος αποτελείται από μια λέξη στην τυποποιημένη ορθογραφία που ακολουθείται από μια φωνολογική μεταγραφή. Παραδείγματος χάριν, η είσοδος για τη γλώσσα είναι η ακόλουθη:

(1)		language / L AE1 NG G W AH0 JH .

Κάθε χαρακτήρας ή ομάδα χαρακτήρων μετά από την κάθετο αντιπροσωπεύει ένα αγγλικό φώνημα, και οι τελικοί αριθμοί δείχνουν την πίεση λέξης. Δηλαδή AE1 είναι ο πυρήνας μιας τονισμένης συλλαβήσ, ενώ AH0 είναι ο πυρήνας unstressed. Υποθέστε ότι θέλουμε να βρούμε κάθε λέξη στο λεξικό που εκθέτει ένα ιδιαίτερο σχέδιο πίεσης πέστε, λέξεις η των οποίων αρχική πίεση είναι στην τελευταίος-τελευταία συλλαβή τους (αυτό καλείται προ-πρεαντεπενuλτηματε-προ πίεση). Η έρευνα μέσω του λεξικού με το χέρι θα ήταν κουραστική, και θα χάναμε πιθανώς μερικών από τις περιπτώσεις. Μπορούμε να γράψουμε ένα απλό πρόγραμμα που θα εξαγάγει τους αριθμούς 0 ..1 και 2 από τη μεταγραφή και θα δημιουργήσει έναν νέο τομέα stress_pattern για κάθε λέξη που είναι ακριβώς μια ακολουθία αυτών των αριθμών πίεσης. Αφότου έχει γίνει αυτό, είναι εύκολο να ανιχνευθούν τα αποσπασματικά σχέδια πίεσης για οποιαδήποτε ακολουθία που τελειώνει με 10000. Εδώ είναι μερικές από τις λέξεις ότι μπορούμε να βρούμε τη χρησιμοποίηση αυτής της μεθόδου:

(2) ACCUMULATIVELY / AH0 K Y UW1 M Y AH0 L AH0 T IH0 V L IY0
    AGONIZINGLY / AE1 G AH0 N AY0 Z IH0 NG L IY0
    CARICATURIST / K EH1 R AH0 K AH0 CH ER0 AH0 S T
    CUMULATIVELY / K Y UW1 M Y AH0 L AH0 T IH0 V L IY0
    IMAGINATIVELY / IH2 M AE1 JH AH0 N AH0 T IH0 V L IY0
    INSTITUTIONALIZES / IH2 N S T AH0 T UW1 SH AH0 N AH0 L AY0 Z AH0 Z
    SPIRITUALIST / S P IH1 R IH0 CH AH0 W AH0 L AH0 S T
    UNALIENABLE / AH0 N EY1 L IY0 EH0 N AH0 B AH0 L

Το δεύτερο παράδειγμά μας περιλαμβάνει επίσης τη φωνολογία. Όταν κατασκευάζουμε έναν κατάλογο των ήχων για μια γλώσσα, ενδιαφερόμαστε συνήθως για ακριβώς εκείνους τους ήχους που μπορούν να κάνουν μια διαφορά κατά την έννοια λέξης. Για να κάνουμε αυτό, ψάχνουμε τα ελάχιστα ζευγάριαδηλαδή ευδιάκριτες λέξεις που διαφέρουν μόνο σε έναν ήχο. Παραδείγματος χάριν, να υποστηρίξουμε ότι οι ήχοι [ π ] και [ β ] στα αγγλικά είναι διακριτικοί επειδή εάν αντικαθιστάμε ενός με άλλο, καταλήγουμε συχνά με μια διαφορετική λέξη:

(3) pat vs. bat
    nip vs. nib

Υποθέστε ότι θέλουμε να κάνουμε αυτό συστηματικότερα για μια γλώσσα όπου έχουμε έναν κατάλογο λέξεων, αλλά προσπαθούμε ακόμα να καθορίσουμε τον υγιή κατάλογο. Σαν την προκείμενη περίπτωση, NLTK περιλαμβάνει ένα λεξικό για Rotokas, μια γλώσσα ανατολικού Papuan προφορική στο νησί Bougainville, κοντά στη Νέα Παπούα-Γουϊνέα. Υποθέστε ότι ενδιαφερόμαστε για πόσα φωνήεντα υπάρχουν σε Rotokas. Μπορούμε να γράψουμε ένα πρόγραμμα για να βρούμε όλες τις λέξεις τέσσερις-επιστολών που διαφέρουν μόνο από το πρώτο φωνήεν τους, και ταξινομούν σε πίνακες τα αποτελέσματα για να επεξηγήσουν τις αντιθέσεις φωνήεντος:

(4) kasi -    kesi kusi kosi
    kava -    -    kuva kova
    karu kiru keru kuru koru
    kapu kipu -    -    kopu
    karo kiro -    -    koro
    kari kiri keri kuri kori
    kapa -    kepa -    kopa
    kara kira kera -    kora
    kaku -    -    kuku koku
    kaki kiki -    -    koki

Τα δύο προηγούμενα παραδείγματα έχουν χρησιμοποιήσει τους λεξικολογικούς πόρους. Μπορούμε επίσης να γράψουμε τα προγράμματα για να αναλύσουμε τα κείμενα με τους διάφορους τρόπους. Σε αυτό το παράδειγμα, προσπαθούμε να χτίσουμε ένα πρότυπο των σχεδίων των παρακείμενων λέξεων στο βιβλίο της γένεσησ. Κάθε ζευγάρι των παρακείμενων λέξεων είναι γνωστό ωσ bigram, και μπορούμε να χτίσουμε ένα πολύ απλό πρότυπο της βιβλικής γλώσσας ακριβώς με τον υπολογισμό bigrams. Υπάρχουν πολλά χρήσιμα πράγματα που μπορούμε να κάνουμε με τέτοιες πληροφορίες, όπως ο προσδιορισμός των υφών της λογοτεχνίας ή ακόμα και ο προσδιορισμός του συντάκτη ενός κομματιού του κειμένου. Εδώ τον χρησιμοποιούμε για έναν πιό ιδιότροπο σκοπό: για να παραγάγει το τυχαίο κείμενο στο ύφος της γένεσης. Δεδομένου ότι θα δείτε, έχουμε κατορθώσει να συλλάβουμε κάτι για τη ροή του κειμένου από μια λέξη στην επόμενη, αλλά πέρα από αυτό είναι απλά αηδίες:

(5) lo, it came to the land of his father and he said, i will not be a
    wife unto him, saying, if thou shalt take our money in their kind,
    cattle, in thy seed after these are my son from off any more than all
    that is this day with him into egypt, he, hath taken away unawares to
    pass, when she bare jacob said one night, because they were born two
    hundred years old, as for an altar there, he had made me out at her
    pitcher upon every living creature after thee shall come near her:
    yea,		

Για το τελευταίο παράδειγμά μας, υποθέστε ότι συμμετέχουμε στην έρευνα στη σημασιολογική αντίθεση μελέτης στα αγγλικά ρήματα. Υποθέτουμε ότι μια χρήσιμη πηγή στοιχείων για να ερευνήσει τέτοιες αντιθέσεις να είναι ένας κατάλογος φράσεων ρήματος που είναι συνδεδεμένες με τη λέξη αλλά. Έτσι πρέπει να πραγματοποιήσουμε κάποια γραμματική ανάλυση για να βρούμε τις συνδεδεμένες φράσεις ρήματος, και να πρέπει επίσης να είμαστε σε θέση να διευκρινίσουμε αλλά ως κλίση. Παρά την προσπάθεια να γίνει η γραμματική ανάλυση οι ίδιοι, μπορούμε να χρησιμοποιήσουμε έναν πόρο στον οποίο τα συντακτικά δέντρα έχουν προστεθεί ήδη στα μέρη των προτάσεων. Το καλύτερο που είναι γνωστό για τέτοιους πόρους είναι το πανεπιστήμιο του σώματος της Πενσυλβανίας Treebank (ή Penn Treebank για απότομα), και μπορούμε να γράψουμε ένα πρόγραμμα για να διαβάσουμε τα δέντρα από αυτό το σώμα, να βρούν τις περιπτώσεις κλίσεων φράσης ρήματος που περιλαμβάνουν τη λέξη αλλά, και αναλυμένο το επίδειξη κείμενο που αντιστοιχεί στις δύο φράσεις ρήματος.

(6) (VBZ has) (VP opened its market to foreign cigarettes)
      *BUT* (VBZ restricts) (NP advertising) (PP-CLR to designated places)
    (VBZ admits) (SBAR 0 she made a big mistake)
      *BUT* (VBD did) (RB n't) (VP elaborate)
    (VBD confirmed) (SBAR 0 he had consented to the sanctions)
      *BUT* (VBD declined) (S \*-1 to comment further)
    (VBP are) (NP-PRD a guide to general levels)
      *BUT* (VBP do) (RB n't) (ADVP-TMP always) (VP represent actual transactions)
    (VBN flirted) (PP with a conversion to tabloid format) (PP-TMP for years)
      *BUT* (ADVP-TMP never) (VBN executed) (NP the plan)
    (VBD ended) (ADVP-CLR slightly higher)
      *BUT* (VBD trailed) (NP gains in the Treasury market)
    (VBD confirmed) (NP the filing)
      *BUT* (MD would) (RB n't) (VP elaborate)

Στην παρουσίαση αυτών των παραδειγμάτων, έχουμε προσπαθήσει να σας δώσουμε μια γεύση της σειράς των πραγμάτων που μπορεί να γίνει με τη φυσική γλώσσα χρησιμοποιώντας τα υπολογιστικά εργαλεία. Όλα τα ανωτέρω παραδείγματα παρήχθησαν χρησιμοποιώντας τις απλές τεχνικές προγραμματισμού και μερικές γραμμές κώδικα Python. Μετά από να εργαστείτε μέσω των πρώτων-πρώτων κεφαλαίων αυτού του βιβλίου, θα είστε σε θέση γράφετε τέτοια προγράμματα οι ίδιοι. Στη διαδικασία, θα έρθετε να καταλάβετε τα βασικά της επεξεργασίας φυσικής γλώσσασ, που βραχύνονται εφεξής ως ΕΦΓ. Στο υπόλοιπο αυτού του κεφαλαίου, θα σας δώσουμε περισσότερους λόγους να σκεφτούμε ότι η ΕΦΓ είναι και σημαντική και διασκέδαση.

1.2 Η γλωσσική πρόκληση

1.2.1 Η γλώσσα είναι πλούσια και σύνθετη

Η γλώσσα είναι η προϊστάμενος εκδήλωση της ανθρώπινης νοημοσύνης. Μέσω της γλώσσας εκφράζουμε τις πρώτες ανάγκες και τις υψηλές φιλοδοξίες, την τεχνικές τεχνογνωσία και τις πτήσεις της φαντασίας. Οι ιδέες μοιράζονται πέρα από τους μεγάλους χωρισμούς της απόστασης και του χρόνου. Τα ακόλουθα δείγματα από τα αγγλικά επεξηγούν την αφθονία της γλώσσας:

(7)
 a. Overhead the day drives level and grey, hiding the sun by a flight
    of grey spears.  (William Faulkner, *As I Lay Dying*, 1935)
 b. When using the toaster please ensure that the exhaust fan is turned
    on. (sign in dormitory kitchen)
 c. Amiodarone weakly inhibited CYP2C9, CYP2D6, and CYP3A4-mediated
    activities with Ki values of 45.1-271.6 |mu|\M (Medline, PMID: 10718780)
 d. Iraqi Head Seeks Arms (spoof news headline)
 e. The earnest prayer of a righteous man has great power and wonderful
    results. (James 5:16b)
 f. Twas brillig, and the slithy toves did gyre and gimble in the wabe
    (Lewis Carroll, *Jabberwocky*, 1872)
 g. There are two ways to do this, AFAIK :smile:  (internet discussion archive)

Χάρι σε αυτήν την αφθονία, η μελέτη της γλώσσας είναι μέρος πολλών επιστημών έξω από τη γλωσσολογία, συμπεριλαμβανομένης της μετάφρασης, τη λογοτεχνική κριτική, τη φιλοσοφία, την ανθρωπολογία και την ψυχολογία. Πολλές λιγότερο προφανείς πειθαρχίες ερευνούν τη γλωσσική χρήση, όπως η παθολογία νόμου, ερμηνευτικής, ιατροδικαστικών, τηλεφωνίας, παιδαγωγικής, αρχαιολογίας, κρυπτολογικής ανάλυσης και ομιλίας. Κάθε ένας εφαρμόζει τις ευδιάκριτες μεθοδολογίες για να συλλέξει τις παρατηρήσεις, να αναπτύξουν τις θεωρίες και τις υποθέσεις δοκιμής. Ακόμα όλοι χρησιμεύουν να εμβαθύνουν την κατανόησή μας γλώσσας και του διάνοιας που φανερώνεται στη γλώσσα.

Η σημασία της γλώσσας στην επιστήμη και τις τέχνες αντιστοιχείται στη σημασία από τον πολιτιστικό θησαυρό που ενσωματώνεται στη γλώσσα. Κάθε μια από τις ανθρώπινες γλώσσες παγκόσμιου ~7,000 είναι πλούσια από μοναδικές απόψεις, στις προφορικούς ιστορίες και τους μύθους δημιουργιών της, κάτω από στις γραμματικές κατασκευές της και τις ίδιες τις λέξεις της και τις αποχρώσεις σημασίας τους. Οι απειλητικοί υπόλοιποι πολιτισμοί έχουν τις λέξεις για να διακρίνουν τα υποείδη εγκαταστάσεων σύμφωνα με τις θεραπευτικές χρήσεις που είναι άγνωστες στην επιστήμη. Οι γλώσσες εξελίσσονται κατά τη διάρκεια του χρόνου καθώς έρχονται σε επαφή η μια με την άλλη και παρέχουν ένα μοναδικό παράθυρο επάνω στην ανθρώπινη προϊστορία. Η τεχνολογική αλλαγή προκαλεί τις νέες λέξεις όπως το blog και τα νέα μορφήματα όπως το ε - και cyber -. Σε πολλά μέρη του κόσμου, οι μικρές γλωσσικές παραλλαγές από μια πόλη στην επόμενη προσθέτουν μέχρι μια απολύτως διαφορετική γλώσσα στο διάστημα μιας ημίωρης κίνησης. Για τη συναρπαστικές πολυπλοκότητα και την ποικιλομορφία της, η ανθρώπινη γλώσσα είναι ως ζωηρόχρωμο τέντωμα ταπήτων μέσω του χρόνου και του διαστήματος.

1.2.2 Γλώσσα και το Διαδίκτυο

Σήμερα, άνθρωποι από όλα τα κοινωνικά στρώματα — συμπεριλαμβανομένων των επαγγελματιών, των σπουδαστών, και του γενικού πληθυσμού — έρχεται αντιμέτωπος από τους πρωτοφανείς όγκους των πληροφοριών, ο απέραντος όγκος των οποίων αποθηκεύεται ως μη δομημένο κείμενο. Το 2003, υπολογίστηκε ότι η ετήσια παραγωγή των βιβλίων ανήλθε σε 8 terabyte. (Ένα terabyte είναι 1.000 gigabytes, δηλ., ισοδύναμα 1.000 φορτηγά επαναλείψεων που γεμίζουν με με τα βιβλία.) Θα έπαιρνε έναν άνθρωπο περίπου πέντε έτη για να διαβάσει το νέο επιστημονικό υλικό που παράγεται κάθε 24 ώρες. Αν και αυτές οι εκτιμήσεις είναι βασισμένες στα έντυπα υλικά, όλο και περισσότερο οι πληροφορίες είναι επίσης διαθέσιμες ηλεκτρονικά. Πράγματι, έχει υπάρξει μια έκρηξη του κειμένου και του περιεχομένου πολυμέσων στο World Wide Web. Για πολλούς ανθρώπους, ένα μεγάλο και αυξανόμενο μέρος της εργασίας και του ελεύθερου χρόνου είναι ξοδευμένη πλοήγηση και πρόσβαση σε αυτού του κόσμου των πληροφοριών.

Η παρουσία τόσο πολύ κειμένου με ηλεκτρονική μορφή είναι μια τεράστια πρόκληση στην ΕΦΓ. Αμφισβητήσιμα, ο μόνος τρόπος για τους ανθρώπους να αντιμετωπίσουν την έκρηξη πληροφοριών είναι να εκμεταλλευτούν τις υπολογιστικές τεχνικές που μπορούν να κοσκινίσουν μέσω των τεράστιων οργανισμών του κειμένου.

Αν και οι υπάρχουσες μηχανές αναζήτησης είναι κρίσιμες για την αύξηση και τη δημοτικότητα του Ιστού, οι άνθρωποι απαιτούν την ικανότητα, τη γνώση, και κάποια τύχη, για να εξαγάγουν τις απαντήσεις σε τέτοιες ερωτήσεις όπως ποιες περιοχές τουριστών μπορούν εγώ να επισκεφτούν μεταξύ της Φιλαδέλφειας και του Πίτσμπουργκ σε έναν περιορισμένο προϋπολογισμό; Τι οι ειδικοί κριτικοί λένε για τις ψηφιακές φωτογραφικές μηχανές SLR; Ποιες προβλέψεις για την αγορά χάλυβα έγιναν από τους αξιόπιστους σχολιαστές στην προηγούμενη εβδομάδα; Να πάρει έναν υπολογιστή για να απαντηθούν είναι αυτόματα ένας ρεαλιστικός μακροπρόθεσμος στόχος, αλλά θα περιελάμβανε μια σειρά των στόχων επεξεργασίας γλωσσών, συμπεριλαμβανομένης της εξαγωγής πληροφοριών, του συμπεράσματος, και της περιληπτικής παρουσίασης της πληροφορίας, και θα πρέπει να εκτελεσθεί σε μια κλίμακα και με ένα επίπεδο ευρωστίας που είναι ακόμα πέρα από τις τρέχουσες ικανότητές μας.

1.2.3 Η υπόσχεση της ΕΦΓ

Δεδομένου ότι έχουμε δει, η ΕΦΓ είναι σημαντική για επιστημονικούς, οικονομικούς, κοινωνικούς, και πολιτιστικούς λόγους. Η ΕΦΓ δοκιμάζει την ταχεία ανάπτυξη ως θεωρίες της και οι μέθοδοι επεκτείνονται σε ποικίλη νέα γλωσσική τεχνολογία. Για αυτόν τον λόγο είναι σημαντικό για ένα ευρύ φάσμα των ανθρώπων να υπάρξει γνώση εργασίας ΕΦΓ. Μέσα στον ακαδημαϊκό κόσμο, αυτό περιλαμβάνει τους ανθρώπους στις περιοχές από τον υπολογισμό ανθρωποτήτων και τη γλωσσολογία σωμάτων κατευθείαν στην πληροφορική και την τεχνητή νοημοσύνη. Μέσα στη βιομηχανία, περιλαμβάνει τους ανθρώπους στην ανθρώπου-υπολογιστή αλληλεπίδραση, την ανάλυση επιχειρησιακών πληροφοριών, και την ανάπτυξη λογισμικού Ιστού. Ελπίζουμε ότι, ένα μέλος αυτού του διαφορετικού ακροατηρίου που διαβάζει αυτά τα υλικά, θα έρθετε να εκτιμήσετε τα έργα αυτού του γρήγορα αυξανόμενου τομέα της ΕΦΓ και θα εφαρμόσετε τις τεχνικές της στη λύση των πραγματικών προβλημάτων.

Τα ακόλουθα κεφάλαια παρουσιάζουν μια προσεκτικά-ισορροπημένη επιλογή των θεωρητικών θεμελίων και των πρακτικών αιτήσεων, και εξοπλίζουν τους αναγνώστες για να εργαστούν με τα μεγάλα σύνολα δεδομένων, για να δημιουργήσουν τα γερά πρότυπα των γλωσσικών φαινομένων, και για να τα επεκτείνουν στις τεχνολογίες επίσημης γλώσσας εργασίας. Με την ενσωμάτωση όλου αυτού στο κουτί εργαλείων φυσικής γλώσσας (NLTK), ελπίζουμε ότι αυτό το βιβλίο ανοίγει τη συναρπαστική προσπάθεια της πρακτικής επεξεργασίας φυσικής γλώσσας σε ένα ευρύτερο ακροατήριο από πάντα πριν.

1.3 Γλώσσα και υπολογισμός

1.3.1 ΕΦΓ και νοημοσύνη

Μια από μακρού υφιστάμενη πρόκληση μέσα στην πληροφορική ήταν να χτιστούν οι ευφυείς μηχανές. Το προϊστάμενος μέτρο της νοημοσύνης μηχανών είναι γλωσσικό, δηλαδή η δοκιμή Turing: μπορεί ένα σύστημα διαλόγου, που αποκρίνεται στη δακτυλογραφημένη εισαγωγή ενός χρήστη με την κειμενική παραγωγή του, να αποδώσει τόσο φυσικά ότι οι χρήστες δεν μπορούν να την διακρίνουν από έναν ανθρώπινο συνομιλητή χρησιμοποιώντας την ίδια διεπαφή; Σήμερα, υπάρχει ουσιαστικές τρέχουσες έρευνα και ανάπτυξη σε τέτοιες περιοχές όπως την αυτόματη μετάφραση και τον προφορικό διάλογο, και τα σημαντικά εμπορικά συστήματα είναι σε διαδεδομένη χρήση. Ο ακόλουθος διάλογος επεξηγεί μια χαρακτηριστική εφαρμογή:

(8) S: How may I help you?
    U: When is Saving Private Ryan playing?
    S: For what theater?
    U: The Paramount theater.
    S: Saving Private Ryan is not playing at the Paramount theater, but
     it's playing at the Madison theater at 3:00, 5:30, 8:00, and 10:30.

Τα σημερινά εμπορικά συστήματα διαλόγου περιορίζονται αυστηρά στις λεπτομερώς-καθορισμένες περιοχές. Δεν θα μπορούσαμε να ζητήσουμε από το ανωτέρω σύστημα για να παρέχουμε τις οδηγώντας οδηγίες ή τις λεπτομέρειες των κοντινών εστιατορίων εκτός αν οι απαραίτητες πληροφορίες είχαν αποθηκευτεί ήδη και οι κατάλληλες προτάσεις ερωταποκρίσεων ήταν ενσωματωμένων στο σύστημα επεξεργασίας γλωσσών. Παρατηρήστε ότι το ανωτέρω σύστημα εμφανίζεται να καταλαβαίνει τους στόχους του χρήστη: ο χρήστης ρωτά πότε ένας κινηματογράφος παρουσιάζει και το σύστημα καθορίζει σωστά από αυτό ότι ο χρήστης θέλει να δει τον κινηματογράφο. Αυτό το συμπέρασμα φαίνεται τόσο προφανές στους ανθρώπους που συνήθως δεν παρατηρούμε ακόμη και ότι έχει γίνει, όμως ένα σύστημα φυσικής γλώσσας πρέπει να χρηματοδοτηθεί με αυτήν την ικανότητα προκειμένου να αλληλεπιδράσει φυσικά. Χωρίς το, όταν ρωτιούνται ξέρετε κατά τη διάσωση ιδιωτικού Ryan παίζετε, ένα σύστημα απλά — και unhelpfully — αποκριθείτε με ένα κρύο ναι. Ενώ φαίνεται ότι αυτό το σύστημα διαλόγου μπορεί να εκτελέσει τα απλά συμπεράσματα, τέτοια εκλέπτυνση βρίσκεται μόνο στα ερευνητικά πρωτότυπα τεμνουσών ακρών. Αντ' αυτού, οι υπεύθυνοι για την ανάπτυξη των εμπορικών συστημάτων διαλόγου χρησιμοποιούν τις βασισμένες στα συμφραζόμενα υποθέσεις και την απλή επιχειρησιακή λογική για να εξασφαλίσουν ότι οι διαφορετικοί τρόποι με τους οποίους ένας χρήστης να εκφράσει τα αιτήματα ή να παρέχει τις πληροφορίες αντιμετωπίζονται με έναν τρόπο που έχει νόημα για την ιδιαίτερη εφαρμογή. Κατά συνέπεια, εάν ο χρήστης λέει πότε είναι..., ή θέλω να ξέρω όταν..., ή μπορεί εσείς να με πει όταν..., οι απλοί κανόνες θα παραγάγουν πάντα τους χρόνους διαλογής. Αυτό είναι επαρκές για το σύστημα για να παρέχει μια χρήσιμη υπηρεσία.

Παρά μερικές πρόσφατες προόδους, είναι γενικά αλήθεια ότι εκείνα τα συστήματα φυσικής γλώσσας που έχουν επεκταθεί πλήρως ακόμα δεν μπορούν να εκτελέσουν την κοινή λογική διαλογιμένος ή να επισύρουν την προσοχή στην παγκόσμια γνώση. Μπορούμε να περιμένουμε αυτά τα δύσκολα προβλήματα τεχνητής νοημοσύνης που λύνονται, αλλά στο μεταξύ είναι απαραίτητο να ζήσει με μερικούς αυστηρούς περιορισμούς στις ικανότητες συλλογισμού και γνώσης των συστημάτων φυσικής γλώσσας. Συνεπώς, ευθύς εξαρχής, ένας σημαντικός στόχος της ΕΦΓ έρευνας ήταν να σημειωθεί πρόοδος ιερό grail της φυσικής γλωσσικής αλληλεπίδρασης χωρίς προσφυγή σε αυτήν την απεριόριστη ικανότητα γνώσης και συλλογισμού. Αυτό είναι μια παλαιά πρόκληση, και έτσι είναι διδακτικό να αναθεωρηθεί η ιστορία του τομέα.

1.3.2 Γλώσσα και επεξεργασία συμβόλων

Η ίδια η έννοια ότι η φυσική γλώσσα θα μπορούσε να αντιμετωπιστεί κατά τρόπο υπολογιστικό αυξήθηκε από ένα ερευνητικό πρόγραμμα, χρονολομένος από τις πρόωρες δεκαετίες του 20ου αιώνα, για να αναδημιουργήσει τη μαθηματική χρησιμοποιώντας λογική συλλογισμού, που φανερώθηκε ο πιό σαφώς στην εργασία από Frege, το Russell, Wittgenstein, Tarski, Lambek και Carnap. Αυτή η εργασία οδήγησε στην έννοια της γλώσσας ως επίσημο σύστημα υποκείμενο στην αυτόματη επεξεργασία. Τρεις πιό πρόσφατες εξελίξεις έθεσαν τα θεμέλια για την επεξεργασία φυσικής γλώσσας. Ο πρώτος ήταν θεωρία επίσημης γλώσσασ. Αυτό καθόρισε μια γλώσσα ως σύνολο σειρών που έγινε αποδεκτό από μια κατηγορία αυτομάτων, όπως οι ανεξάρτητες από τα συμφραζόμενα γλώσσες και pushdown τα αυτόματα, και παρείχε τις υποστηρίξεις για την υπολογιστική σύνταξη.

Η δεύτερη ανάπτυξη ήταν συμβολική λογική. Αυτό παρείχε μια επίσημη μέθοδο για τις επιλεγμένες πτυχές της φυσικής γλώσσας που είναι σχετικές για την έκφραση των λογικών αποδείξεων. Ένας επίσημος υπολογισμός στη συμβολική λογική παρέχει τη σύνταξη μιας γλώσσας, μαζί με τους κανόνες του συμπεράσματος και, ενδεχομένως, τους κανόνες της ερμηνείας σε ένα σύνολο-θεωρητικό πρότυπο τα παραδείγματα είναι προτασιακή λογική και πρώτη λογική διαταγής. Λαμβάνοντας υπόψη έναν τέτοιο υπολογισμό, με μια καθορισμένες με σαφήνεια σύνταξη και μια σημασιολογία, είναι δυνατό να συνδεθούν οι έννοιες με τις εκφράσεις της φυσικής γλώσσας με τη μετάφραση τους στις εκφράσεις του επίσημου υπολογισμού. Παραδείγματος χάριν, εάν μεταφράζουμε John εβλέίδε Mary σε έναν τύπο εβλέίδε (j, μ), (σιωπηρά ή ρητά) intepret το αγγλικό ρήμα εβλέίδαμε ως δυαδική σχέση, και John και Mary ως δείξιμο των ατόμων. Οι γενικότερες δηλώσεις όπως όλη τη μύγα πουλιών απαιτούν τα quantifiers, σε αυτήν την περίπτωση ∀, έννοια για όλουσ: ∀Χ (bird(x) → μύγα (X)). Αυτή η χρήση της λογικής παρείχε τα τεχνικά μηχανήματα για να εκτελέσει τα συμπεράσματα που είναι ένα σημαντικό μέρος της γλωσσικής κατανόησης.

Μια πολύ σχετική ανάπτυξη ήταν η αρχή compositionality, δηλαδή ότι η έννοια μιας σύνθετης έκφρασης αποτελείται από την έννοια των μερών της και τον τρόπο συνδυασμού τους. Αυτή η αρχή παρείχε μια χρήσιμη αλληλογραφία μεταξύ της σύνταξης και της σημασιολογίας, δηλαδή ότι η έννοια μιας σύνθετης έκφρασης θα μπορούσε να υπολογιστεί κατ' επανάληψη. Εξετάστε την πρόταση που δεν είναι αλήθεια ότι π, όπου το π είναι μια πρόταση. Μπορούμε να αντιπροσωπεύσουμε την έννοια αυτής της πρότασης ως όχι (P). Ομοίως, μπορούμε να αντιπροσωπεύσουμε την έννοια John εβλέίδαμε Mary όπως εβλέίδε, μ). Τώρα μπορούμε να υπολογίσουμε ότι η ερμηνεία από το δεν είναι αληθινή ότι John εβλέίδε Mary κατ' επανάληψη, που χρησιμοποιεί τις ανωτέρω πληροφορίες, για να πάρει όχι (εβλέίδαν (j, μ)).

Το περιγραμμένη προσεγγίσεων ακριβώς μερίδιο η προϋπόθεση σπου ο υπολογισμός με τη φυσική γλώσσα στηρίζεται αποφασιστικά στους κανόνες για τις συμβολικές αντιπροσωπεύσεις. Για μια ορισμένη περίοδο στην ανάπτυξη της ΕΦΓ, ιδιαίτερα κατά τη διάρκεια της δεκαετίας του '80, αυτή η προϋπόθεση παρείχε μια κοινή αφετηρία και για τους γλωσσολόγους και για τα practioners της ΕΦΓ, που οδηγεί σε μια οικογένεια των φορμαλισμών γραμματικής γνωστών ως ενοποίηση-βασισμένη στην (ή γνώρισμα-βασισμένων στην) γραμματική, και στην ΕΦΓ οι εφαρμογές εφάρμοσαν στην Prolog τη γλώσσα προγραμματισμού. Αν και η γραμματική-βασισμένη στο ΕΦΓ είναι ακόμα ένας σημαντικός τομέας της έρευνας, έχει γίνει κάπως σκιασμένο στα τελευταία τέλη ετών 15–20 σε ποικίλους παράγοντες. Μια σημαντική επιρροή προήλθε από την αυτόματη λεκτική αναγνώριση. Αν και η πρόωρη εργασία στην επεξεργασία του λόγου υιοθέτησε ένα πρότυπο που μιμήθηκε το είδος βασισμένης στους κανόνες φωνολογικής επεξεργασίας που απεικονίστηκε από το υγιές σχέδιο των αγγλικών [ Ν. & halle, 1968 ], αυτό αποδείχθηκε απελπισμένα ανεπαρκές όσον αφορά στο σκληρό πρόβλημα την πραγματική ομιλία σε τίποτα όπως τον πραγματικό χρόνο. Σε αντίθεση, τα συστήματα που περιέλαβαν τα σχέδια εκμάθησης από τους μεγάλους οργανισμούς των λεκτικών στοιχείων ήταν σημαντικά ακριβέστερα, αποδοτικά και ισχυρά. Επιπλέον, η λεκτική κοινότητα διαπίστωσε ότι η πρόοδος στην οικοδόμηση των καλύτερων συστημάτων βοηθήθηκε σημαντικά από την κατασκευή των κοινών πόρων για ποσοτικά να μετρήσει την απόδοση ενάντια στα κοινά στοιχεία δοκιμής. Τελικά, ένα μεγάλο μέρος της ΕΦΓ κοινότητας αγκαλίασε έναν εντατικό προσανατολισμό στοιχείων στην επεξεργασία γλωσσών, που συνδέθηκε με μια αυξανόμενη χρήση της μηχανή-εκμάθησης των τεχνικών και της αξιολόγηση-οδηγημένης μεθοδολογίας.

1.3.3 Φιλοσοφικές διαιρέσεις

Οι αντιπαραβαλλόμενες προσεγγίσεις στην ΕΦΓ που περιγράφεται στο προηγούμενο τμήμα αφορούν πίσω στις πρόωρες μεταφυσικές συζητήσεις για τον ορθολογισμό εναντίον της εμπειριοκρατίας και του ρεαλισμού εναντίον του ιδεαλισμού που εμφανίστηκε στην περίοδο Διαφωτισμού δυτικής φιλοσοφίας. Αυτές οι συζητήσεις πραγματοποιήθηκαν ενάντια σε ένα σκηνικό της ορθόδοξης σκέψης στην οποία η πηγή όλης της γνώσης θεωρήθηκε θεία αποκάλυψη. Κατά τη διάρκεια αυτής της περιόδου δέκατων έβδομων και δέκατων όγδοων αιώνων, οι φιλόσοφοι υποστήριξαν ότι ο ανθρώπινος λόγος ή η αισθητήρια εμπειρία έχει την προτεραιότητα πέρα από την αποκάλυψη. Καρτέσιος και Leibniz, μεταξύ των άλλων, υποστήριξαν τη θέση ορθολογιστών, βεβαιώνοντας ότι όλη η αλήθεια έχει την προέλευσή της στην ανθρώπινη σκέψη, και στην ύπαρξη των "έμφυτων ιδεών" που εμφυτεύονται στα μυαλά μας από τη γέννηση. Παραδείγματος χάριν, υποστήριξαν ότι οι αρχές της euclidean γεωμετρίας αναπτύχθηκαν χρησιμοποιώντας τον ανθρώπινο λόγο, και δεν ήταν το αποτέλεσμα της υπερφυσικής αποκάλυψης ή αισθητήρια εμπειρία. Αντίθετα, Locke και άλλα υποστήριξαν την άποψη empiricist, ότι η αρχική πηγή γνώσης μας είναι η εμπειρία των ικανοτήτων μας, και ότι ο ανθρώπινος λόγος διαδραματίζει έναν δευτεροβάθμιο ρόλο στην απεικόνιση σε εκείνη την εμπειρία. Τα πρωτότυπα στοιχεία για αυτήν την θέση ήταν ανακάλυψη — Γαλιλαίου με βάση την προσεκτική παρατήρηση της κίνησης των πλανητών — ότι το ηλιακό σύστημα είναι ηλιοκεντρικό και μη γεωκεντρικό. Στα πλαίσια της γλωσσολογίας, αυτή η συζήτηση οδηγεί στην ακόλουθη ερώτηση: μέχρι ποιό σημείο η ανθρώπινη γλωσσική εμπειρία, εναντίον της έμφυτης "γλωσσικής ικανότητάς μασ", παρέχει τη βάση για τη γνώση γλώσσας μας; Στην ΕΦΓ επιφάνειες αυτού του θέματος ως διαφορές στην προτεραιότητα των στοιχείων σωμάτων εναντίον της γλωσσικής ενδοσκόπησης στην κατάρτιση των υπολογιστικών προτύπων. Θα επιστρέψουμε σε αυτό το ζήτημα αργότερα στο βιβλίο.

Μια περαιτέρω ανησυχία, που φυλάχθηκε στη συζήτηση μεταξύ του ρεαλισμού και του ιδεαλισμού, ήταν η μεταφυσική θέση των κατασκευασμάτων μιας θεωρίας. Kant που υποστηρίζεται μια διάκριση μεταξύ των φαινομένων, οι εκδηλώσεις μπορούμε να δοκιμάσουμε, και "πράγματα σε τουσ" που δεν μπορούν ποτέ γνωστός άμεσα. Ένας γλωσσικός πραγματιστής θα έπαιρνε ένα θεωρητικό κατασκεύασμα όπως την ονοματική φράση για να είναι πραγματική παγκόσμια οντότητα που υπάρχει ανεξάρτητα από την ανθρώπινους αντίληψη και το λόγο, και που προκαλεί πραγματικά τα παρατηρηθέντα γλωσσικά φαινόμενα. Ένας γλωσσικός ιδεαλιστής, αφ' ετέρου, θα υποστήριζε ότι οι ονοματικές φράσεις, μαζί με περισσότερα αφηρημένα κατασκευάσματα όπως τις σημασιολογικές αντιπροσωπεύσεις, είναι πραγματικά unobservable, και διαδραματίζουν απλά το ρόλο των χρήσιμων μυθιστοριογραφιών. Ο τρόπος που οι γλωσσολόγοι γράφουν για τις θεωρίες προδίδει συχνά μια θέση πραγματιστών, ενώ οι ΕΦΓ επαγγελματίες καταλαμβάνουν το ουδέτερο έδαφος ειδάλλως το άπαχο κρέας προς τη θέση ιδεαλιστών. Κατά συνέπεια, στην ΕΦΓ, είναι αρκετά συχνά εάν μια θεωρητική αφαίρεση οδηγεί σε ένα χρήσιμο αποτέλεσμα δεν πειράζει εάν αυτό το αποτέλεσμα ρίχνει οποιοδήποτε φως στην ανθρώπινη γλωσσική επεξεργασία.

Αυτά τα ζητήματα είναι ακόμα ζωντανά σήμερα, και παρουσιάζουν στις διακρίσεις μεταξύ συμβολικός εναντίον των στατιστικών μεθόδων, βαθύς εναντίον της ρηχής επεξεργασίας, δυαδικός εναντίον των ταξινομήσεων κλίσης, και επιστημονικός εναντίον των στόχων εφαρμοσμένης μηχανικής. Εντούτοις, τέτοιες αντιθέσεις είναι τώρα ιδιαίτερα, και η συζήτηση δεν είναι πλέον τόσο πολωμένη όπως ήταν μιά φορά. Στην πραγματικότητα, οι περισσότερες από τις συζητήσεις — και οι περισσότερες από τις προόδους ακόμη και — περιλάβετε μια "ισορροπώντας πράξη". Παραδείγματος χάριν, μια ενδιάμεση θέση είναι να υποτεθεί ότι οι άνθρωποι χρηματοδοτούνται εγγενώς με τις αναλογικές και μνήμη-βασισμένες μεθόδους εκμάθησης (αδύνατος ορθολογισμός), και να χρησιμοποιηθούν αυτές οι μέθοδοι για να προσδιορίσει τα σημαντικά σχέδια στην αισθητήρια γλωσσική εμπειρία τους (εμπειριοκρατία). Για μια πιό συγκεκριμένη απεικόνιση, εξετάστε τον τρόπο με τον οποίο οι στατιστικές από τα μεγάλα σώματα μπορούν να χρησιμεύσουν ως τα στοιχεία για τις δυαδικές επιλογές σε μια συμβολική γραμματική. Παραδείγματος χάριν, τα λεξικά περιγράφουν τις λέξεις απολύτως και σίγουρα όπως σχεδόν συνώνυμες, όμως τα σχέδια χρήσης τους είναι αρκετά ευδιάκριτα όταν συνδυάζονται με ένα ακόλουθο ρήμα, όπως φαίνεται στον πίνακα 1.1.

Πίνακας 1.1:

   +-----------------+------------+-------------+-------------+--------------+
   | Google hits     |`adore`:lx: | `love`:lx:  |`like`:lx:   |`prefer`:lx:  |
   +-----------------+------------+-------------+-------------+--------------+
   | `absolutely`:lx:|     289,000|       905,00|       16,200|           644|
   +-----------------+------------+-------------+-------------+--------------+
   | `definitely`:lx:|       1,460|       51,000|      158,000|        62,600|
   +-----------------+------------+-------------+-------------+--------------+
   | ratio           |       198:1|         18:1|         1:10|          1:97|
   +-----------------+------------+-------------+-------------+--------------+

   `Absolutely`:lx: vs `Definitely`:lx: (Liberman 2005, LanguageLog.org)

Δεδομένου ότι θα δείτε, adore απολύτως είναι περίπου 200 φορές δημοφιλείς όπως σίγουρα adore, ενώ απολύτως προτιμήστε είναι περίπου 100 φορές σπανιότερος έπειτα σίγουρα προτιμήστε. Αυτές οι πληροφορίες χρησιμοποιούνται από τα στατιστικά γλωσσικά πρότυπα, αλλά μετρούν επίσης ως στοιχεία για έναν συμβολικό απολογισμό του συνδυασμού λέξης στον οποίο μπορεί απολύτως μόνο να τροποποιήσει τις ακραίες ενέργειες ή τις ιδιότητες, μια ιδιοκτησία που θα μπορούσε να αντιπροσωπευθεί ως δυαδικός-εκτιμημένο χαρακτηριστικό γνώρισμα ορισμένων λεκτικών τεμαχίων. Κατά συνέπεια, βλέπουμε τα στατιστικά στοιχεία τα συμβολικά πρότυπα. Μόλις κωδικοποιηθούν συμβολικά αυτές οι πληροφορίες, είναι διαθέσιμες για να χρησιμοποιηθούν δεδομένου ότι ένα βασισμένο στα συμφραζόμενα χαρακτηριστικό γνώρισμα για τη στατιστική γλωσσική διαμόρφωση, παράλληλα με πολλές άλλες πλούσιες πηγές συμβολικών πληροφοριών, όπως χέρι-κατασκευασμένος αναλύει τα δέντρα και τις σημασιολογικές αντιπροσωπεύσεις. Τώρα ο κύκλος είναι κλειστός, και βλέπουμε τις συμβολικές πληροφορίες τα στατιστικά πρότυπα.

Αυτή η νέα συνδιαλλαγή προκαλεί πολλές συναρπαστικές νέες εξελίξεις. Θα αγγίξουμε σε μερικοί από αυτούς στις επόμενες σελίδες. Επίσης θα εκτελέσουμε αυτήν την ισορροπώντας πράξη, υιοθετώντας τις προσεγγίσεις στην ΕΦΓ που ενσωματώνουν αυτές τις ιστορικά-αντιταγμένες φιλοσοφίες και μεθοδολογίες.

1.4 Η αρχιτεκτονική των γλωσσικών και ΕΦΓ συστημάτων

1.4.1 Παραγωγικά γραμματική και διαμορφώσιμο

Ένας από τους διανοητικούς απογόνους της θεωρίας επίσημης γλώσσας ήταν το γλωσσικό πλαίσιο γνωστό ως παραγωγική γραμματική. Μια τέτοια γραμματική περιέχει ένα σύνολο κανόνων που διευκρινίζουν κατ' επανάληψη (ή παράγετε) το σύνολο καλοσχηματισμένων σειρών σε μια γλώσσα. Ενώ υπάρχει ένα ευρύ φάσμα των προτύπων που οφείλουν κάποια υποταγή σε αυτόν τον πυρήνα, η μετασχηματιστική γραμματική Chomsky, στις διάφορες ενσαρκώσεις της, είναι πιθανώς το καλύτερο γνωστό. Στην παράδοση Chomskyan, υποστηρίζεται ότι οι άνθρωποι οργανώνουν τα ευδιάκριτα είδη γλωσσικής γνώσης, στις διαφορετικές ενότητες: παραδείγματος χάριν, γνώση της υγιούς δομής μιας γλώσσας (φωνολογία), γνώση δομής λέξης (μορφολογία), γνώση δομής φράσης (σύνταξη), και γνώση σημασίας (σημασιολογία). Σε μια επίσημη γλωσσική θεωρία, κάθε είδος γλωσσικής γνώσης γίνεται ρητό ως διαφορετική ενότητα της θεωρίας, που αποτελείται από μια συλλογή των βασικών στοιχείων μαζί με έναν τρόπο τους στις σύνθετες δομές. Παραδείγματος χάριν, μια φωνολογική ενότητα να παρέχει ένα σύνολο φωνημάτων μαζί με μια λειτουργία για τη σύνδεση των φωνημάτων στις φωνολογικές σειρές. Ομοίως, μια συντακτική ενότητα να παρέχει τους επονομαζόμενους κόμβους ως πρωτόγονους wih μαζί ένας μηχανισμός για τους στα δέντρα. Ένα σύνολο γλωσσικών πρωτόγονων, μαζί με μερικούς χειριστές για τον καθορισμό των σύνθετων στοιχείων, καλείται συχνά επίπεδο αντιπροσώπευσησ.

Όπως και τον καθορισμό των ενοτήτων, μια παραγωγική γραμματική θα ορίσει πώς οι ενότητες αλληλεπιδρούν. Παραδείγματος χάριν, οι καλοσχηματισμένες φωνολογικές σειρές θα παράσχουν το φωνολογικό περιεχόμενο των λέξεων, και οι λέξεις θα παράσχουν τα τελικά στοιχεία των δέντρων σύνταξης. Τα καλοσχηματισμένα συντακτικά δέντρα θα χαρτογραφηθούν στις σημασιολογικές αντιπροσωπεύσεις, και οι βασισμένες στα συμφραζόμενα ή πραγματικές πληροφορίες θα στηρίξουν αυτές τις σημασιολογικές αντιπροσωπεύσεις σε κάποια πραγματική κατάσταση.

Όπως δείξαμε ανωτέρω, μια σημαντική πτυχή των θεωριών της παραγωγικής γραμματικής είναι ότι προορίζονται να διαμορφώσουν τη γλωσσική γνώση των ομιλητών και ακροατών δεν προορίζονται να εξηγήσουν πώς οι άνθρωποι επεξεργάζονται πραγματικά τις γλωσσικές πληροφορίες. Αυτό, εν μέρει, απεικονίζεται στην αξίωση ότι ένα παραγωγικό grammer κωδικοποιεί την ικανότητα ενός εξιδανικευμένου φυσικού ομιλητή, παρά την απόδοση του ομιλητή. Μια πολύ σχετική διάκριση είναι να ειπωθεί ότι μια παραγωγική γραμματική κωδικοποιεί τη δηλωτική παρά διαδικαστική γνώση. Η δηλωτική γνώση μπορεί να σχολιαστεί όπως "ξέροντας τι", ενώ η διαδικαστική γνώση "ξέρει πώσ". Όπως να αναμείνετε, η υπολογιστική γλωσσολογία έχει τον κρίσιμο ρόλο της πρότασης των διαδικαστικών προτύπων της γλώσσας. Ένα κεντρικό παράδειγμα αναλύει, όπου πρέπει να αναπτύξουμε τους υπολογιστικούς μηχανισμούς που μετατρέπουν τις σειρές των λέξεων στις δομικές αντιπροσωπεύσεις όπως τα δέντρα σύνταξης. Εντούτοις, ευρέως γίνεται αποδεκτό ότι τα καλά-κατασκευασμένα υπολογιστικά πρότυπα της γλώσσας περιέχουν και τις δηλωτικές και διαδικαστικές πτυχές. Κατά συνέπεια, ένας πλήρης απολογισμός της ανάλυσης θα πει πώς η δηλωτική γνώση στη μορφή μιας γραμματικής και ενός λεξικού συνδυάζει με τη διαδικαστική γνώση που καθορίζει πώς μια συντακτική ανάλυση πρέπει να οριστεί σε μια δεδομένη σειρά των λέξεων. Αυτή η διαδικαστική γνώση θα εκφραστεί ως αλγόριθμοσ: δηλαδή μια ρητή συνταγή για τη χαρτογράφηση κάποιας εισαγωγής σε μια κατάλληλη παραγωγή σε έναν πεπερασμένο αριθμό βημάτων.

Ένας απλός αλγόριθμος ανάλυσης για τις ανεξάρτητες από τα συμφραζόμενα γραμματικές, παραδείγματος χάριν, φαίνεται πρώτος για έναν κανόνα του εντύπου s → Χ1 ... Χν, και κατασκευές μια μερική δομή δέντρων. Έπειτα βήματα μέσω της γραμματικής κυβερνά ένας-από-ένα, ψάχνοντας έναν κανόνα της μορφής Χ1 → Υ1 ... Το Υj που θα επεκτείνει τη leftmost κόρη που εισάγεται από τον κανόνα του s, και επεκτείνει περαιτέρω το μερικό δέντρο. Αυτή η διαδικασία συνεχίζεται, παραδείγματος χάριν με την έρευνα ενός κανόνα του εντύπου Υ1 → Ζ1 ... Το ζΚ και επέκταση του μερικού δέντρου κατάλληλα, μέχρι τη leftmost ετικέτα κόμβων στο μερικό δέντρο είναι μια λεξικολογική κατηγορία ο κατατμητής ελέγχει έπειτα για να δει εάν η πρώτη λέξη της εισαγωγής μπορεί να ανήκει στην κατηγορία. Για να επεξηγήσετε, υποθέστε ότι ο πρώτος κανόνας γραμματικής που επιλέγεται από τον κατατμητή είναι το s → Το NP VP και ο δεύτερος κανόνας που επιλέγεται είναι NP → Det νκατόπιν το μερικό δέντρο θα είναι το ακόλουθο:

(8) introduction-tree-1.png

Εάν υποθέσουμε ότι η σειρά εισαγωγής που προσπαθούμε να αναλύσουμε είναι η γάτα που κοιμάται, θα πετύχουμε στον προσδιορισμό ως λέξη που μπορεί να ανήκει στην κατηγορία Det. Σε αυτήν την περίπτωση, ο κατατμητής πηγαίνει προς τον επόμενο κόμβο του δέντρου, του ν, και της επόμενης λέξης εισαγωγής, γάτα. Εντούτοις, εάν είχαμε χτίσει το ίδιο μερικό δέντρο με μια σειρά εισαγωγής έκανε τον ύπνο γατών, αναλύστε θα απετύγχανε σε αυτό το σημείο, δεδομένου ότι έκανε δεν είναι της κατηγορίασ Det. Ο κατατμητής θα έριχνε μακριά τη δομή που χτίζεται μέχρι τώρα και θα έψαχνε έναν εναλλακτικό τρόπο από τον κόμβο του s κάτω σε μια leftmost λεξικολογική κατηγορία (π.χ., χρησιμοποιώντας έναν κανόνα s → Β NP VP). Το σημαντικό σημείο για δεν είναι τώρα οι λεπτομέρειες αυτού ή άλλων αλγορίθμων ανάλυσης συζητάμε αυτό το θέμα πιό πλήρως στο κεφάλαιο σχετικά με την ανάλυση. Μάλλον, θέλουμε ακριβώς να επεξηγήσουμε την ιδέα ότι ένας αλγόριθμος μπορεί να χωριστεί σε σταθερό αριθμό βημάτων που παράγουν ένα καθορισμένο αποτέλεσμα στο τέλος.

Στο σχήμα 1.1 επεξηγούμε περαιτέρω μερικά από αυτά τα σημεία στα πλαίσια ενός προφορικού συστήματος διαλόγου, όπως το προηγούμενο παράδειγμά μας μιας εφαρμογής που προσφέρει τις πληροφορίες χρηστών για τους κινηματογράφους αυτήν την περίοδο παρουσιάζει. ../ημαγες/δηαλογuε.πνγ

Σχήμα 1.1: Απλή αρχιτεκτονική σωληνώσεων για ένα προφορικό σύστημα διαλόγου

dialogue.png

Κάτω από την αριστερή πλευρά του διαγράμματος είναι μια "σωλήνωση" μερικών αντιπροσωπευτικών τμημάτων κατανόησης ομιλίασ. Αυτοί χαρτογραφούν από τη λεκτική εισαγωγή μέσω της συντακτικής ανάλυσης στην κάποια σημαίνοντας αντιπροσώπευση. Επάνω στη δεξιά πλευρά είναι μια αντίστροφη σωλήνωση των συστατικών για την έννοια-$$$-ΛΕΚΤΙΚΉ παραγωγή. Αυτά τα συστατικά αποτελούν τη δυναμική ή διαδικαστική πτυχή της επεξεργασίας φυσικής γλώσσας του συστήματος. Στην κεντρική στήλη του διαγράμματος είναι μερικοί αντιπροσωπευτικοί οργανισμοί των στατικών πληροφοριών: οι αποθηκεύσεις των σχετικών με τη γλώσσα στοιχείων που ζητιούνται από από τα τμήματα επεξεργασίας.

Το διάγραμμα διευκρινίζει ότι οι γλωσσολογικά-παρακινημένοι τρόποι τη γλωσσική γνώση απεικονίζονται συχνά στα υπολογιστικά συστήματα. Δηλαδή τα διάφορα συστατικά οργανώνονται έτσι ώστε το στοιχείο που ανταλλάσσουν αντιστοιχεί κατά προσέγγιση στα διαφορετικά επίπεδα αντιπροσώπευσης. Παραδείγματος χάριν, η παραγωγή του τμήματος λεκτικής ανάλυσης περιέχει τις ακολουθίες φωνολογικών αντιπροσωπεύσεων των λέξεων, και η παραγωγή του κατατμητή θα είναι μια σημασιολογική αντιπροσώπευση. Φυσικά ο παράλληλος δεν είναι ακριβής, εν μέρει επειδή είναι συχνά ένα θέμα πρακτικής σκοπιμότητας πού να τοποθετηθούν τα όρια μεταξύ των διαφορετικών τμημάτων επεξεργασίας. Παραδείγματος χάριν, μπορούμε να υποθέσουμε ότι μέσα στο τμήμα ανάλυσης υπάρχει ένα επίπεδο συντακτικής αντιπροσώπευσης, αν και έχουμε επιλέξει να μην εκθέσουμε αυτό στο επίπεδο του διαγράμματος συστημάτων. Παρά τέτοια idiosyncracies, τα περισσότερα ΕΦΓ συστήματα χωρίζουν την εργασία τους σε σειρά ιδιαίτερων βημάτων. Στο στάδιο της φυσικής γλώσσας που καταλαβαίνει, αυτά τα βήματα πηγαίνουν από τα πιό συγκεκριμένα επίπεδα σε περισσότερους αφηρημένους αυτούς, ενώ στην παραγωγή φυσικής γλώσσας, η κατεύθυνση αντιστρέφεται.

1.5 Πριν από να προχωρήσει περαιτέρω...

Μια σημαντική πτυχή της εκμάθησης της ΕΦΓ που χρησιμοποιεί αυτά τα υλικά είναι να βιωθεί και η πρόκληση και — ελπίζουμε — η ικανοποίηση της δημιουργίας του λογισμικού για να επεξεργαστεί τη φυσική γλώσσα. Το συνοδευτικό λογισμικό, NLTK, είναι διαθέσιμο δωρεάν και τρέχει στα περισσότερα λειτουργικά συστήματα συμπεριλαμβανομένου Linux/toy Unix, της MAC OSX και των Windows της Microsoft. Μπορείτε να μεταφορτώσετε NLTK από <http://nltk.sourceforge.net/>, μαζί με την εκτενή τεκμηρίωση. Σας ενθαρρύνουμε για να εγκαταστήσουμε Python και NLTK στη μηχανή σας πρίν διαβάζουμε πέρα από το τέλος αυτού του κεφαλαίου.

1.6 Περαιτέρω ανάγνωση

Διάφοροι ιστοχώροι έχουν τις χρήσιμες πληροφορίες για την ΕΦΓ, συμπεριλαμβανομένων των διασκέψεων, των πόρων, και των ομάδων ειδικός-ενδιαφέροντος, π.χ. www.lt-world.org, www.aclweb.org, www.elsnet.org. Ο ιστοχώρος της ένωσης για την υπολογιστική γλωσσολογία, σε www.aclweb.org, περιέχει μια επισκόπηση της υπολογιστικής γλωσσολογίας, συμπεριλαμβανομένων των αντιγράφων των εισαγωγικών κεφαλαίων από τα πρόσφατα εγχειρίδια. Το Wikipedia έχει τις καταχωρήσεις για την ΕΦΓ και subfields του (αλλά μην συγχύσετε την επεξεργασία φυσικής γλώσσας με την άλλη ΕΦΓ: νευρο-γλωσσικός προγραμματισμός.) Τρία βιβλία παρέχουν τις περιεκτικές έρευνες για τον τομέα: [ Cole, 1997 ], [ Dale, Moisl, & Somers, 2000 ], [ Mitkov, 2002 ]. Διάφορα ΕΦΓ συστήματα έχουν τις σε απευθείας σύνδεση διεπαφές με τις οποίες να επιθυμήσετε να πειραματιστείτε, π.χ.:

Περίπου παρόν έγγραφο...

Αυτό το κεφάλαιο είναι ένα σχέδιο από την εισαγωγή στην επεξεργασία φυσικής γλώσσασ, από το Steven Bird, Ewan Klein ανδ Edward Loper, πνευματικά δικαιώματα © το 2007 οι συντάκτες. Διανέμεται με το κουτί εργαλείων φυσικής γλώσσασ [1], έκδοση 0.7.5, υπό τον όρο της δημιουργικής άδειας αστικών τάξεων απόδοση- ShareAlike /.

Greek translation details...

Personal tools