Η χρήση συστημάτων Αυτόματης Φωνητικής Αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα

25285972_1545919312182551_1300859344_o
Γράφει ο Φώτιος Πανταζόγλου,

Μηχανικός Συστημάτων Msc.

Με τον όρο Αυτόματη Φωνητική Αναγνώριση –Automatic Speech Recognition (ASR)
εννοούμε την διαδικασία μετατροπής ενός ηχητικού σήματος φωνής σε μια διαδοχική σειρά λέξεων με την χρήση κάποιου υπολογιστικού αλγόριθμου (Anusuya & Katti, 2009). Αποτελεί πεδίο ενεργούς έρευνας για τα τελευταία 60 τουλάχιστον χρόνια και σαν κύριος στόχος της ερευνητικής κοινότητας παραμένει η βελτίωση της ακρίβειας της αυτόματης φωνητικής αναγνώρισης για διάφορα είδη προφορικού λόγου για διάφορα περιβάλλοντα και ομιλητές.
Ουσιαστικά με το ASR επιδιώκουμε η δια-δράση ανάμεσα σε άνθρωπο και μηχανή να είναι όσο το δυνατόν πιο ακριβής και εύχρηστη. Η έλλειψη ισχυρών υπολογιστικών συστημάτων δεν μας επέτρεπε να έχουμε την απαιτούμενη ακρίβεια στις διαδικασίες ASR ενώ ταυτόχρονα η απόδοση των μηχανών αυτών δεν μπορούσε να υπερνικήσει άλλα πιο κλασικά συστήματα δια δράσης μας με τις μηχανές , όπως το πληκτρολόγιο και το ποντίκι.

Αυτό βέβαια έχει αλλάξει την τελευταία δεκαετία (Yu, 2014) καθώς οι εξελίξεις στο τομέα των επεξεργαστών υπολογιστικών συστημάτων μας έχει επιτρέψει να έχουμε υπολογιστικά συστήματα με πολλαπλούς πυρήνες επεξεργασίας ενώ ταυτόχρονα μπορούμε να διασυνδέσουμε μια σειρά υπολογιστικών συστημάτων ώστε να εκτελούν την ίδια εργασία αυξάνοντας την επεξεργαστική ισχύ του συστήματος μας. Έτσι η διαδικασία της «εκπαίδευσης» που πρέπει να κάνουμε ώστε να έχουμε ένα ακριβές μοντέλο ASR μπορεί να προχωρήσει πιο γρήγορα και πιο εύκολα αποδίδοντας μας ένα τελικό αποτέλεσμα που έχει μεγαλύτερη ακρίβεια κατά την διαδικασία της ASR.

Τα τελευταία χρόνια έχουμε μια σειρά εφαρμογών στις οποίες η τεχνολογίες λόγου
παίζουν έναν σημαντικό λόγο. Αυτές μπορούν να διαχωριστούν σε αυτές που βελτιώνουν την επικοινωνία μεταξύ ανθρώπων και σε αυτές που βελτιώνουν την επικοινωνία μεταξύ ανθρώπου και μηχανής σε διάφορα περιβάλλοντα , μεταξύ των οποίων και τα στρατιωτικά…

25287010_1545919298849219_2049055239_n
Oι εφαρμογές που προέρχονται από τις τεχνολογίες φωνής έχουν σημαντικά βελτιώσει την δια δράση μας με διάφορες μηχανικές κατασκευές. Οι πιο δημοφιλείς εφαρμογές αυτής της κατηγορίας συμπεριλαμβάνουν την φωνητική αναζήτηση, τον προσωπικό ψηφιακό βοηθό ,το gaming, τα συστήματα δια δράσης για το σπίτι, τα συστήματα πληροφορίας και διασκέδασης για τα αυτοκίνητα. Παράλληλα υπάρχει και έντονο ενδιαφέρον αλλά και εφαρμογές για την χρήση της τεχνολογίας αυτής, ώστε να βοηθηθούν άτομα με ειδικές ανάγκες στην καθημερινότητα τους.
Η φωνητική αναγνώριση και εντολές στην σημερινή εποχή έχουν ήδη εφαρμοστεί σε
μια σειρά περιβαλλόντων δράσης, στρατιωτικού χαρακτήρα (Skaff, 2010). Τα πλεονεκτήματα που αυτή προσφέρει έχουν ήδη αξιολογηθεί από οργανισμούς στρατιωτικού χαρακτήρα όπως το ΝΑΤΟ με αποτέλεσμα ήδη από την δεκαετία του 1970 να έχουν δημιουργηθεί ομάδες έρευνας και εργασίας (Pigeon, 2005) που μέχρι και σήμερα εργάζονται στο τομέα εφαρμογής της τεχνολογίας φωνητικής αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα. Δυστυχώς σε αυτή την προσπάθεια δεν υπάρχει Ελληνική συμμετοχή τουλάχιστον μέχρι σήμερα.

Προφανώς και οι εφαρμογές που δρομολογούνται σε στρατιωτικά περιβάλλοντα έχουν να
αντιμετωπίσουν πολύ διαφορετικές προκλήσεις από τις αντίστοιχες εφαρμογές που
χρησιμοποιούμε στην πολιτική μας ζωή. Για παράδειγμα, η αυτόματη φωνητική αναγνώριση που χρησιμοποιείται σε στρατιωτικά σενάρια πρέπει να είναι ανθεκτική στις δυσμενείς συνθήκες.

Σύμφωνα λοιπόν με τον (Pigeon, 2005) οι στρατιωτικές εφαρμογές που κάνουν χρήση της συγκεκριμένης τεχνολογίας μπορούν να ενταχθούν στις παρακάτω κατηγορίες:

α) Διοίκηση και έλεγχος
Τα συστήματα ελέγχου και διοίκησης μπορούν να βοηθηθούν από την ανθρώπινη
αλληλεπίδραση με τους υπολογιστές, τα όπλα και τα συστήματα αισθητήρων με φωνή.
Αυτό βέβαια προϋποθέτει πολύ υψηλά επίπεδα απόδοσης της τεχνολογίας φωνής και
γλώσσας, υπό δυσμενείς συνθήκες, σε πραγματικό χρόνο, όπως κίνηση και θόρυβος και
διάφορα φαινόμενα στρες λειτουργώντας με πολύγλωσση είσοδο και έξοδο. Στο
περιβάλλον εργασίας για παράδειγμα ενός σύγχρονου ελικοπτέρου όπως το ΝΗ-90
ο χειριστής έχει σημαντικό και απαιτητικό φόρτο εργασίας κατά την διάρκεια της αποστολής του. Μέσα σε ένα περιβάλλον που χαρακτηρίζεται από υψηλό θόρυβο και κραδασμούς είναι επιφορτισμένος τόσο με την πτητική διαδικασία αυτή κάθε αυτή όσο και με την παρακολούθηση όλων των συστημάτων αισθητήρων που το ελικόπτερο διαθέτει.

25346238_1545919305515885_1335308063_o

Μέσα σε αυτό το πλαίσιο λειτουργίας εταιρείες όπως η Thales Αvionics ήδη πειραματίζονται από την δεκαετία του 1990 σε συστήματα διαχείρισης
τα οποία είναι βασισμένα στην δια δράση μεταξύ πιλότου και μηχανής. Έτσι ο πιλότος
θα μπορεί να λαμβάνει πληροφορίες για την κατάσταση του πτητικού μέσου μιλώντας
στην μηχανή, αφαιρώντας σημαντικό φόρτο εργασίας από πάνω του και επιτρέποντας
του να επικεντρωθεί σε εργασίες που αυτός εκείνη την στιγμή επιθυμεί. (πχ.
παρακολούθηση της υπέρυθρης κάμερας παρακολούθησης του αεροσκάφους).
Επίσης ενδεικτικά μόνον μπορεί κανείς να αναφέρει την χρήση της παραπάνω τεχνολογίας στο Eurofighter Typhoon αλλά και στο νεότερο και τεχνολογικά πολύ εξελιγμένο F 35.(Skaff, 2010). Και στις δυο περιπτώσεις οι φωνητικές εντολές έρχονται να βοηθήσουν τον χειριστή να έχει πιο καλό και γρήγορο έλεγχο πάνω στο πτητικό του μέσο

β) Επικοινωνίες
Οι επικοινωνίες πρέπει να λειτουργούν με ασφάλεια, με υψηλή ευκρίνεια, υπό συνθήκες
θορύβου και εμπλοκής. Το σήμα ομιλίας, για παράδειγμα, πρέπει να κωδικοποιηθεί και
να μεταδοθεί με αρκετή πίστη ώστε να γίνει κατανοητό από ακροατές που δεν είναι
γνώστες της γλώσσας που μιλιέται.

γ) Ηλεκτρονικοί υπολογιστές και πρόσβαση σε πληροφορίες
Την σημερινή εποχή οι υπολογιστές και η πρόσβαση στις πληροφορίες είναι ένα
κρίσιμο κομμάτι των σύγχρονων στρατιωτικών επιχειρήσεων. Η τεχνολογία φωνητικής
αναγνώρισης μπορεί να χρησιμοποιηθεί από το στρατιωτικό προσωπικό .ώστε αυτό να
ελέγξει διερευνήσει υπολογιστές και πληροφορίες κάνοντας χρήση της φωνής. Μια πολύ
χρήσιμη δυνατότητα ιδίως για προσωπικό που έχει απασχολημένα τα χέρια και μάτια
του την στιγμή που προσπαθεί να ανταπεξέλθει σε μεγάλο φόρτο εργασίας. Ταυτόχρονα
η όλο και εξελισσόμενες νέες συμμαχίες θέτουν νέες απαιτήσεις σε θέματα πολύ
επίπεδης ασφάλειας συστημάτων πληροφοριών καθώς η πρόσβαση στις διάφορες
πληροφορίες πρέπει να περιοριστεί στα κατάλληλα επίπεδα. Έτσι οι απαιτήσεις σχετικά
με την τεχνολογία φωνητικής αναγνώρισης, περιλαμβάνουν επαλήθευση ομιλητών,
πιστοποίηση δεδομένων ήχου, πολύγλωσση εισαγωγή δεδομένων και δυνατότητα
μετάφρασης ή σύνταξης των πληροφοριών από τη μία γλώσσα στην άλλη.

δ) Συλλογή πληροφοριών
Η συλλογή πληροφοριών θέτει υψηλές απαιτήσεις στην επεξεργασία και τη διάδοση των
πληροφοριών. Προκειμένου οι πληροφορίες να είναι χρήσιμες, πρέπει να είναι υψηλής
αξίας, ακριβείς και καταγεγραμμένες έγκαιρα. Η έκρηξη στην ανάπτυξη της
τεχνολογίας των επικοινωνιών και του διαδικτύου μας έχει προσφέρει μια τεράστια
πηγή με δεδομένα ήχου και κειμένου. Τα δεδομένα αυτά θα πρέπει να φιλτραριστούν
γιατί ενδεχομένως να περιέχουν και πληροφορίες με υψηλή στρατηγική η στρατιωτική
αξία. Η όλη διαδικασία λόγω του τεράστιου όγκου δεδομένων που υπάρχουν μπορεί
να αποσυμφωρηθεί με την χρήση εφαρμογών που εμπεριέχουν την τεχνολογία της
αυτόματης φωνητικής αναγνώρισης.

25317376_1545919308849218_1193676478_o

Η χρήση μονοθέσιων αεροσκαφών σε πολυπλοκές αποστολές κρούσης επιβαρύνει την αντίληψη του χειριστή-πιλότου κατά μια εναέρια μάχη. Η δυνατότητα φωνητικών εντολών (Direct Voice Input- DVI) μπορεί να αποβεί καθοριστική

ε) Εκπαίδευση δυνάμεων
Η εκπαίδευση δυνάμεων για στρατιωτικές επιχειρήσεις μπορεί να βοηθηθεί σημαντικά
εφαρμόζοντας την τεχνολογία ομιλίας ώστε να επιτρέψει στους ανθρώπους να
αλληλοεπιδρούν με προηγμένα συστήματα προσομοίωσης κάνοντας χρήση φωνητικών
εντολών. Επιπλέον, για τις πολυεθνικές επιχειρήσεις, είναι απαραίτητη η εκπαίδευση σε
ξένες γλώσσες. Η εκπαίδευση αυτή μπορεί να υποστηριχθεί με τη χρήση τεχνολογιών
ομιλίας και γλώσσας για την παροχή μάθησης ξένων γλωσσών με τη βοήθεια
υπολογιστή προς το στρατιωτικό προσωπικό που συμμετάσχει στις πολυεθνικές
επιχειρήσεις.
ζ) Πολυεθνικές δυνάμεις
Οι επιχειρήσεις πολυεθνικών δυνάμεων απαιτούν το συντονισμό δυνάμεων που μιλούν
διαφορετικές γλώσσες. Εδώ, η κατανόηση του λόγου και της γλώσσας καθώς και οι τεχνολογίες μετάφρασης μπορούν να βελτιώσουν την αποδοτικότητα και
την επιτυχία των επιχειρήσεων. Βέβαια οι απαιτήσεις που τίθενται είναι υψηλές. Έτσι οι
εφαρμογές θα πρέπει να επικεντρωθούν σε συγκεκριμένους τομείς για μετάφραση και ανταλλαγή πληροφοριών μεταξύ πολυεθνικών δυνάμεων υιοθετώντας συγκεκριμένη
φρασεολογία και ορολογία.

Γίνεται εμφανές ότι το όλο και εξελισσόμενο στρατιωτικό περιβάλλον απαιτεί πλέον να
έχουμε στην διάθεση μας νέα εργαλεία ώστε να αυξήσουμε την αποδοτικότητα μας κατά την διενέργεια των επιχειρήσεων.
Σαν ένα τέτοιο μπορεί να θεωρηθεί το επιστημονικό αποτέλεσμα που προέκυψε από την εργασία «Υλοποίηση συστήματος αναγνώρισης φωνητικών εντολών στην Ελληνική γλώσσα» που διενεργήθηκε στα πλαίσια του δια τμηματικού μεταπτυχιακού προγράμματος σπουδών «Σχεδίαση και Επεξεργασία Συστημάτων (Systems Engineering)» και είναι ελεύθερα διαθέσιμο στο διεθνές αποθετήριο του προγράμματος CMU Sphinx (https://goo.gl/9v3QqG) αλλά και της ΣΣΕ ( https:/gitlab.sse.gr/fpantazoglou/omilia ).

Το Ελληνικού μοντέλο αυτόματης φωνητικής αναγνώρισης, μπορεί να ενταχθεί σε οποιαδήποτε από τις παραπάνω προσπάθειες για ανάπτυξη εφαρμογής, βοηθώντας σημαντικά την προσπάθεια των Ελληνικών Ενόπλων Δυνάμεων για συνεχή βελτίωση των επιχειρησιακών τους δυνατοτήτων.

Λίγα λόγια για τον Συγγραφέα:

Ο κ. Φώτης Πανταζόγλου είναι ειδικός τεχνικός επιστήμονας με μάστερ στην Μηχανική Συστημάτων. Έχει 25ητη εμπειρία σε θέματα θαλάσσιας τεχνολογίας, νεών τεχνολογιών και έχει συμμετάσχει σε σειρά ερευνητικών αποστολών σε διάφορες θαλάσσιες περιοχές όπως ο Ατλαντικός Ωκεανός και η Ερυθρά θάλασσα. Κύρια ερευνητικά του ενδιαφέροντα είναι η αυτόματη φωνητική αναγνώριση, η συνεργασία ανθρώπου-μηχανής, τα αυτόνομα υποβρύχια οχήματα και ο προγραμματισμός.

25188242_1545919295515886_2146497093_n

H χρήση φωνητικών εντολών ιδιαίτερα στα μαχητικά αεροσκάφη 4ης γενιάς όπως το Eurofighter επιτρέπει την μείωση του φόρτου εργασίας ενός πιλότου

Μπορει κάποιος να διαβάσει την ακολουθη διατριβή του συγγραφέα σχετικά με το παραπάνω θέμα:

Implementation of the generic Greek Model for CMU Sphinx speech recognition toolkit (απαιτείται μια τυπική εγγραφή)

Βιβλιογραφία

-Anusuya, M., & Katti, S. (2009). Speech recognition by machine: A review. International
Journal of Computer Science and Information Security, 6(3), 181–205.
https://doi.org/10.1109/PROC.1976.10158

-Pigeon, S. (2005). Use of Speech and Language Technology in Military Environments. Technology
(Vol. 323).

-Skaff, M. (2010). F-35 Lightning II Cockpit Vision. SAE Int. J. Passeng. Cars – Electron.
Electr. Syst., 3(2), 131–140. https://doi.org/10.4271/2010-01-2330

-Yu, D. (2014). Automatic Speech Recognition: A Deep Learning Approach. Springer.
https://doi.org/10.1109/9780470546475

 

 

 

 

7 thoughts on “Η χρήση συστημάτων Αυτόματης Φωνητικής Αναγνώρισης σε περιβάλλοντα στρατιωτικού χαρακτήρα

  1. Σύντομο και καλο άρθρο.

    σχετικα με το Φ35

    Unlike other legacy aircraft, the F-35 cockpit has a full panel-width glass touch-screen that the pilot interacts with through touch, cursor hooking and voice recognition. With this new technology, the pilot can change the size, location, and content of what appears on each window of their screen, including a large window with a Tactical Situation Display (TSD). With this system, the pilot can manipulate a different set of control panels and interact with a separate display with a simple command. Using sensor fusion, the pilots can also see a single integrated operational picture on the TSD. Sensor fusion provides an easy-to-understand picture of the battlespace in front of the pilot.
    https://www.lockheedmartin.com/us/news/features/2014/5-things-you-might-not-know-about-the-f35.html

    τό προβλημα έρχεται μέ τήν αναγνώριση τού τί πραγματικά εννοεί ο πιλὸτος όπως όταν γίνει κάτι απρόοπτο οπως σέ αερομαχία και εκφωνήσει Fuk fck γαμ….το…θά τον γαμ….σω τον…μπινέ….τότε ο υπολογιστης χρειάζεται τεχνιτή νοημοσύνη ωστε με καθαρή φωνή να πει καπταιν κέρκ …..it does not compute…does not compute…:)

    Αρέσει σε 1 άτομο

  2. Αγαπητέ @Theognostos
    Για το F35 ότι πληροφορία υπάρχει διαθέσιμη προέρχεται ,όπως σωστά αναφέρεις,από την κατασκευάστρια εταιρεία και από δημοσιευμένες δουλειές όπως του Skaff.Ακόμα δεν έχουμε την δυνατότητα να έχουμε hands on info .Πράγματι η φωνητική αναγνώριση σε περιβάλλοντα επιχειρήσεων έχει να λάβει σημαντικές παραμέτρους υπόψη της ,όπως τα υψηλά επίπεδα θορύβου αλλά και επιταχύνσεων καθώς και μη αποδεκτών εκφράσεων.Πιο εύκολη είναι η διαδικασία σε λιγότερο στρεσογόνα περιβάλλοντα όπως τα ΝΗ90 για παράδειγμα. Το άρθρο αποτελεί μέρος μιας μεγαλύτερης επιστημονικής συγγραφής που φυσικά δεν ήταν δυνατόν να παρουσιαστεί λόγω μεγέθους στον φιλόξενο χώρο του defencegreece.

    Μου αρέσει!

  3. Αγαπητέ Φώτης Πανταζογλου
    νά είσαι καλά

    Θωρώ ότι η φωνητική εξακριβωση συνδέεται και πάει χέρι χέρι μέ την τεχνιτή νοημοσύνη. Γαρ άλλο το να πεί ενα ατομο ok Google …και μετα τήν διεύθυνση που θέλει νά πάει καί άλλο αναγνώριση φωνής και νοήματος κάτω απο εντελώς απροοπτες συνθήκες.

    Οταν ειχα πάει σε μία συνεδρίαση στην ΝΑΣΑ σταματησαμε για το μεσημεριανο και μετα οταν ξαναρχισαμε ο παρουσιαστής καθηγητης πανεπιστημίου μέσω του φορητού υπολογιστή και με φιλτρα ξεχωρισε ακρβώς το τι ελεγε καθε άτομο σε οποιοδηποτε σημειο της αιθουσας…
    φανταζεσαι μερικα ατομα κοκκινησαν ενεκα του θέματος της συζητήσεως

    οπως και να έχει η ακουστικη ειναι ένας κλαδος ενδιαφέρον χρησιμοποιύμε τήν ακουστικη γιά την ακρόαση μηχανων οπου αμεσαγνωριζουμε εαν υπάρχει προβλημα και που στην τουρμπινα στην μηχανη ακομη και στα Β52υπάρχουν μικροφωνα ωστε να γνωριζουν το μεγεθος ρωγμης εάν και εφόσον υφισταται
    στον υπερηχητικο χώρο επισης μεσω κρυστάλλων πιέσεως γνωριχουμε ακριβώς εαν και που ειναι η θέση του shock wave του ηχητικού κύματος κᾱθως και η δύναμη του κτλ..

    οπως και να έχει η τεχνολογία προχώράει εκπίζωπάντιτεο άνθρωπος να αποφασίζει σε τελικη αναλυση την εκβαση γεγονώτων και οχι μηχανές

    Μου αρέσει!

  4. Αγαπητέ Theognostos
    όλα όσα περιγράφεις υπάρχουν πράγματι.Και μάλιστα με την ραγδαία εξέλιξη των υπολογιστικών μηχανημάτων η ΑΙ γίνεται όλο και πιο αποδοτική και εφαρμόσιμη.
    Ναι στα στρατιωτικά θέματα υπάρχει ήδη χρήση της ακουστικής τεχνολογίας (συν των άλλων) και δυστυχώς σαν Ελλάδα δεν έχουμε (από την έρευνα που έχω κάνει) καμία εμπλοκή σε αυτό τον τομέα.
    Εύχομαι κάποια στιγμή να στραφούμε και εμείς προς τα εκεί καθώς το επιστημονικό μας προσωπικό είναι υπαρκτό και υψηλών δυνατοτήτων.
    Την καλημέρα μου

    Μου αρέσει!

Πείτε μας την άποψή σας...

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση /  Αλλαγή )

Φωτογραφία Google

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google. Αποσύνδεση /  Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση /  Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση /  Αλλαγή )

Σύνδεση με %s