Parlare ad un computer e lui, obbediente, scrive tutto ciò che desideriamo.
Questa sembra essere l’ultima frontiera dell’interazione tra uomo e macchina,
e anche se dovremo attendere ancora anni per avere questo risultato,
attualmente sono disponibili dei programmi che ne costituiscono le basi, ma che sono ancora limitati.
Infatti, ben ché non ce ne rendiamo conto, riuscire a comprendere una persona che
parla normalmente è estremamente complesso. In condizioni di ascolto difficile,
il nostro cervello è attrezzato per sopperire alle difficoltà ricostruendo le frasi in base al senso.
Facciamo un esempio: se pronunciamo la frase "prese la bottiglia e le versò un bicchiere di pino"
è molto probabile che chi ascolta percepisca "vino" e non "pino"
proprio perché il cervello umano provvede a correggere
quelli che potremmo de finire errori nella logica della frase.
Nella dettatura al computer questo problema è ancora insuperabile.
Esiste poi un altro inconveniente anch’esso importante:
la differenza di timbro fra le varie persone, differenza che spesso
è tale da creare grosse difficoltà ai programmi di riconoscimento vocale:
infatti il sistema di riconosci mento si basa su un confronto
fra quanto viene pronunciato e alcune tabelle interne,
i suoni vengono paragonati con quelli presenti in tali tabelle
per vedere a quali lettere essi corrispondono.
Ma le differenze di tonalità sono tali che è stato necessario affiancare
al sistema il cosidetto "addestramento", fase fondamentale per il corretto funzionamento del programma.
L’addestramento, che va effettuato soltanto la prima volta e ha una durata variabile dalla mezz’ora all’ora,
consiste nel dettare al computer una serie di frasi predefinite che servono a creare le tabelle di confronto.
In tal modo il programma è in grado di riconoscere correttamente come pronunciamo le parole,
ma di contro è in grado di interagire solo con la voce dell’addestratore.
Pertanto se sulla stessa macchina dovessero operare più persone, ciascuna deve effettuare la propria fase di addestramento,
in modo da creare un proprio profilo.
Lo stesso microfono, strumento necessario per dettare al computer, gioca un ruolo importante infatti,
se non è sufficientemente sensibile, può compromettere l’accuratezza del riconoscimento.
Per tale ragione spesso i pro grammi vengono venduti con accluso un microfono molto sensibile;
per questo è meglio escludere i cosiddetti microfoni a "stilo"
(ovvero quelli che si appoggiano sulla scrivania),
preferendo invece quelli da "centralinista" che si posizionano sulla testa
dove il microfono viene a trovarsi ad una distanza costante di pochi centimetri dalla bocca.
In questa fase diventa importante il filtraggio dei disturbi:
se l’ambiente di dettatura è rumoroso, il programma deve applicare una serie di filtri
al segnale in ingresso per estrarre la voce dai rumori di fondo.
Ma questo è possibile solo se il rumore rispetta una certa soglia di tolleranza.
Alcuni kit dispongono di un microfono direzionale,
in grado di raccogliere sia il suono prove niente dalla direzione della bocca dell’operatore
che in quella opposta, costituito in pratica dal so lo rumore:
sommando in controfase le due onde sonore, si riesce a ottenere un segnale abbastanza pulito.
Ma il vero punto debole del software di riconoscimento vocale
è costituito dalla necessità di parlare con chiarezza e senza "mangiare" le parole,
altrimenti queste ultime non verranno riconosciute, o peggio, verranno interpretate erroneamente.
Purtroppo chi ha la "erre moscia", incontra maggiori problemi nel far riconoscere all’elaboratore
le frasi in quanto si verifica un’ambiguità nella "r" che assomiglierà al la "v".
Ma generalmente i programmi vengono dotati di ricchi dizionari che servono a verificare le parole riconosciute:
in tal modo "trascovveve" viene corretta mente trascritta come "trascorrere". Provare per credere!
La stessa cosa vale se l’operatore subisce un’alterazione alla voce a causa di un raffreddore:
la cosa più semplice è avviare una nuova fase di addestramento
per insegnare al PC a interpretare il timbro più nasale della propria voce.
Tuttavia i programmi più evoluti dispongono di una funzione di aggiornamento costante
delle tabelle di riconoscimento e, teoricamente, dovrebbero imparare giorno dopo giorno
per essere sempre più precisi.
Ma la vera evoluzione è avvenuta recentemente con l’introduzione
del riconoscimento del cosiddetto "parlato continuo",
ovvero la capacità da parte dei programmi di comprendere le parole pronunciate in sequenza senza pause.
Questa caratteristica è estrema mente importante in quanto sia mo abituati
a parlare quasi unendo le parole fra loro o comunque a fare una pausa quasi impercettibile.
Così, a differenza di quando era indispensabile dettare le singole parole, una ad una,
ora la dettatura diventa un’operazione assai più naturale: in situazioni ottimali
è possibile arrivare a dettare con scioltezza ad una discreta velocità che,
sebbene inferiore a quella con cui si parla normalmente, risulta comunque soddisfacente.
La correttezza del l’interpretazione da parte del computer di quanto dettato è generalmente soddisfacente
sempreché si abbia l’accortezza di scandirle con molta chiarezza.
Diventa così possibile utilizzare questi software per sostituire la digitazione con la dettatura,
soprattutto per coloro che non dattiloscrivono con dieci dita.
Ma come fa il computer a capire quando desideriamo andare a capo nel testo oppure inserirvi un segno di interpunzione?
Semplicemente glielo diciamo. Per esempio, se si desidera inserire un punto e andare a capo si detterà "punto a capo"
e il programma provvederà di conseguenza. Inoltre sono disponibili una serie di comandi,
anch’essi attivabili verbalmente, per la correzione del testo oppure per la sua formattazione come il tipo di font,
il maiuscolo o minuscolo, la sottolineatura o, addirittura, simulare l’utilizzo del mouse.
Ma cosa è necessario per poter utilizzare i programmi di riconoscimento vocale?
E sufficiente un computer con una potenza pari ad almeno un Pentium 133 e 32 MB di memoria, un CD-Rom per l’installazione, una
scheda sonora e un microfono molto sensibile spesso presente all’interno della scatola del programma);
il tutto con un investimento indicativo inferiore al milione e mezzo.
All’hardware va poi aggiunto il costo del programma,
che si può comprare a partire dalle 300.000 lire contro i costi che fino ad un paio d’anni or sono superavano il milione.
La prossima frontiera di questo settore è costituita dal riconoscimento del parlato discorsivo,
ovvero al modo naturale di parlare dell’uomo.
La tecnologia che dovrebbe essere utilizzata è basata sulle cosiddette "reti neurali",
le quali dovrebbero rendere possibile al computer di comportarsi come un cervello umano.
Tratto da:
Paolo Guccini
Computer Valley
(allegato del quotidiano La Repubblica)
26 febbraio 1998