top of page

Parliamo di Voce - 1

Studio Foniatra da ormai quarant’anni, amo la Voce, ma mi è difficile parlarne e tanto più scriverne, perchè non riesco a scindere un aspetto dall’altro di questa funzione multidimensionale, che comunica i nostri pensieri, la nostra identità.

Per questo inizierò da un piccolo gruppo di post, come ad assaggiare, boccone per boccone, il più buono dei dolci.

Ringrazio fin d’ora Nathan Sawaya (brickartist.com) che mi ha cortesemente concesso l’uso di foto che ho scattato ad alcune delle sue opere d’arte, immagini che mi aiuteranno a parlarvi di voce.


Voglio partire dalla voce non umana, dalla voce sintetizzata.

Giovedì 16 giugno, grazie a FoolFarm, avrò l’occasione di parlare all’Innovation Day 2022 : “Your life, your data, your Voice”. Cosa potrò dire?


Che mi piaccia o no, forse in risposta al “Perchè non parli??!!” di Michelangelo al Mosè, la storia della voce sintetizzata precede di molto le scoperte sulla voce umana : dalla fine del Settecento alla metà Ottocento, Kratzenstein, Von Kempelen, Wheatstone e Faber realizzarono strumenti via via atti a riprodurre le vocali umane, aggiungendo poi un mantice respiratorio, labbra e lingua… fino a poter riprodurre l’inno inglese, mentre Manuel Garcia jr. nasceva e pian piano arrivava a studiare il laringoscopio.

Poi dagli anni ’30 del XX secolo nascono il Vocoder ed una serie di dispositivi che ne derivano, producendo man mano una voce intelligibile e con uno spettro acustico “umano”. In un continuo intreccio di strade, questi studi permetteranno di scoprire le caratteristiche alla base della percezione dei “segmenti fonetici”, consonanti e vocali che compongono il linguaggio naturale umano.

Dagli anni Sessanta, in parallelo all’astronautica, nascono messaggi vocali, ad esempio le cosiddette “segreterie” che molti di noi ricorderanno, “si prega di lasciare un messaggio” “per … prema 1” “attendere prego” : voci metalliche, impersonali, monotone .


Ho citato l’astronautica non a caso, perché il cinema di fantascienza che esplode in quegli anni usa quelle voci in robot ed esseri di altri pianeti. Ma subito compaiono due pietre miliari per il nostro discorso: HAL 9000 , il computer di 2001 Odissea nello Spazio, ed il Traduttore Universale di Star Trek. Proprio Hal 9000 canta Daisy Bell mentre viene disconnesso, in citazione dell’esperimento in IBM del 1961.

Ma se un computer che parlava con noi ed eseguiva, più o meno, i nostri ordini o ci dava suggerimenti ci sembrava inquietante - mentre oggi è realtà nelle case e nelle tasche di molti di noi -, il Traduttore Universale era il sogno proibito , mentre sfogliavamo dizionari di latino, di greco di inglese o francese, tra un compito in classe e l’altro o semplicemente volevamo cantare e capire Let it Be dei Beatles.


La voce sintetica è progredita, ci siamo abituati ad una serie di messaggi registrati, sia con voci umane professionali che con la nostra stessa voce, l’analisi di messaggi vocali e voci riprodotte è diventato subito un capitolo importante nella medicina legale ed in campo militare.


Nei primi anni 2000 ho collaborato con un Collega, poi diventato un ottimo medico legale, alla stesura della sua tesi sulla Voce in ambienti aeronautici. Ecco che i comunicatori permettevano di superare il rumore di fondo di elicotteri o armi e trasferire le vibrazioni del mio tratto vocale all’ascolto di altri .

In parallelo si sviluppava una tecnologia che “dava voce” a persone con gravissimi problemi neurologici che non potevano più usare la propria : chi non ricorda Stephen Hawking?


Ma cosa chiediamo ora a una voce sintetica? A cosa ci può servire?

Abituati a giochi, device, servizi che sono diventati sempre più ricchi di voci umane (di attori, doppiatori,..) che danno vita a personaggi, funzioni, azioni … ci aspettiamo che ogni comunicazione in voce ci risulti “naturale” : persino Google traduttore e altri programmi analoghi hanno inserito la “pronuncia” di quello che abbiamo tradotto, o alcuni Pazienti stranieri arrivano con app che traducono in simultanea quello che io sto dicendo loro.


E’ un problema affatto semplice: parliamo per comunicare, ma la nostra voce non è solo ripetere o tradurre il contenuto di quello che diciamo. Anzi.

Ce ne siamo accorti tutti quando un messaggio, un sms, un tweet, un post “scritti” venivano clamorosamente fraintesi perchè mancava “l’intonazione, l’intenzione della nostra voce”.


Già la fedeltà della traduzione al contenuto non è semplice. Vanno considerate le frasi fatte, i modi di dire, frasi che hanno un senso in una lingua che si perde traducendolo. Ecco che alcune parole, bravo, ciao, okay sono diventate universali e nessuno accetterebbe “I’m your slave” per un “ciao”.


Ma una voce “comunica” se viene ascoltata.

Una voce sintetica “naturale” dovrà avere caratteristiche femminili o maschili, di diverse età, e possibilmente dovremmo poter “scegliere” la voce che ci risulta più gradevole, più affine : chi ascolta la voce del navigatore in auto se ci suona “antipatica”?


Una grande sfida che alcune app stanno accettando è appunto riconoscere le nostre emozioni : la voce sintetica come “soggetto virtuale” - di nuovo, ricordate S1mOne, con Al Pacino?- che si accorge di nostre emozioni e si comporta di conseguenza .

Si può pensare ad un valore sanitario - avvisa un sistema medico a distanza se la tua voce esprime dolore, grave malessere-, ma anche un valore sociale : oltre al cane o al gatto di compagnia, una voce umana che mi ascolta, parla con me e “mi mostra empatia” potrebbe essere utile per anziani soli o persone in situazioni di scarsi contatti sociali. Una voce di conversazione che tende a diventare una “voce, presenza di compagnia” - annunciata dalla mitica Caterina, del film di Alberto Sordi del 1980 -


Ormai diffusa la voce sintetica che risponde ai miei comandi vocali o mi chiede istruzioni, il rilevamento delle emozioni può anche tradire “chi si finge noi” imitando la nostra voce : elemento di assoluta importanza nel caso di rapporti in voce con banche, situazioni commerciali, stipule di contratti o bollette, o dovunque ci siano nostri dati sensibili “a rischio”.


Ma in particolare, sistemi di analisi sintetica della mia voce naturale, di riconoscimento avanzato che mi identifichino anche quando la mia voce non sia al 100%, per condizioni ambientali, di trasmissione, di salute, ma che mi distinguano da simulatori e soprattutto proteggano i tratti caratteristici memorizzati della mia voce come uno dei miei beni più identitari e per questo più sensibili e soggetto ad attenzioni pericolose nel Web.

Ed ecco l’opera di Sawaya che mi ha ispirato questo post :

Mask , dove la persona propone il suo volto come una maschera, a cercare o evitare un contatto diretto, maschera che spesso è semplicemente la nostra voce, ma dove ora una voce sintetica può diventare “maschera” di un Umano che non c’è.


La tesi del Collega di cui vi parlavo iniziava con una citazione di Machiavelli “Deve essere considerato che non c’è nulla più difficile da realizzare, né più incerto di successo, né più pericoloso da affrontare, dell’iniziare un nuovo ordine delle cose” : e per quanto detto non possiamo essere più d’accordo.





Al prossimo post di Voce!


PS : in Star Trek, il traduttore universale era stato inventato nel 2151 : forse stiamo procedendo più veloci!




26 visualizzazioni0 commenti

Post recenti

Mostra tutti
bottom of page