Se si sente, esiste
Dell’importanza del sonoro nei videogiochi e dei suoi limiti da sconfiggere con l’ingegno, raccontati da un sound designer.
Quando pensiamo al progresso tecnologico coinvolto sia nello sviluppo che nella fruizione dei videogiochi, qual è la prima cosa che ci viene in mente? Non mentite sapendo di mentire: avete pensato tutti alla grafica. Più potenza di calcolo e mezzi più sofisticati hanno permesso infatti di sfoggiare più colori e in seguito più poligoni, una maggiore definizione, più libertà nella gestione delle luci e via discorrendo.
E il sonoro? Anch’esso si è indubbiamente avvalso di migliorie, non solo dal punto di vista meramente qualitativo ma anche nei processi della sua implementazione, permettendo un margine creativo più ampio grazie ad approcci interdisciplinari via via più complessi e ramificati1. A ciò naturalmente si è accompagnata la transizione dal 2D al 3D nel pieno degli anni ‘90, che ha creato tutta una serie fattori ulteriori nuovi di cui tenere conto.
Dal punto di vista delle migliorie tecniche di base, permesse da spazi di archiviazione sempre più generosi, e semplificando molto il discorso, si potrebbe parlare banalmente di una qualità crescente dei due valori fondamentali2 del suono digitale:
- La risoluzione (misurata in bit): a valori crescenti si ottiene una definizione migliore del suono, che si traduce in un contrasto più pronunciato tra la parte più tenue e quella più dirompente di un qualsivoglia asset audio, oltre a produrre uno scarto maggiore rispetto alla soglia del rumore di fondo. Se vi siete mai chiesti perché a basse risoluzioni ci sia molta poca dinamica, ora lo sapete.
- La frequenza di campionatura (misurata in Hertz): a un suo crescere, permette non solo di avere più “scatti” sonici al secondo e quindi più informazioni (proprio come i ben più noti frames per second per i video), ma anche di avvalersi di un margine più ampio nelle alte frequenze da sfruttare per rendere il tutto più brillante e ricco alla percezione. Per scoprire il limite delle frequenze riproducibili per ogni data campionatura, è sufficiente dividere la stessa per due. In presenza di 48.000 Hz di campionatura, per esempio, avremo quindi un tetto massimo di riproduzione delle frequenze del materiale a 24.000 Hz.
Nonostante tutti questi sviluppi e uno slittamento corrispettivo delle aspettative da parte del pubblico in parallelo, il percorso del sonoro è stato in realtà sempre contraddistinto da un fattore in particolare che prescinde dal progresso ed è, al tempo stesso, indissolubilmente legato a tutti fruitori. Lo vedremo tra pochissimo.
In questo articolo, insomma, proveremo a offrire una panoramica un po’ più ricca riguardo a un aspetto spesso dato per scontato e considerato di contorno, sottolineando le sfide insite nella creazione di un contesto sonoro virtuale senza però scadere in tecnicismi eccessivi. Considerato il soggetto della trattazione, nel corso della stessa ogni tanto vi troverete davanti un video davanti appositamente creato per l’occasione. Armatevi quindi di cuffie e buona lettura!
Impossible is something
Se le altre migliorie tecniche di varia natura hanno trovato e probabilmente troveranno sempre posto nei nostri sensi per poter essere apprezzate, ciò non è necessariamente vero per il sonoro. Vi sono infatti una serie di limiti generali rigorosamente scientifici da tenere in considerazione. Il suono, come sicuramente saprete già, è una vibrazione dell’aria, misurato in Hertz per esprimere il numero di vibrazioni al secondo. Ma quante di queste vibrazioni possiamo davvero percepire? Per dare un minimo di orientamento anche a chi non ha mai affrontato questi concetti, si tenga conto che a un numero maggiore di vibrazioni si avrà un suono più acuto e viceversa.
Adattamento dello schema della percezione delle frequenze di Alex Riviere nel suo Game Audio Mixing (p. 87). Il testo tornerà più volte nel corso dell’articolo con le dovute note bibliografiche. La griglia di valori adottata come sfondo è presa dal software RX 10 Editor (iZotope).
Il nostro udito infatti non è solo più o meno sensibile o tollerante rispetto a certe frequenze, ma è anche più o meno in grado di stabilirne la provenienza nello spazio secondo lo stesso principio. Oltre a una soglia tutt’altro che remota (intorno ai 20.000 Hz e in base all’età), il tutto diventa appena percepibile esclusivamente dalle vibrazioni che interagiscono col nostro corpo. Se a questo si aggiunge il fatto che, banalmente, i videogiochi sono diventati sempre più complessi permettendo la proposizione di contesti sonici più intensi e ricchi (e quindi potenzialmente caotici), è facile concludere come mantenere l’equilibrio e la chiarezza del tutto sia puntualmente un obiettivo necessario e al tempo stesso un compito non facile.
A questo bisogna anche aggiungere una considerazione importante ma forse non così scontata: il sonoro, mai come nei videogiochi, è divenuto innanzitutto informazione. E in quanto tale, è bene ribadirlo, è necessario che chi di dovere si assicuri sempre che ciò che è fondamentale sia udibile agli utenti a prescindere dal contesto di gioco potenziale. Un’operazione, appunto, complessa e articolata, in quanto i videogiochi sono un medium interattivo non lineare e quindi ben più imprevedibile di, per esempio, un brano musicale. Ma lasciamo che a dirlo sia un veterano dell’industria:
Another noticeable difference between linear and games mixing is that in interactive medias you cannot always anticipate where the player is looking, where they are in the world, what they are doing, and how the game is responding to that. This creates interesting challenges to predict what sounds should be playing at any given moment, and where the focus should be.
p.1, Game Audio Mixing3 – Alex Riviere, Routledge, 2023
Dal momento che abbiamo appena tirato in causa la musica, vale la pena citare come il formato stereofonico sia un requisito tuttora condiviso anche con i videogiochi. Il cosiddetto “stereo”, tuttavia, di base non è altro che un palcoscenico privo di profondità. Provate ora però a pensare ai vostri brani preferiti: è questa la percezione che ne avete? Certo che no!
La sfida di creare un mix a tutti gli effetti tridimensionale partendo da una premessa bidimensionale, che riesca a restituire l’idea di un luogo reale e delle diverse distanze delle fonti sonore rispetto a noi, non è infatti esclusiva del videogioco. Tanto è vero che gli strumenti di alterazione di base del suono, impiegati per far percepire non solo la già citata distanza ma anche la direzione di provenienza (nonché la presenza di eventuali ostacoli fisici), sono fondamentalmente gli stessi. Nei medium audiovisivi lineari la posizione nello spazio del punto di ascolto non può però variare a volontà del fruitore, mentre la stessa cosa chiaramente non si applica per i videogiochi.
Qual è quindi il punto di ascolto ideale nel mondo virtuale di un’opera interattiva? La coordinata essenziale su cui costruire la percezione di ciò che ci circonda? Dipende. Nei titoli in prima e in terza persona sarà posizionato in corrispondenza della telecamera, che andrà a coincidere rispettivamente con la posizione della testa o del punto di ripresa che orbita intorno al nostro avatar. E se si trattasse invece di un gioco a visuale isometrica? Altra prospettiva, ergo altre sfide e considerazioni. Si tratta di una differenza molto importante e che, come è facile immaginare, comporta tutta una serie di considerazioni al fine di mantenere chiara la percezione ed evitare potenziali disorientamenti.
Naturalmente, tutti quei suoni che potremmo definire extra-diegetici (quali la colonna sonora o i suoni di interfaccia) non necessitano di essere posizionati nello spazio virtuale e sono infatti classificati e riprodotti come suoni 2D.
Più lontane sono le fonti sonore, più verranno manipolate in modo da restituire sia la posizione che la distanza rispetto a noi, tenendo conto anche del loro ruolo nella gerarchia del contesto sonoro videoludico. Le immagini delle fonti impiegate nel grafico a scopo dimostrativo appartengono ai rispettivi proprietari.
You ultimately need to find the sweet spot between adding realism to your mix and delivering a great sounding game experience with prompt moment-to-moment feedback. It is more about playing to the listener’s years and brain to create the desired effect rather than providing something completely accurate […] If you want the player to listen, the audio has to be in service of the game, otherwise they’ll start ‘filtering it out’.
p. 114-115, ivi
In quanto vibrazione dell’aria, ogni dato suono perde informazioni man mano che viaggia nello spazio, soprattutto nelle alte frequenze. Replicare questo decadimento graduale intervenendo di conseguenza sui suoni in maniera dinamica restituisce questa informazione spaziale in maniera efficace.4 Questo ci porta a una conclusione affascinante e forse anche leggermente spaventosa: i suoni disposti lungo i canali stereo in realtà non si sono mai mossi in profondità o intorno a voi, ma è stato il vostro cervello a posizionarli in base a come sono stati manipolati artificialmente a questo scopo e, infine, percepiti. Naturalmente, da diverso di tempo esistono anche altri formati più elaborati a più canali, ma il principio rimane comunque valido.
Fatte queste considerazioni, vale la pena anche far presente quanto possa essere limitata la nostra percezione a livello auditivo anche da un punto di vista squisitamente numerico. Walter Murch, primo addetto al montaggio a ricevere un riconoscimento come Sound Designer per il film di Francis Ford Coppola Apocalypse Now (1979), coniò la regola del 2.5, tuttora considerata anche quando ci si trova a mixare un videogioco:
The rule of 2.5 from Walter Murch that has been generally adopted in films is also applicable to games. This rule states that when there are more than two visible moving entities on-screen, the human brain cannot distinguish sync points or identify clearly sound positions anymore. […] To apply that rule in games, put it this way, the listener can only process two thematic elements of a mix at any moment.
p. 66-67, ivi
In poche parole, una volta che si va oltre due fonti sonore simili concorrenti posizionate intorno a noi nello spazio, il nostro cervello non è più in grado di collocare ciascuna fonte correttamente alla sua fonte originaria.
È necessario quindi intervenire in tempo reale per stabilire delle regole che vadano, di volta in volta e in maniera dinamica, a definire quali tra queste sono quelle più importanti in ogni dato momento in base al contesto di gioco. Si tratta semplicemente di passi di npc amichevoli di poco conto? Oppure sono minacce attive a noi ostili? Ogni situazione è chiave e necessita di un sistema di priorità e interventi tempestivi e al tempo stesso discreti, al fine di assicurare la trasparenza di queste informazioni veicolate attraverso il sonoro senza risultare però affettate e artificiose. Quante volte siete riusciti a prendere la decisione giusta perché è stato un suono ad avvertirvi? La parte grafica, lato informativo, può essere molto meno utile di quanto si creda, se non addirittura ingannevole.
A questo proposito si esprime anche il supervising sound designer Loic Couthier, che, tra i progetti passati, vanta un certo Returnal (2021, Housemarque, Sony Interactive Entertainment).
Sometimes, it is the actual gameplay balancing that you need to influence. If some NPCs have trigger-happy behaviors that are all synced, the game will feel and sound really bad. Fixing this requires us to influence the source and talk to other disciplines. Mixing scope goes way beyond the audio discipline.
p. 130, ivi
E quindi, come accennato in apertura, torna il discorso dell’interdisciplinarità, del bisogno non solo di una collaborazione tra i diversi “comparti” dello sviluppo, ma anche di comprendere e conoscere i meccanismi alla base delle altre competenze chiamate in causa nello sviluppo di ogni dato progetto, per poter costruire approcci e soluzioni caso per caso.
Un ponte per la percezione
Non importa quanto fedele sia la rappresentazione di una porta in un videogioco, quanto la luce venga riflessa in maniera convincente scoprendone le venature del legno e di come nel pomello si rifletta la mano del vostro avatar e l’ambiente circostante: se aprendola venisse riprodotto, per assurdo, il verso di un’anatra, quella smetterebbe immediatamente di essere una porta per voi.
Al contrario, una porta composta da pochi pixel, quanti ne bastano per renderne uno il pomello della stessa, se accompagnata da un suono pieno e convincente alla sua apertura, risulterà reale a tutti gli effetti. Il ruolo del sonoro probabilmente è sempre stato questo: rendere tangibile l’intangibile, creare un ponte tra ciò che non si trova innanzi a noi ma che è necessario che venga percepito come tale.
Otogirisō, nonostante tutti i suoi limiti tecnici, colpisce nel segno creando una bella atmosfera che si accompagna a un buon ritmo narrativo. Non è un caso che Keiichiro Toyama lo avrebbe poi preso come riferimento per il suo Silent Hill qualche anno più tardi.
Per provare questa cosa è sufficiente prendere un esempio estremo del videogioco, in cui il suono era tutto e la parte grafica un mero sfondo per dare un minimo di contesto spaziale a schermo. Stiamo parlando della primissima sound novel sviluppata per Super Famicom nel 1992 da Koichi Nakamura, nonché primissimo gioco della sua Chunsoft (e tradotta in via non ufficiale in inglese solo nel 2024).
Di fatto il duo [Koichi Nakamura, programmatore, e Kazuya Asano, scrittore] ha inventato un nuovo genere. Lo chiamano sound novel, perché la componente sonora è quella su cui pongono maggiormente l’accento; storia a parte si intende. […] Decidono di chiamare il loro gioco Otogirisō, perché di fronte alla casa [presente in gioco] si estende un vastissimo campo di erba di San Giovanni (otogirisō in giapponese) ovvero l’iperico, una pianta medicinale utilizzata in farmacia per trattare ferite e depressione. E che in Giappone ha un ulteriore significato molto suggestivo: vendetta.
p. 114-115, Keiichiro – Fabio Di Felice, Ledizioni, collana Loading, 2024
Nonostante i limiti estremamente stringenti di spazio sulla cartuccia, l’avventura sonora horror Otogirisō riesce a portare a casa una manciata di effetti sonori evocativi e importanti da scatenare al momento opportuno mentre il giocatore compie una scelta testuale dietro l’altra: pioggia, suoni di passi, cigolii metallici, lo sbattere di una porta, eccetera. E dopo aver concluso il titolo, ottenendo diversi finali, possiamo confermare di come riesca a far prendere un paio di spaventi genuini e a creare tensione: cosa c’è di peggio che sentire qualcosa che si avvicina sempre di più nel buio più totale, dopotutto? Di fatto, Otogirisō rende tangibile persino ciò che non è neppure visibile sui fondali: è tutto proiettato nella mente del giocatore durante l’ascolto, costruito in base alle sue esperienze pregresse. Anche il fatto che la prima opera di questo genere sia horror è inoltre un precedente molto intrigante, se pensiamo che il cinema stesso, agli albori, si era dedicato particolarmente a questa sfera dell’immaginario.
Il suono quindi, quando convincente, non è solo in grado di costruire il suddetto ponte, ma persino di ricreare nella nostra mente il suo “significante”, che dovrebbe in principio solo rafforzare e sostenere. Se ciò non fosse vero, non ci sarebbero i presupposti per lo sviluppo di videogiochi interamente dedicati agli utenti non vedenti.
La realtà è un trampolino
A questo punto potreste essere tentati di pensare che l’approccio ideale al sound design sia probabilmente quello più improntato al realismo in tutti i suoi aspetti, al fatto di aderire il più possibile a ciò che accade nella realtà. Vi sorprenderà forse, invece, sapere di quanto le aspettative riguardo i suoni siano invece di tutt’altro stampo: la parola d’ordine, spesso, è infatti enfasi, se non addirittura esagerazione. Perché il punto è sì sottolineare o arricchire la parte visiva, ma spesso in modo volutamente incalzato, andando a colpire quella manciata di frequenze che rendono un suono efficace e chiaro a seconda dell’obiettivo e del contesto sonoro virtuale.
Vi è una scena del film 座頭市物語 (“Zatoichi Monogatari”, Kenji Misumi, 1962) in cui il protagonista, uno spadaccino non vedente, si focalizza sui movimenti di colui che poi diventerà il suo sfidante. I suoi sandali che calpestano le sterpaglie e la tensione della cintura da cui pende la spada diventano quindi chiarissimi all’udito anche per noi spettatori. In un certo senso, è questo il compito del sonoro: porre l’attenzione senza uscire troppo dal seminato, pena l’alienazione delle aspettative e dalla componente visiva.
When mixing your sounds in space, you can always emphasize something beyond what is natural to increase readability, or make a narrative scene more impactful. The challenge can often be to find the right balance to increase readability while maintaining the feeling that everything comes from the same world.
p. 116, Game Audio Mixing
Il tipico sfrigolio metallico di quando si estrae una spada, per esempio, è solo una delle innumerevoli aspettative del pubblico priva di alcun riscontro nella realtà. Tanto è vero che, per rimanere in Giappone, non si sente niente di simile in 七入の侍 (“Shichi Nin No Samurai”, I sette samurai, Akira Kurosawa, 1954).
Questo leggero scollamento dalla realtà rappresenta però un calderone di opportunità, in quanto legittima in pieno l’uso della creatività, permettendo quindi di andare a caratterizzare ciascun elemento visivo con una pennellata sonora “caricata” il giusto ma efficace, in grado di donare un’identità chiara a ogni elemento visivo che la richiede. Non è un caso che anche i suoni più semplici vengano creati sempre tramite la sovrapposizione di diversi elementi, ciascuno con un proprio compito preciso sia a livello di dettaglio che di frequenze da “coprire”. In un certo senso, un buon effetto sonoro forse non è così diverso da un accordo musicale.
Non si tratta però solo di creare un effetto sfaccettato e ricco, ma anche di stabilire, nel caso di un suono 3D, quanto mantenerlo udibile a seconda della distanza rispetto al giocatore, andando anche contro le leggi della fisica senza alcun rimorso. La cosa importante, è bene ribadirlo, è che ciò che è fondamentale, tutto ciò che è informazione, non vada perso durante la fruizione.
Sempre riguardo l’impiego della creatività nel sonoro, possiamo fare un paio di esempi appoggiandoci al lavoro di Martin Stig Andersen (compositore e game audio specialist) svolto per LIMBO e INSIDE (Playdead, rispettivamente 2010 e 2016). Nel caso del primo titolo, una scelta creativa ha addirittura causato in principio qualche incomprensione, come ci confida lui stesso:
When doing LIMBO, for example, I continuously received bug reports from Microsoft regarding the boy’s footstep sound disappearing in a sequence during a rotating room’ puzzle, and I would have to convince them – and sometimes also coworkers – that it wasn’t a bug but a mix decision. It was inspired by a dreamlike shot from Felini’s [sic] 8 ½ where a character approaches the camera in complete silence, and interestingly the atmosphere it brought about in LIMBO ended up inspiring the team to insert a dreamlike sequence in which the boy encounters his sister.
P. 106-107, ivi
Il personaggio di cui parla Martin è senza dubbio quello di Claudia (Claudia Cardinale) che si avvicina al protagonista Guido Anselmi (Marcello Mastroianni) in punta di piedi e senza far alcun rumore.
Vedere citato Fellini in un gioco come LIMBO non ha prezzo, ma l’elemento forse ancor più bello è che questo episodio ci porta anche a un’altra considerazione: le scelte creative legate al sonoro possono fare da leva anche su altri sistemi, promuovendo decisioni rilevanti anche di un certo livello.
Questa purtroppo non è esattamente la norma, in quanto la parte audio è spesso inquadrata come punto finale dei processi produttivi di qualsivoglia feature piuttosto che integrata negli stessi.
Questo assume sfaccettature ancora più estreme nelle produzioni a budget più ridotto, in cui può addirittura accadere che l’intero team dedito al sonoro venga incluso nello sviluppo solo nelle fasi finali. Un’eccezione al riguardo è riscontrabile nello sviluppo di Hyper Light Drifter (Heart Machine, 2016), in cui sia Disasterpeace (Richard Vreeland) che Akash Thakkar hanno avuto modo di collaborare sia per la colonna sonora che per i cosiddetti SFX fin dal principio:
It is a little bit typical to see audio kinda brought in at the very last moment, and that’s not good. Having the ability to kinda fail upwards with the rest of the team is always really appreciated for all disciplines. I always like to say that game development is nothing but a whole bunch of people failing until something happens. So make sure that your audio people also have the ability to fail and grow upwards with the rest of the team.
Akash Thakkar, The Sound and Music of Hyper Light Drifter5 | GDC 2017
Tornando invece a Martin e al secondo titolo citato, INSIDE, vi è un buon esempio in cui il comportamento naturale del suono è stato stravolto al fine di dare il giusto risalto a un’informazione a dir poco vitale per il giocatore. Stiamo parlando della sezione del ponte da attraversare della prima parte dell’opera, in cui è necessario stare sempre dietro a un riparo per evitare di essere spazzati via da un’onda d’urto dalla potenza spaventosa.
In the above Shockwave example, the environment is loud only when the boy is out of cover and at risk of being blown to pieces by the shockwave. […] There’s a big reverb that you only hear when out of cover and hence in danger, and during the 6 seconds shockwave cycle, the volume of this reverb changes from silent to incredibly loud. The idea is that the reverberation gets sucked into the background, as a sort of vacuum effect, during the seconds leading up to the blast, and then hurled into the foreground following the shockwave. By contrast, when the boy is behind cover we hear a much smaller and more intimate reverb.
p. 108-109, ivi
Il video contiene un estratto della sezione dell’“onda d’urto” a volume inalterato di INSIDE. La rappresentazione grafica spettrale in sovraimpressione è ottenuta tramite RX 10 Audio Editor (iZotope).
L’implementazione di questa minaccia quasi invisibile, di cui si manifestano solo le conseguenze sull’ambiente circostante in maniera spettacolare, non poteva che ricorrere al sostegno della parte sonora per evitare di frustrare il giocatore a più livelli. Per rendere chiaro il crescere dell’intensità del prossimo colpo da cui ripararsi, Martin ha deciso quindi di sfruttare un riverbero ambientale rendendolo via via più presente al nostro ascolto, ma solo nel caso il nostro avatar si trovi allo scoperto. In caso contrario, la percezione di questa “carica” viene percepita in maniera molto più discreta, quasi come se fosse un “premio” per il nostro ascolto oltre che un’informazione di gameplay.
Di fatto, la soluzione adottata è l’esatto contrario di come si dovrebbe comportare il riverbero in natura: essendo nient’altro che la riflessione di una fonte sonora nei confronti del luogo in cui si manifesta, dovrebbe avere il suo punto di maggior attività in principio per poi scemare gradualmente. In questa sezione di INSIDE invece avviene esattamente il contrario. E allora? In questo caso, il fine ha giustificato appieno un approccio creativo.
OST Ad Personam
Finora abbiamo parlato di effetti sonori, ma ovviamente quando pensiamo alla parte audio di un qualsivoglia videogioco è impossibile non richiamare anche la sua parte musicale. L’elemento affascinante risiede nel fatto che i parametri di gioco che rendono possibile l’integrazione degli effetti sonori in un contesto virtuale possono anche essere impiegati al servizio della colonna sonora, rendendo la stessa parte delle informazioni a disposizione del giocatore. E non è neppure una caratteristica recente come si potrebbe immaginare!
Per fare un esempio, prendiamo il classico per Nintendo 64 The Legend of Zelda: Ocarina of Time (Nintendo, 1998). Non appena il protagonista Link si troverà davanti alle prime creature ostili poste all’interno del primissimo dungeon, subentrerà una dinamica basata su un valore semplice quanto efficace: la distanza tra noi e il nemico più vicino. Non appena ci troveremo oltre la soglia che potremmo definire di “pericolo minimo”, il gioco in tutta risposta inizierà a rendere udibile una traccia musicale sostenuta e che aumenterà di volume in caso ci avvicinassimo sempre di più alla minaccia.
In The Legend of Zelda: The Wind Waker (Nintendo, 2003), questa dinamica viene arricchita ulteriormente introducendo una traccia più pronunciata in caso Link abbia estratto la spada, pronto ad affrontare la minaccia, oppure no.
Sull’importanza di far interagire il sonoro con tutti quei valori ricavabili da un motore di gioco in tempo reale si esprime anche Rev. Dr. Bradley D. Meyer, attuale audio director presso Sucker Punch Productions:
Mixing is NOT only about volume; it’s about every sonic characteristic of a sound. […] changing them over time based on parameters coming from the game engine is invaluable to keep the mix sounding fresh and alive, reducing fatigue, and most importantly ensuring the most important sounds are the ones we are hearing at any given time.
P. 58, ivi
I valori mostrati sono a puro scopo dimostrativo, ma comunque plausibili. Le rappresentazioni dei personaggi impiegate appartengono ai rispettivi proprietari
Il fatto che Ocarina of Time intervenga esclusivamente sul volume delle tracce è un elemento figlio del suo tempo e indubbiamente dei limiti dell’epoca, ma si tratta di uno stratagemma di implementazione semplice e tuttavia molto efficace, un esempio di cosiddetto mix dinamico in piena regola. Questo parametro, infatti, non interviene solo sulla traccia dedicata alla presenza delle minacce nei pressi del giocatore, ma sul brano musicale del livello stesso, rendendolo presto non più udibile fino a quando il giocatore non si sarà liberato del fattore scatenante o se ne sarà allontanato a sufficienza. Il motivo dietro a questa scelta non potrebbe essere più semplice: il brano musicale del livello in sé non è un’informazione, ma ha una funzione squisitamente estetica.
Inoltre, dal momento che nel resto del livello non è presente una parte sonora che si potrebbe definire di “ambientazione”, il compositore Kōji Kondō ha pensato bene di sopperire a questo elemento facendo risuonare alcuni strumenti del brano proprio come se si trovassero negli spazi ampi e chiusi che stiamo esplorando con Link, rendendo quindi la colonna sonora un collante che dà voce anche all’ambientazione stessa.
Nonostante ciò, si è pensato di sacrificare la colonna sonora, almeno temporaneamente, per assicurarsi che gli utenti fossero sempre consapevoli di una minaccia dietro l’angolo. Come già ribadito, avere sempre presente cosa è più o meno importante nel mix è fondamentale al fine di stabilire l’equilibrio e la comprensione auditiva del contesto virtuale. Col senno di poi, dietro a questa scelta di mix dinamico così netta probabilmente vi erano tutti i timori legati allo sviluppo di uno nuovo capitolo di Zelda completamente in 3D.6
Per fare un altro esempio di mix musicale dinamico di quel periodo, già l’anno prima su PlayStation e PC era apparso un certo Oddworld: Abe’s Odissey (Oddworld Inhabitants, GT Interactive). In questo titolo platform, svelare la propria presenza ai nemici o ad animali pericolosi fa partire puntualmente una traccia movimentata. Un tipo di intervento senza dubbio più binario e con meno chiaroscuri rispetto a Zelda, ma con lo stesso scopo in mente: informare il giocatore. E tuttavia, Lorne Lanning ha dovuto lottare coi denti e le unghie per impedire che la musica fosse un elemento spuntabile a gusto dell’utente dalle opzioni.
We’re doing it differently. We don’t just treat music as something that plays on top of the game. We’ve built it into the narrative of the experience. Does a movie DVD have the option to turn off the music while you’re playing? No, because it’s part of the experience! […] We had to do that in really elementary ways, but it worked. And no one noticed! (ride)
Lorne Lanning of Oddworld Inhabitants: Extended Interview | Ars Technica7
Ad ammissione di Lorne Lanning stesso, l’approccio impiegato allo scopo era molto elementare, talmente tanto da seguire sostanzialmente lo stesso principio usato per alternare le fasi furtive a quelle di “allerta” già 10 anni prima in Metal Gear per MSX2 (1987 Konami). Negli anni si sono però palesati nuovi approcci di integrazione, rendendo possibile la creazione di sistemi estremamente complessi completamente dedicati alle colonne sonore dinamiche. Ma lasciamo da parte la musica e torniamo agli effetti sonori in senso stretto, con qualche esempio pratico per punzecchiare la vostra attenzione.
Il silenzio non esiste
Riprendiamo un attimo il primo dungeon di Ocarina of Time. Se levassimo il brano musicale, scopriremmo improvvisamente come l’intera area non produca alcun suono che non sia provocato direttamente da noi (suoni di passi, contatto con l’acqua, accensione di torce eccetera) o dai nemici. Naturalmente anche questo è un retaggio di un passato in cui le risorse disponibili erano molto inferiori e dove il conteggio delle voci sonore8 doveva fare i conti con un’economia particolarmente spietata.
Se ci pensate bene però, nessuno di noi è mai stato in un ambiente totalmente silenzioso, a meno di non aver visitato una camera anecoica. Persino la stanza in cui forse ora state leggendo questo articolo vi sembra silenziosa, eppure in realtà c’è sempre un minimo di attività appena percepibile. Non è un caso che il silenzio totale, quando adoperato a scopi diversi nelle opere di finzione, venga percepito tempestivamente dall’ascoltatore con accezioni quasi perturbanti.
Il compito del sound designer infatti non è solo quello di creare dei corrispettivi sonori per quegli elementi più scontati legati all’interazione, ma anche quello di assicurarsi che l’ambiente virtuale intorno al giocatore stesso risulti vivo e attivo, anche in modi molto discreti. Non tutti questi elementi dovranno avere necessariamente una controparte visiva, ma naturalmente dovranno restare coerenti con ciò che sono chiamati a supportare. Se il livello dell’albero Deku di Ocarina of Time venisse, in via ipotetica, realizzato oggi, quali elementi si potrebbero quindi aggiungere per rendere l’ambientazione più ricca dal punto di vista dell’audio? Facciamo qualche esempio sotto quest’immagine, per avere un minimo di riferimento.
- Un vento leggero che proviene da lontano e da fuori, non costante ma da sentire solo sporadicamente;
- Scricchiolii saltuari di rami e foglie remoti;
- Gocce d’acqua lontane e risonanti, riprodotte non molto spesso;
- Qualcosa di discreto che potrebbe suggerire movimenti minimi della struttura dell’albero Deku stesso;
- Vicino alle voragini coperte dalle ragnatele, si potrebbe provare a piazzare una fonte sonora che suggerisca il passaggio di una corrente d’aria (magari da cambiare in intensità una volta distrutta);
- Una fonte audio ulteriore potrebbe essere piazzata lungo i corsi d’acqua, anche per promuovere l’orientamento;
- Rumori di detriti in lontananza provocati dalle movenze dell’albero Deku.
Riuscite a pensarne di altri? La prossima volta che giocherete a qualcosa, provate a fermarvi in un posto, aguzzate l’orecchio e provate a scoprire quanti elementi finora vi siete lasciati sfuggire. Naturalmente, tutti questi elementi di scena sono utili e importanti per ricreare un contesto virtuale ma, al tempo stesso, non possono mettere a repentaglio la chiarezza di ciò che è necessario venga percepito dai giocatori nel corso dell’azione. Dopotutto:
Mixing is building a balance between different sonic elements, improving clarity and adding consistency in the overall soundscape. […] Sounds can be perceived very differently depending on the visuals, the narrative setting, or the gameplay contexts.
P. 39, Game Audio Mixing, (…)
È anche interessante far notare come questi dettagli sonori ambientali non debbano necessariamente essere abbinati a punti precisi nello spazio, ma è anche perfettamente ragionevole scatenare delle fonti sonore intorno a noi in maniera dinamica e quasi arbitraria, per simulare certe sfumature in maniera efficace sempre attraverso la manipolazione dei suoni stessi. Come abbiamo visto all’inizio, il posizionamento tridimensionale nella stereofonia è quasi un gioco di prestigio, un’illusione.
Un’ottima dimostrazione dell’efficacia dei suoni d’ambiente è presente in Night in the Woods (Infinite Fall, Secret Lab, Finji, 2017), un videogioco adventure squisito che meriterebbe un articolo tutto suo. Quest’opera riesce infatti a sfruttare appieno il potenziale del sonoro, sia grazie a un’ottima fattura degli effetti che tramite una colonna sonora impeccabile e sempre azzeccata.
In questo titolo la protagonista Mae Borowski ha deciso di tornare alla sua cittadina, Possum Springs, dopo aver abbandonato gli studi al college per ragioni, per il momento, taciute. Mae, nel pieno del sonno tra le coperte della sua stanza, aprirà gli occhi ad un nostro comando e, dopo essersi vestita facendo tutta una serie di gesti e vocalizzi, sarà pronta per una nuova giornata. La musica fin qui ancora tace, almeno finché non usciremo dalla camera che occupa la soffitta della casa dei suoi genitori. Questo è molto importante, perché ci permette di cogliere tutta una serie di sfumature che rendono quel luogo così semplice tangibile e pieno alla nostra percezione. È il momento di inforcare di nuovo le cuffie.
Il video contiene solo suoni d’ambiente di Night in the Woods. Il volume è stato aumentato in maniera importante (+17.0 dB) per rendere l’ascolto più semplice. Nel caso desideriate una percezione più vicina al mix originale, abbassate il volume finché il brusio della stanza diventa appena percepibile. Spettro di RX 10 Audio Editor (iZotope).
Il primissimo elemento che avrete notato è paradossalmente anche il più insospettabile: il suono stesso della stanza, quasi un brusio. In questo video è stato amplificato parecchio insieme al resto per evitare di farvi alzare il volume a livelli proibitivi, ma avete appena ascoltato il cosiddetto room tone. Non solo questo sottofondo ha riscontro nella realtà, ma è necessario in quanto la sua assenza potrebbe mettere i giocatori sull’attenti inutilmente, come accennato in precedenza.
Non importa quanto sia discreto: il punto, come per tante decisioni riguardo il sound design, è effettuare una verifica A/B, presenza e assenza. Se vi è una differenza a livello di percezione e l’effetto è quello desiderato, significa che un dato intervento ha raggiunto il suo scopo. Non per niente, in Resident Evil 2 (Capcom, 1998) la stanza degli interrogatori della stazione di polizia, col suo silenzio innaturale e privo di accompagnamento musicale, preannuncia e prepara il terreno per un attacco a sorpresa.
Tornando a Night in the Woods, nella stanza di Mae abbiamo tutta una serie di dettagli sparsi che vanno a posarsi sopra il room tone:
- Versi di uccelli;
- Movimenti strutturali delle assi di legno del tetto;
- Incrementi sporadici nelle basse frequenze del room tone, forse a suggerire il passaggio di un veicolo nelle vicinanze (a seconda delle cuffie usate, potrebbe essere più difficile notare questo dettaglio);
- Suoni di mobilia forse provenienti dai piani inferiori;
- Verso la fine, appare anche il passaggio rapido di una mosca.
Questa estrema cura per la caratterizzazione degli ambienti anche dal punto di vista dell’audio arricchisce in maniera inestimabile la parte grafica. In questo contesto l’audio si prende a cuore la rappresentazione della vita quotidiana di un piccolo paese di provincia americano, con i suoi problemi, contraddizioni e pure angoli di bellezza, ma anche, e soprattutto, dei dubbi e delle insicurezze della protagonista felina Mae, e della sua piccola cerchia di amici riguardo il futuro.
Una volta creata questa parvenza di normalità, cosa c’è di meglio che iniziare a incrinarla? Ma qui ci fermiamo, perché Night in the Woods meriterebbe molto più spazio e abbiamo già preso parecchio del vostro tempo. Sicuramente però merita di essere affrontato, e non possiamo che consigliarvelo caldamente.9
Sopra o sotto?
Finora abbiamo accennato diverse cose: l’importanza di tenere in considerazione il punto di ascolto nel mondo virtuale; il fatto di poter usare la creatività per poter veicolare informazioni in maniera più efficace, superando i limiti di un approccio di creazione e integrazione asservito alla realtà; l’importanza di dare una voce anche alle sfumature più insospettabili delle ambientazioni. Abbiamo però tralasciato uno dei punti più spinosi: il posizionamento verticale rispetto al punto di percezione.
Esso rappresenta una sfida particolare. Il fattore affascinante è che il contenuto in frequenze di un dato suono può scatenare di suo nel nostro cervello, e quindi nella nostra percezione, già un’idea di altezza rispetto alla nostra testa. Le frequenze medie e basse (intorno e fino agli 800Hz), per esempio, non sono facili da collocare nello spazio per il nostro ascolto, ma tendono a essere posizionate in basso. Ora sapete perché è impossibile stabilire la direzione di un rombo di tuono, per esempio.
Un esempio musicale perfetto per inquadrare concretamente questa dinamica è il brano Porcelain di Moby (Play, 1999). Intorno al primo minuto, infatti, l’artista newyorkese mette in gioco due istanze della sua voce: una prevalentemente nel canale sinistro e l’altra in quello destro. Rispettivamente, la prima ha nel proprio fulcro una carica più “mediosa” (~500-600 Hz) e tendente quindi verso il basso, mentre la seconda ne ha uno ricco di frequenze più alte (~4.000 Hz), andando a posizionarsi di conseguenza molto più in alto e, inoltre, risultando quasi eterea per come è stata trattata in post.
Ora che conoscete questa dinamica, provate a chiudere gli occhi mentre ascoltate il brano in cuffia: riuscite a posizionare le due voci nella vostra mente come nell’immagine seguente?
Per dimostrare quali effetti potrebbe sortire questa dinamica in un contesto videoludico, prenderemo in esame il survival horror Project Zero 2 (2004, Tecmo, PlayStation 2). In questo secondo episodio della celebre saga survival horror, diretta e ideata da Makoto Shibata e Keisuke Kikuchi, è possibile, proprio come negli altri, passare dalle inquadrature fisse alla prima persona.10 Ciò si verifica non appena impugneremo la nostra “arma” prediletta per affrontare gli spettri poco amichevoli nei nostri confronti: la Camera Obscura. Da questa prospettiva è anche possibile far camminare la protagonista, e i suoni dei suoi passi saranno puntualmente riprodotti in una maniera differente per rispecchiare il punto di vista in soggettiva.
A questo punto, tuttavia, si scatenano gli effetti di due decisioni poco lungimiranti proprio riguardo la gestione del suono di questi passi: il primo si rifà al fattore della verticalità insito nelle frequenze appena presentato; il secondo, invece, a un posizionamento creativo interessante sulla carta ma con conseguenze controproducenti all’atto pratico. Vediamoli brevemente.11
Il primo punto è presto detto: l’impronta sonora dei passi in soggettiva li colloca, a livello percettivo, quasi al livello delle orecchie del giocatore. Questa caratteristica diventa una fonte di distrazione considerevole però non appena subentra il secondo punto, ovvero il posizionamento lungo i canali stereo degli stessi.
Si è infatti forse pensato che collocarli alternativamente a destra e a sinistra potesse essere un bel tocco, ma il risultato è che il giocatore avrà continuamente l’impressione di sentire passi diversi dai propri (e in una posizione, appunto, strana). Questa sensazione è rafforzata ulteriormente dal fatto che questi suoni sono stati piazzati molto agli estremi dei canali rispettivi, rendendo quindi quello che avrebbe dovuto essere un mero dettaglio estetico un elemento spaesante, che finisce per catturare l’attenzione inutilmente.
Nel video seguente sono presenti due linee di analisi dello spettro, una bianca (canale sinistro) e una blu (canale destro). È facile notare come le due si alternino perfettamente, a riprova di ciò che senza dubbio percepirete senza alcuno sforzo tra poche righe. Di fatto, è tuttora molto raro riscontrare un posizionamento dei passi del giocatore che non sia perfettamente centrale proprio per evitare questo effetto controproducente. È il momento di indossare le cuffie un’ultima volta.
Il video contiene una transizione dalla telecamera fissa alla prima persona in Project Zero 2 e alcuni passi in soggettiva a scopo dimostrativo. Il volume è stato aumentato quanto basta per renderli più evidenti. Spettro di RX 10 Audio Editor (iZotope).
Forte è chiaro?
Come anticipato in apertura, speriamo che questo articolo sia riuscito a presentarvi qualche dinamica e informazione in più riguardo il mondo dell’audio rispetto a come viene solitamente affrontato, non solo applicato ai videogiochi ma anche in un senso più ampio.
Si è cercato di far trapelare i tecnicismi solo ove necessario, ma se c’è qualche sound designer che è arrivato fin qui vorremmo che sia chiaro che sono state tralasciate diverse variabili e questioni che però avrebbero reso questa trattazione un po’ troppo intensa per i non addetti ai lavori. Un approccio più mirato e tecnico è riscontrabile in moltissimi altri articoli specializzati e con esempi ben più moderni di quelli presentati qui, che però sottintendono e pretendono una conoscenza pregressa degli strumenti e della terminologia.
Prima di congedarci però vorremmo porvi una domanda che dà il titolo a questo paragrafo: forte è chiaro? Spesso si ha infatti l’istinto di alzare il volume a causa del fenomeno della psicoacustica, che porta a creare una proporzione diretta tra aumento della potenza di un segnale e un suo incremento qualitativo. Questa equivalenza non ha alcun riscontro nella realtà ed è qualcosa a cui dobbiamo stare molto attenti.
Dopo un po’, le vostre orecchie si sentiranno meno “aggredite” dai rumori di tutti i giorni e diverranno più ricettive. A volumi maggiori, al contrario, le orecchie iniziano ben presto a “chiudersi” per istinto di protezione, alterando la percezione del tutto. Da questa percezione “inquinata”, non a caso, derivano poi tutta una serie di scelte sbagliate da parte di chi si occupa del suono, che è puntualmente molto attento al volume percepito mentre è nel pieno del suo lavoro.
Queste considerazioni e dinamiche, per concludere questa disamina, hanno iniziato a essere proposte anche all’utenza in veste di vere e proprie opzioni, talvolta, di accessibilità. In Alan Wake 2 (Remedy Entertainment, 2023), per esempio, è possibile ridurre l’entità delle frequenze basse e di tutto ciò che si trova al di sopra dei 1.000 Hertz per prevenire disturbi eventuali legati all’iperacusia. Se il suono è, come già discusso, un ponte per la percezione, è importante anche assicurarsi che questo processo tenga conto di quelle variabili soggettive legato all’udito dei videogiocatori.
Vi invitiamo a fare un esperimento: la prossima volta che ascolterete qualcosa in cuffia in un contesto non rumoroso, impostate il volume a un livello più basso del solito badando a mantenere solo la chiarezza del tutto. Dopo un po’, le vostre orecchie si sentiranno meno “aggredite” dai rumori di tutti i giorni e diverranno più ricettive.
LR
NOTE:
1 Oggi come oggi, è molto difficile venire assunti come sound designer nell’ambiente dei videogiochi senza un minimo di conoscenza degli engine e delle pratiche di implementazione del sonoro, sia tramite i sistemi parte dei motori di gioco stessi o grazie a programmi middleware specifici. Anche il sistema di visual scripting offerto dai MetaSound, disponibili a partire da Unreal Engine 5, si stanno facendo sempre più strada a questo scopo.
2 Nei chip sonori che hanno contraddistinto le console prima dell’arrivo della qualità CD (16 bit e 44.100 Hz, per la cronaca), e che tuttora esercitano un certo fascino sui cultori delle cosiddette BGM, figura anche il limite dei canali, sia a livello numerico che di tipologia di segnale riproducibile.
3 Il testo qui citato è piuttosto specifico e dà per scontato molte cose; in certi passaggi sembra quasi di leggere un manuale scritto a uso degli audio director. Per questo motivo non ci sentiamo di consigliarlo se non a chi già mastica la terminologia e i processi relativi all’implementazione del sonoro. Sono stati selezionati però alcuni passaggi più generali e, ci auguriamo, comprensibili anche a chi ha meno dimestichezza con l’argomento.
4 Per completezza del discorso, è anche possibile rafforzare il senso di distanza della fonte rispetto al punto di ascolto intervenendo con un riverbero da far entrare in azione in maniera più preponderante più ci si allontana dal punto di origine; al tempo stesso, la fonte “diretta” andrebbe a perdersi sempre di più a vantaggio della sua controparte caratterizzata dalle riflessioni del suono con l’ambiente circostante.
5 Link al video e al momento esatto.
6 A riprova di questo, come dimenticare il fatto che tutti i salti sono interamente gestiti dal gioco e di come non esista un tasto adibito a questa azione? Piuttosto che frustrare il giocatore con un’azione così semplice, si è preferito delegarla direttamente a una meccanica automatizzata.
7 Link al video e al momento esatto.
8 “Voce” è già un termine leggermente tecnico che indica un’istanza di un suono, sia 2D che 3D, ed è un dato molto prezioso da tenere presente tutt’oggi onde evitare di saturare le risorse CPU (ovvero del processore) con un eccesso di fonti superflue riprodotte tutte nello stesso momento. Una particolare attenzione va ai suoni 3D, in quanto ciascuno di essi porta con sé tutta una serie di parametri spaziali o di altro tipo di cui dover tenere conto finché l’istanza non si sarà esaurita.
9 Di Night in the Woods sconsigliamo però la versione per Nintendo Switch, in quanto i tempi di caricamento sono tali da inficiare in maniera importante sul ritmo stesso dell’avventura.
10 Questo cambio dinamico di prospettiva non è gestito al meglio in certi frangenti, in quanto le fonti sonore vengono improvvisamente spostate rispetto al nostro ascolto in maniera improvvisa e innaturale.
11 È giusto precisare come l’intento non sia di puntare il dito contro un gioco del 2004, che anzi riesce a creare un’atmosfera più che ottima e opprimente. La considerazione del sonoro in senso generale e gli approcci alla sua creazione e integrazione sono cambiati parecchio rispetto a 20 anni fa. Semplicemente, chi scrive lo ha affrontato di recente e ha pensato potesse essere un ottimo esempio di “creatività eccessiva”.