Actualité
Petit article à destination des néophytes qui sont nombreux à se lancer dans des enregistrements à la maison et qui sont confrontés aux problèmes de latence.
Qu’est-ce que la latence avec laquelle il faut composer dans votre STAN, comment contourner le problème ?
STAN, Station Audio Numérique est l’acronyme de Digital Audio Workstation en anglais (abréviation DAW).
C’est un système d’enregistrement et de mixage audio composé d’un ordinateur avec un logiciel séquenceur audio et une carte son.
Vous découvrez quand vous enregistrez que le son de ce que vous entendez à travers votre STAN arrive en décalage avec le son direct.
Ce délai résulte de la latence du STAN.
Définition
La latence est le temps nécessaire à l’ordinateur pour traiter les données audio.
Elle dépend de la puissance du processeur de l’ordinateur et du nombre de tâches qu’il doit gérer en même temps.
La latence est fixée par un réglage dans le driver ASIO de la carte son.
Par ce réglage, le driver impose un temps de traitement à l’ordinateur.
Lorsque le temps de traitement est trop court par rapport aux capacités de calcul de l’ordinateur, des craquements et coupures apparaissent dans le son.
En augmentant le temps de traitement dans les réglages du driver ASIO on soulage le processeur.
Ce temps de traitement se traduit par un délai entre le son émis par le musicien et le son entendu via le séquenceur.
Il peut devenir gênant quand il est trop élevé.
Fonctionnement de la latence
Les données audio sont traitées par paquets et stockées dans une mémoire tampon appelée buffer en anglais.
Ce buffer stocke le nombre d’échantillons (samples en anglais) définis par le réglage du driver ASIO puis les transmet.
Le nombre d’échantillons stockés détermine le temps alloué à l’ordinateur pour traiter le son.
La fréquence d’échantillonnage de travail fixe le rythme de stockage des échantillons.
Elle représente le nombre d’échantillons prélevés en une seconde.
44,1 kHz = 44100 échantillons par seconde.
Un échantillon est pris toutes les 0,0223 ms à 44,1 kHz ou toutes les 0,0208 ms à 48 KHz
Le buffer se règle en multiple de 16 que l’on double à chaque fois : 16 samples, 32, 64, 128, 256, 1024, 2048, 4096
Le flux audio dans l’ordinateur passe par un buffer en entrée et en sortie.
Par conséquent, un son présent sur une entrée et écouté à travers le séquenceur subit deux fois la latence du réglage de buffer.
En augmentant la fréquence d’échantillonnage, on diminue la latence mais on augmente la charge sur le processeur.
Pour y voir plus clair sur le choix de la fréquence d’échantillonnage de travail, vous pouvez aller voir cet article sur le site :
A quelle fréquence d’échantillonnage travailler ?
Rôle du format du port utilisé entre la carte son et l’ordinateur
Plusieurs formats sont disponibles : Thunderbolt, Firewire 400 ou 800, USB 2 ou 3 (l’USB 1 est obsolète).
D’énormes progrès ont été réalisés.
Impensable il y a quelques années, certaines interfaces son passent 128 canaux dans de l’USB 2, exemple la RME Madiface USB : 64 in / 64 out.
Le délai de traitement des données audio est fixé par le driver ASIO indépendamment du format de port utilisé.
Celui-ci joue plus à travers son taux de transfert de données sur le nombre de pistes qu’on peut traiter simultanément.
- USB 2 : 400 Mbits/s
- USB 3 : 5 GBits/s
- Firewire 400 : 400 MBits/s mais solicite moins le processeur que l’USB 2
- Firewire 800 : 800 Mbits/s
- Tunderbolt 10 Gbits/s
- l’USB C n’est pas un format mais une connectique différente qui peut accueillir de l’USB 2 ou 3 ou du Thunderbolt
La qualité des drivers joue donc un rôle plus important que le format du port pour les performances de latence.
Pour ceux qui veulent approfondir : le forum Audiofanzine ou cet article de l’importateur La Boîte Noire du Musicien.
Perception de la latence
Un réglage moyen de buffer de 256 échantillons à 48 kHz représente 256/48000 = 5,33 ms (ou 256 x 0,0208 ms) de latence.
On obtient donc une latence totale de 2 x 5,33 = 10,66 ms lorsqu’on écoute sa piste en enregistrement à travers le séquenceur.
Pour bien faire, il faudrait ajouter les délais de traitement des convertisseurs.
Le temps de traitement pour un convertisseur (A/N ou N/A) va de quelques samples à quelques dizaines de samples.
Soit de moins de 0,2 ms à 48 kHz à plus de 2 ms en fonction des marques et des générations.
Le délai entre deux ondes acoustiques identiques devient bien perceptible à partir d’une dizaine de mètres de distance entre elles (ondes reçues avec une trentaine de millisecondes d’écart).
Mais le seuil de perception de la latence est encore inférieur lorsqu’on chante ou qu’on joue d’un instrument.
Certains y sont sensibles à partir d’une dizaine de millisecondes.
Lorsqu’on utilise un instrument virtuel (plugin dans le séquenceur) commandé par un clavier en midi on ne subit que la latence du buffer de sortie.
Celle-ci peut se constater par le décalage entre l’action sur une touche du clavier et l’arrivée du son.
Comment contourner le problème
Pour palier aux problèmes liés à la latence, on évite d’écouter les pistes en cours d’enregistrement à travers le séquenceur.
Soit en utilisant les fonctions de monitoring direct de la carte son, soit en passant par une console de mixage pour gérer l’écoute.
L’écoute en monitoring direct envoie les entrées de la carte son aux sorties de la carte son sans passer à travers l’ordinateur.
Sur des cartes son élaborées, le monitoring direct se fait après conversion numérique à l’aide d’une interface de mixage logicielle propre à la carte (ex RME et Totalmix).
Sinon le direct monitoring se fait en analogique.
Il n’y a pas de solution similaire pour les instruments virtuels (commandés par un clavier midi), on ne peut les écouter qu’à travers la STAN.
Il faut descendre le buffer à la plus petite latence supportée par le système.
Si la latence reste trop élevée, pendant l’enregistrement, on peut choisir d’écouter via les entrées un son interne du clavier proche de celui de l’instrument virtuel .
On enregistre en midi et on pourra affecter ensuite le plugin d’instrument désiré.
Ce n’est pas idéal car l’interprétation dépend aussi de la réaction de l’instrument joué; si on n’écoute pas le bon…
C’est la raison pour laquelle il faut des ordinateurs puissants pour gérer des instruments virtuels.
Une machine avec un processeur performant et beaucoup de RAM pour les grosses banques de sons.
Liste des publications du site ici.