Quantification optimisée de l'espace latent en codage audio neuronal - ARCHITECTURE
Communication Dans Un Congrès Année : 2023

Quantification optimisée de l'espace latent en codage audio neuronal

Résumé

This article focuses on audio coding based on artificial neural networks. We propose to analyze and transform the latent space based on an eigenvalue decomposition, in order to modify or even replace the residual vector quantization (RVQ) used in recent codecs such as SoundStream and EnCodec. In particular, the proposed approach brings about 37% of reduction in storage and computational complexity for EnCodec, with no quality degradation.
Cet article se concentre sur le codage audio par réseaux de neurones artificiels. Nous proposons d'appliquer une analyse et une transformation de l'espace latent par décomposition en valeurs propres, afin de modifier voire remplacer la quantification vectorielle résiduelle (RVQ) actuellement utilisée par des codecs récents tels que SoundStream ou EnCodec. L'approche proposée permet en particulier une réduction du stockage et de la complexité d'environ 37% pour EnCodec sans dégrader la qualité audio.
Fichier principal
Vignette du fichier
Article_GRETSI23_MULLER_Thomas_final.pdf (526.35 Ko) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
licence

Dates et versions

hal-04286552 , version 1 (15-11-2023)

Licence

Identifiants

  • HAL Id : hal-04286552 , version 1

Citer

Thomas Muller, Stéphane Ragot, Quentin Lemesle, Pierrick Philippe, Pascal Scalart. Quantification optimisée de l'espace latent en codage audio neuronal. XXIXème Colloque Francophone de Traitement du Signal et des Images GRETSI 2023, GRETSI, Aug 2023, Grenoble, France. pp.693-696. ⟨hal-04286552⟩
196 Consultations
97 Téléchargements

Partager

More