Avec l'application croissante de l'apprentissage automatique dans l'analyse spectrale, l'entraînement des modèles est confronté à des défis tels que le manque d'échantillons de données et la distribution déséquilibrée des classes, ce qui limite la capacité de généralisation des modèles et engendre un risque de surapprentissage. Cet article passe en revue la littérature nationale et internationale depuis 2017, classant les méthodes d'augmentation des données spectrales en deux grandes catégories : méthodes d'augmentation des données non basées sur l'apprentissage profond et méthodes basées sur l'apprentissage profond, révélant une tendance évolutive de l'expansion superficielle des données vers la modélisation générative profonde. Les méthodes non basées sur l'apprentissage profond réalisent l'extension des données via des transformations spectrales et la synthèse spectrale, démontrant leur bonne applicabilité dans les scénarios à petits échantillons tels que la surveillance des processus industriels, le traçage des herbes médicinales et le contrôle qualité des médicaments et des aliments grâce à leur efficacité calculatoire. Les modèles génératifs profonds comprennent principalement les réseaux antagonistes génératifs (GAN) et leurs méthodes dérivées ainsi que les auto-encodeurs améliorés (AE). Les GAN génèrent des échantillons augmentés présentant une similarité structurelle et une cohérence de distribution avec les données d'origine via un mécanisme de compétition, largement utilisés dans des scénarios de modélisation de haute précision tels que le diagnostic par imagerie médicale, l'agriculture de précision et la classification des matériaux ; les AE améliorés apprennent la représentation de l'espace latent pour capturer les caractéristiques intrinsèques des données, générant des données qui conservent à la fois les propriétés de distribution originales et la robustesse des caractéristiques, ce qui est avantageux dans les tâches de traitement de données à haute dimension telles que l'identification des substances chimiques et la détection de la composition du sol. Cette revue met en évidence les limites des méthodes actuelles d'augmentation des données et discute des directions futures de développement.