Con la profunda aplicación del aprendizaje automático en el análisis espectral, el entrenamiento de modelos enfrenta desafíos como la escasez de muestras de datos y la distribución desequilibrada de clases, lo que limita el rendimiento de la generalización del modelo y genera riesgos de sobreajuste. Este artículo revisa la literatura nacional e internacional desde 2017, clasificando los métodos de aumento de datos espectrales en dos grandes categorías: métodos de aumento de datos no basados en aprendizaje profundo y métodos basados en aprendizaje profundo, revelando una tendencia evolutiva desde la ampliación superficial de datos hacia la modelación generativa profunda. Los métodos de aumento de datos no profundos expanden los datos mediante transformaciones espectrales y síntesis espectral, mostrando buena aplicabilidad en escenarios con pequeñas muestras como el monitoreo de procesos industriales, la trazabilidad de hierbas medicinales y la detección de la calidad de medicamentos y alimentos, gracias a su eficiencia computacional. Los modelos generativos profundos incluyen principalmente redes generativas antagónicas (GAN) y sus métodos derivados, así como autoencoders mejorados (AE). Las GAN generan muestras aumentadas con similitud estructural y coherencia de distribución con los datos originales a través de un mecanismo adversarial, ampliamente utilizadas en escenarios de modelado de alta precisión como el diagnóstico por imágenes médicas, la agricultura de precisión y la clasificación de materiales; los AE mejorados mediante el aprendizaje de representación del espacio latente capturan las características esenciales de los datos, generando datos que mantienen tanto las propiedades de distribución originales como la robustez de las características, con ventajas en tareas de procesamiento de datos de alta dimensión como la identificación de sustancias químicas y la detección de la composición del suelo. Esta revisión señala las limitaciones de los métodos actuales de aumento de datos y discute las direcciones futuras de desarrollo.
关键词
aumento de datos; análisis espectral; aprendizaje profundo; redes generativas antagónicas; autoencoders variacionales