С развитием применения машинного обучения в спектральном анализе обучение моделей сталкивается с проблемами дефицита данных и несбалансированного распределения классов, что ограничивает обобщающую способность модели и повышает риск переобучения. В статье представлен обзор отечественной и зарубежной литературы с 2017 года, где методы увеличения спектральных данных классифицированы на методы увеличения данных без глубокого обучения и методы с глубоким обучением, выявляющий тенденцию эволюции от поверхностного расширения данных к глубокому генеративному моделированию. Методы увеличения данных без глубокого обучения реализуют расширение данных через спектральные преобразования и синтез спектров, демонстрируя хорошую применимость в условиях малого объема выборки, таких как промышленный мониторинг процессов, трассировка лекарственных трав и контроль качества лекарств и пищевых продуктов благодаря преимуществу вычислительной эффективности. Глубокие генеративные модели включают генеративно-состязательные сети (GAN) и их производные, а также усовершенствованные автокодировщики (AE). GAN на основе состязательного механизма генерируют увеличенные образцы с структурной схожестью и согласованным распределением относительно исходных данных, широко применяемые в задачах точного моделирования, таких как медицинская диагностика изображений, точное сельское хозяйство и классификация материалов; усовершенствованные AE через обучение представления латентного пространства захватывают сущностные характеристики данных, при этом генерируемые данные сохраняют характеристики исходного распределения и обладают устойчивостью признаков, что выгодно при обработке высокоразмерных данных, например, идентификации химических веществ и анализе состава почвы. Обзор указывает на ограничения существующих методов увеличения данных и обсуждает направления их дальнейшего развития.
关键词
увеличение данных; спектральный анализ; глубокое обучение; генеративно-состязательные сети; вариационные автокодировщики