Mit der zunehmenden Anwendung von maschinellem Lernen in der Spektralanalyse steht das Modelltraining vor Herausforderungen wie Datenmangel und unausgewogener Klassenverteilung, die die Generalisierungsfähigkeit des Modells einschränken und das Risiko von Überanpassung erhöhen. Dieser Artikel gibt einen Überblick über nationale und internationale Literatur seit 2017, in der spektrale Datenaugmentierungsmethoden in nicht-tiefe Lernmethoden und tiefe Lernmethoden unterteilt werden und den evolutionären Trend von oberflächlicher Datenerweiterung zu tiefgenerativer Modellierung aufzeigen. Nicht-tiefe Lernmethoden erweitern die Daten durch spektrale Transformationen und Spektralsynthese. Aufgrund ihrer rechnerischen Effizienz zeigen sie gute Anwendbarkeit in kleinen Stichprobenszenarien wie der industriellen Prozessüberwachung, der Herkunftsverfolgung von Kräutern und der Qualitätsprüfung von Arzneimitteln und Lebensmitteln. Tiefe generative Modelle umfassen hauptsächlich generative gegnerische Netzwerke (GAN) und deren abgeleitete und verbesserte Autoencoder (AE). GAN erzeugen durch einen Wettbewerbmechanismus augmentierte Proben mit struktureller Ähnlichkeit und konsistenter Verteilung zu den Originaldaten und finden breite Anwendung in hochpräzisen Modellierungsszenarien wie medizinischer Bilddiagnostik, Präzisionslandwirtschaft und Materialklassifizierung; verbesserte AE erfassen durch das Lernen latenter Raumrepräsentationen die wesentlichen Merkmale der Daten, wobei erzeugte Daten sowohl die ursprünglichen Verteilungseigenschaften beibehalten als auch Merkmalsrobustheit zeigen, was Vorteile bei hochdimensionalen Datenverarbeitungsaufgaben wie der Identifikation chemischer Substanzen und der Bodenzusammensetzungsanalyse bietet. Die Übersicht hebt die Einschränkungen bestehender Datenaugmentierungsmethoden hervor und diskutiert zukünftige Entwicklungsrichtungen.
关键词
Datenaugmentation; Spektralanalyse; Deep Learning; generative gegnerische Netzwerke; variationale Autoencoder