Bei der Datenanalyse macht es oft Sinn, die Daten in einen anderen Raum (x-Achse) zu transformieren und erst dann zu analysieren. Dadurch kann oft eine Reduzierung der Dimensionalität des Problems und eine bessere Separierbarkeit erreicht werden. Die richtige Funktion muss jeweils anhand der Daten und dem Ziel gewählt werden.

  • Fourier-Transformation: Abbildung vom Zeitbereich in den Frequenzbereich
  • Wavelet-Transformation
  • Histogramm-Funktion: Abbildung von beliebigen Bereich auf die Anzahl der Werte in bestimmten Intervallen (oft äquidistant)

Arbeitet man mit multivariaten Datensätzen, lohnen sich oft folgende Transformationen (via Martin Thoma):

  • Hauptkomponentenzerlegung (PCA)
  • Lineare Diskriminanzanalyse (LCA)

Eine Transformation im weiteren Sinne wäre auch die Ermittlung von verschiedenen Kennzahlen (z.B. Maximalwert, Minimalwert, Durchschnitt, maximale Steigung, stärkste Frequenz nach DFT) aus einer Reihe von Messwerten. Diese neuen Messwerte in ihrer Gesamtheit bilden dann einen Vektorraum (n-dimensional bei n Kennzahlen).

Fourier-Transformation

Bei der Fourier-Transformation ist zu beachten, dass sich diese häufig nur auf kleinen Ausschnitten eines Signals lohnt. Wendet man sie auf ein zu langes Signal an, kommen zu viele Frequenzen vor, sodass das Signal nur noch weißes Rauschen wiedergibt. Deshalb wendet man eine Fensterfunktion auf das Signal an und berechnet die Fourier-Transformierte über jedes einzelne Fenster, sodass man am Ende mehrere Fourier-Transformierte für ein Signal erhält. Bei einem Signal, das eine Sekunde dauert könnte man mit einer Fensterfunktion von 10ms ohne Überlappung z.B. 100 Transformierte erhalten. Wie man aus der Fourier-Transformierten dann Vektoren erhält, muss man sich im Einzelfall noch überlegen. Eine Möglichkeit wäre es, die Spitzen der Transformierten zu finden (also die stärksten Frequenzen); in der Sprachverarbeitung sind MFCC üblich.

Kenngrößen

Hat man beispielsweise die Messreihen [1,2,3] und [3,4,5], so könnte man eine Transformation in einen anderen Raum (evtl. sogar höherdimensional) durchführen, wenn man ein Tupel als Maximalwert, Minimalwert, durchschnittlichm Wert und durchschnittlicher Steigung berechnet. Für die beiden Messreihen ergäben sich dann die Tupel (3,1,2,1) und (5,3,4,1). Auf diesem Raum kann man dann bekannte Algorithmen z.B. zum Clustering anwenden.

I do not maintain a comments section. If you have any questions or comments regarding my posts, please do not hesitate to send me an e-mail to stefan@eliteinformatiker.de.