Daten richtig aufbereiten

Befragen Sie 100 Datenanalysten mit welcher Tätigkeit sie die meiste Zeit verbringen. 99% der Befragten werden Ihnen dieselbe Antwort geben: Die Aufbereitung von Daten.
Hier sind einige einfache Schritte, die unternommen werden können, um den Prozess der Datenaufbereitung zu vereinfachen und den Zeit- und Kostenaufwand für die Datenanalyse zu reduzieren:

Identifizierung bekannter Abweichungen

Die Identifizierung von Abweichungen ist ein Schlüsselelement jeder Analyse. Identifizieren oder beseitigen Sie bekannte Abweichungen bereits bei der Datenerfassung, um Zeit und Geld zu sparen.

Beispiele:

  • Während des Starts und Stopps der Maschine können Sensoren Werte liefern, die weit außerhalb des typischen Bereichs liegen, der während des Maschinenbetriebs beobachtet wird
  • Ein neu ausgetauschter Sensor kann zu einer Verschiebung der Messbasislinie führen. Markieren Sie Sensoränderungen im Datensatz und ziehen Sie eine Kalibrierung neuer Sensoren in Betracht
  • Markieren Sie den Datensatz, wenn die Maschine unsachgemäß abgeschaltet wird, z. B. bei unerwartetem Stromausfall

Daten normieren

 

Entwickeln Sie einen Standard für die Datenerfassung, um sicherzustellen, dass die erfassten Daten in allen Systemen in einem Standardformat vorliegen. Das kann wertvolle Zeit sparen 

Beispiele:

  • Wird die Temperatur in Fahrenheit oder Celsius gemessen?
  • Wird die Zahl als ganze Zahl oder als Gleitkommazahl erfasst? Wie viele Dezimalstellen werden benötigt?
  • Welches Format wird verwendet, um einen negativen Wert darzustellen?
  • Was ist der Maximal- und Minimalwert eines bestimmten Sensors?
  • Welche Werte zeigen einen Ausfall eines bestimmten Sensors an?

Zeit

 

Der kritischste Parameter in Zeitreihendaten ist die Zeit. Entwickeln Sie eine Strategie für den Einsatz von Zeitstempeln, die über alle Systeme hinweg eingesetzt werden kann, einschließlich der Zeitkalibrierung und Zeitanpassungen.

BEISPIELE FÜR DIE Relevanz VON ZEIT:

  • Das Zeitformat inkl. Datum und Jahr
  • Zeitauflösung
  • Wie wird die Zeit eingestellt und kalibriert?
  • Wie und wie oft wird die Zeit verifiziert?
  • Wie werden Fehler gemeldet?

Nutzen Sie von Beginn an aufbereitete Daten

Der beste Weg, um sicherzustellen, dass ein Datensatz richtig aufbereitet ist, ist ihn von Anfang an richtig zu gestalten.

clean-data

Dokument zur Datenaufbereitung

Ziel dieses Dokuments ist es, Formate für alle Datentypen, die erfasst werden können, zu definieren. Dies kann den Vergleich zwischen verschiedenen Systemen vereinfachen und den Bedarf an umfangreichen Anpassungsmaßnahmen reduzieren.

Der Plan definiert nicht alle Daten, die gesammelt werden, oder jeden Sensortyp, der verwendet wird, im Detail. Der Versuch, einen sehr spezifischen Datenplan zu erstellen, kann Ingenieure zwingen, außerhalb der Vorgaben zu arbeiten. Daher wird eine allgemeine Spezifikation bevorzugt, die systemübergreifend einheitlich angewendet werden kann.

Datenplan-Messungen  

Der Datenplan soll Einheiten definieren, die für alle Messungen in den Systemen verwendet werden. 
Hier ist eine einfache Liste von Messungen und hierfür mögliche Maßeinheiten:

Druck messen
(Pascal, PSI)

pressure

Masse messen
(Gramm, Pfund, Tonne)

mass

Entfernung messen
(Yard, Meter)

ruler

Temperatur messen
(Celsius, Fahrenheit)

temperature

Volumen messen
(Liter, Gallone)

Volume

Numerisches Format

Das numerische Format für jeden Messwert sollte im Datenplan definiert werden. Dabei sollte die Anzahl verschiedener, unterstützter Formate bestmöglichst reduziert werden. Die Wahl eines etwas größeren Zahlenformats, damit alle Werte in diesem Format gespeichert werden können, kann die Programmierung zu einem späteren Zeitpunkt erleichtern. Beispielsweise kann das Dokument festlegen, dass alle Druckmessungen in Pfund pro Quadratzoll durchgeführt und als 32-Bit Gleitkommazahl gespeichert werden. Unter Berücksichtigung eines Maximalwertes von 2^10 mit einer Schrittweite von 0,5 und einer Schrittweite von 0,0005 für Zahlen mit einem Absolutwert von weniger als 1, ist es möglich, dass dieser Wert in einen 16-Bit Gleitkommazahl passen könnte. Es werden jedoch 32 Bit gewählt, da diese Genauigkeitsstufe für Entfernungsmessungen erforderlich ist.

Number-Keys

 

 

Die Datenstruktur im Vorfeld definieren

Über eine Struktur wird die Kontext-Info definiert, die einem bestimmten Stichprobentyp zugeordnet wird. In vielen Programmiersprachen wird dies als Definition einer Klasse und der zugehörigen Attribute bezeichnet. So kann beispielsweise eine einzelne Sensorwertklasse definiert werden als:

Header-Recovered

Was kann schief gehen?

Die Planung und Erstellung aufbereiteter Daten mit zusätzlichen Kontextmarkern ist eine erhebliche Investition, die sich jedoch leicht rechtfertigen lässt, wenn man die Folgen von Datenanalysefehlern berücksichtigt.

Die Datenanalyse ist ein iterativer Prozess, der häufig von jemandem durchgeführt wird, der nicht im eigentlichen Unternehmensbetrieb tätig ist. Der Prozess ist langsam und kann einige Zeit in Anspruch nehmen, um messbare unternehmensweite Leistungsergebnisse zu erzielen. Typischerweise wird sich auf einfache Schlussfolgerungen konzentriert, die dann über einen Zeitraum von Monaten getestet und analysiert werden. Wie das folgende Beispiel zeigt, kann eine falsche Entscheidung, die auf einer falsch verstandenen Datenabweichung basiert, sich auf die Leistung des Unternehmens auswirken, indem sie z. B. die Zeit der Teammitglieder unnötig in Anspruch nimmt.

Zu seltene Stichprobendaten

Angenommen, ein Unternehmen sammelt Daten im Feld und das System erfasst monatlich gestapelte Paletten. In der Grafik rechts sinkt die Anzahl der produzierten Einheiten um 50%, bevor ein Kunde eine Maschine zurückgibt. Dies kann ein Hinweis darauf sein, dass ein Benutzer seinen Mietvertrag kündigen und die Maschine zurückgeben wird.

graph

Lösung

Wenn die Daten pro Tag oder Stunde erhoben werden würden, würde dies zeigen, dass die Kunden das Produkt vor der Rückgabe unverändert nutzen. Der Rückgang ist auf  darauf zurückzuführen, dass die Mietverträge Mitte des Monats enden. Ein zusätzlicher Kontext (Rückgabedatum der Maschine) oder eine Erhöhung der Stichprobenhäufigkeit (täglich) würde diese falsche Schlussfolgerung beseitigen.

Der Schwerpunkt von Data Mining liegt im Finden relevanter Datenmuster.

Leider gibt es viele irrelevante Muster in den Daten. Der zeitliche Aufwand für irrelevante Daten ist kostspielig. Daher ist eine frühzeitige Erstellung von Datesätzen sinnvoll, die von Produktingenieuren, die Lösungen zur Datenerfassung entwickeln, bereitgestellt werden. Das ermöglicht ein besseres Kundenerlebnis und mehr Umsatz.

 

Haben Sie Fragen, wie Sie Ihre Daten aufbereiten sollen? Kontaktieren sie einen unserer IIoT-Experten:

Kontaktieren Sie uns

Bleiben Sie über die neusten IIoT-Trends informiert

Entdecken Sie unsere bevorstehenden Veranstaltungen, neusten Blog-Beiträge und melden Sie sich für unseren Newsletter an!

Melden Sie sich zum monatlichen Newsletter an (Englisch)

HMS INDUSTRIAL NETWORKS EVENTS

Alle Events und Messen

HMS INDUSTRIAL IOT BLOG

Alle Blog-Beiträge (Englisch)