Header-Recovered

如何创建干净的数据 

如果你调查了100名数据科学家,询问他们大部分时间在做什么,他们会告诉你99%的时间在清理数据。
下面是一些简单的步骤,可以简化数据清理过程,减少数据分析的时间和成本:

识别已知的异常

识别异常是任何分析工作的关键因素。在抓取数据的时候识别或移除已知异常,可节省时间和成本花费。

示例:

  • 在机器启动和停止期间,传感器可以产生远超出机器操作的典型范围的值。
  • 一个新替换的传感器可能会在测量基线上产生位移,标记传感器在数据集中发生的变化,并考虑校准新的传感器。
  • 当机器非正常关闭时,例如意外的断电,要标记数据集

规范化数据跨系统

通过确保所有系统以标准格式记录数据,开发数据抓取方式的标准。

示例:

  • 温度以华氏度还是摄氏度报告的?
  • 是以整数还是浮点数报告的?需要多少位小数?
  • 如果数值可以是负数,那么用什么格式来记录负数呢?
  • 给定传感器的最大和最小值是多少?
  • 什么值表示给定传感器的故障?

时间

时间是时间序列数据中最关键的参数。指定一个时间戳策略,可以跨所有系统部署,包括时间校准和时间调整。

时间重要性的示例:

  • 时间格式包含日期和年份
  • 时间分辨率
  • 时间是如何设置和校准的
  • 时间是如何验证的,以及验证的频率
  • 失误是如何报告的

通过设计清理数据

确保数据集干净的最佳方式是从最开始设计的时候就保证数据干净。

data-plan

 

 

数据计划文档

该文档的目的是定义所有可被抓取的数据类型的格式。这可以简化不同系统之间的比较,无需大量的标准化工作。

该计划没有明确定义将要采集的所有数据或者即将使用的传感器类型。试图创建一个非常具体的数据计划可能会迫使工程师在规范之外工作。可以在所有系统中一致地应用的通用规范是首选。

数据计划测量 

数据计划应该定义系统中所有测量的单位。 
下面是一个简单的测量列表,和一些可能的测量单位:

测量压力
( 帕斯卡,PSI)

pressure

测量质量
(克,千克,磅,吨)

mass

测量距离 
(英寸,码,厘米,米)

ruler

测量温度
(摄氏,华氏,绝对温标)

temperature

测量容量
(毫升, 升,加仑)

Volume

数值格式

每个样本值的数值格式应该在数据计划中定义。应该努力减少所支持的不同格式的数量。选择一个稍微大一点的数值格式,这样所有的值都能够以这种格式存储,以后的时间点就可以简化编程。例如,该文档可能定义所有的压力测量,将以每平方英寸的磅数计算,并以32位浮点数存储。允许最大值2^10,步长为0.5,而绝对值小于1的步长为0.0005。这个值可能适合16位浮点值,但是选择32位时因为距离测量需要一定的精度。

Keyboard

 

 

数据结构也可以提前定义

一个结构用于定义与特定样本类型相关联的上下文信息。在许多编程语言中,这被称为定义一个类和相关的属性。例如,一个传感器值类可被定义为:

Header-Recovered

会出现什么问题?

用额外的上下文标记来规划和创建干净的数据是一项重要的投资,而当考虑到数据分析错误的后果时,这种投资的重要性就显而易见。

数据分析是一个迭代的过程,通常由某人从实际的公司操作中移除多次。这个过程是缓慢的,可能需要一些时间来产生可衡量的公司范围的性能结果。通常情况下,致力于简单结论的工作,会在之后的几个月内进行测试和分析。一个不太了解数据异常的糟糕决策可能会浪费团队成员的时间,从而影响公司表现,如下面的例子所示:

采样数据非常不常见

假设一个公司在现场采集数据。该系统每个月都在记录数据堆叠。在右侧的图谱中,在客户返回机器之前,生产的单位数量下降了50%,这种迹象可能表明,用户将终止他们的租约并返回机器。
graph

解决方案

如果数据是每天或每小时采集的,它将显示客户在返回系统之前使用相同级别的产品。下降的原因是租约在本月中旬终止。附加的上下文 (租借返回日期)或增加的采样频率(每天)将消除这个不正确的结论。

在其核心,数据挖掘是在数据中寻找相关模式的过程

不幸的是,数据中有很多不相关的模式。花费时间在不相关的数据上是昂贵的。通过投入时间的前期产品工程师开发数据抓取解决方案,可以创建数据科学家能够进行研究的数据集。 打开通往更好的客户体验和更多销售的大门。 

关于如何清理您的数据的问题?

联系我们的IIoT专家:

了解更多关于IIoT的信息

时刻了解最新的IIoT趋势

查看我们未来的活动,最新的博客发布,订阅我们的新闻!

注册HMS月度新闻

HMS工业网络有限公司活动

所有活动

HMS工业网络有限公司博客

所有文章

  • Takeaways from The Ignition Community Conference

    by Chip Main | 9月 20, 2019
    The Ignition Community Conference (ICC) by Inductive Automation is a 3 day get together that was hosted in Folsom California this year. Read through some of our takeaways and presentation topic…
    完整内容
  • Handling the Challenges of Servicing Automated Warehouses

    by Jason Block | 6月 17, 2019
    Within 6-10 years, the use of automation and robotics is expected to be adopted in some form by over 80% of logistics providers, either in support of manufacturing operations or in support of retail and e-commerce. Read this article to learn how to handle some of the challenges of servicing your automated warehouse.
    完整内容