DSPC174 通过机器学习模型使用流数据的挑战

15359029662 | 2023-04-21 16:10:23 阅读：86

实时数据具有独特的特征，使其有别于ML模型中使用的其他类型的数据。通常在处理ML模型时，数据是所谓的“批量数据”使用批处理数据，所有信息从一开始就是可用的，并且已经保存。相比之下，流数据是以连续的方式生成的，根据定义，这也可能是临时的。因此，数据流通常具有以下特征:

●您的系统不能控制您接收数据的顺序

●数据流的大小不受限制

●数据流中的成分被分析后，可能会被丢弃

流式数据的独特特征也是ML模型分析数据时出现障碍的原因。批量数据的稳定性使其能够被完全搜索，并且数据的特定部分可以在任何时候被检索。然而，由于流数据是临时的，它必须由ML算法不断地搜索，这给正在使用的系统带来了更大的压力。例如，平均每年有20亿笔电子商务交易，平均数据流挖掘算法每分钟从大约3，800笔交易中收集数据。因此，批处理(虽然较慢)往往用于供应链管理，因为在不扩展计算基础设施的情况下，以这些速度处理大量数据可能是不可行的。

ABB OCAH 940181103 (1).JPG

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。