"); //-->
DSPC174 通过机器学习模型使用流数据的挑战
实时数据具有独特的特征,使其有别于ML模型中使用的其他类型的数据。通常在处理ML模型时,数据是所谓的“批量数据”使用批处理数据,所有信息从一开始就是可用的,并且已经保存。相比之下,流数据是以连续的方式生成的,根据定义,这也可能是临时的。因此,数据流通常具有以下特征:
●您的系统不能控制您接收数据的顺序
●数据流的大小不受限制
●数据流中的成分被分析后,可能会被丢弃
流式数据的独特特征也是ML模型分析数据时出现障碍的原因。批量数据的稳定性使其能够被完全搜索,并且数据的特定部分可以在任何时候被检索。然而,由于流数据是临时的,它必须由ML算法不断地搜索,这给正在使用的系统带来了更大的压力。例如,平均每年有20亿笔电子商务交易,平均数据流挖掘算法每分钟从大约3,800笔交易中收集数据。因此,批处理(虽然较慢)往往用于供应链管理,因为在不扩展计算基础设施的情况下,以这些速度处理大量数据可能是不可行的。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。