SparkMLlib GBDT算法工业大数据实战
在格物汇之前发表的《工业大数据挖掘的利器——Spark MLlib》中提到,Spark 的MLlib组件能够对工业现场海量数据进行高效挖掘,快速呈现结果给业务分析人员。接下来将向大家介绍SparkMLlib 中的GBDT算法,并将应用该算法对工业数据进行代码实战。
1算法概念
GB(Gradient Boosting)梯度提升算法,GB 共需要进行M次迭代,通过采用梯度下降的方法,每次迭代向损失函数的负梯度方向进行移动,从而使损失函数越来越小,进而使模型越来越精确。算法伪代码如下:
GB算法跟原始的Boosting算法相比较,还是有比较明显的区别。
Boosting算法开始的时候,是会给每个样本附上权重的,在每次迭代的时候就会增加错的样本的权重,减少对的样本的权重,经过N次迭代之后,会得到N个分类器,然后我们再将他们组合起来,得到最终模型。
GB算法与Boosting区别是,他的每一次迭代的目标都是减少上一次的残差,所以在残差减少的方向上建立一个新的模型。在GB算法框架上加入决策树,就是GBDT(GradientBoost Decision Tree)算法。
GBDT主要的优点有:
1) 可以灵活处理各种类型的数据,包括连续值和离散值。
2) 在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。
3)使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。
4) 很好的利用了弱分类器进行级联。
5) 充分考虑的每个分类器的权重。
6) 可以得到变量间的重要性排序。
GBDT的主要缺点有:
1)由于弱学习器之间存在依赖关系,难以并行训练数据,不过可以通过自采样的SGBT来达到部分并行。
2完整代码实例
工业生产中,产品在制程过程中会有很多特性值,如果能对产品的特性值及时进行预测,得到特性值的具体数值,那么就会帮组业务人员知晓产品的质量,实现产品的全检,并能防止异常产品后流,造成不必要的浪费。
本次实战代码的采用的数据是半导体制程中某一道工序的机台的制程参数值,通过采用SparkMLlib中的GBDT算法对工业现场机台的制程参数进行建模,预测出经过该机台生产之后产品的膜层厚度。
模型最后输出模型性能指标如下:
Mape(Mean Absolute Percentage Error):0.23%
通过上图模型输出的预测值与实际值对比,发现预测出来的产品膜厚的数值走势跟实际数值走势基本符合,mape达到0.5%以内,拟合度相当可观,后续还可以通过样本筛选以及特征工程等手段对该模型进行进一步调优。
在模型达到业务需求的拟合度等指标后,通过该模型进行部署,实现产品的“实时全检”,从而实现产品质量的全面监控,杜绝异常产品后流;与工厂内的抽检系统结合后,降低产品的抽检率,提高工厂的效率。
GBDT算法的用途还是比较广泛的,它不仅可以处理分类问题,能对线性与非线性回归问题进行处理,还能通过输出变量间重要因子排序,方便业务人员快速定位异常变量。在工业现场的顽固异常分析还是产品特性预测等领域,GBDT算法确实是很值得数据分析人员考虑的一种算法。
本文作者:
格创东智大数据工程师黄欢(转载请注明作者及来源)
最新活动更多
-
4月23日火热报名中>> 莎益博多物理仿真技术介绍及案例在线研讨会
-
即日-4.30免费预约申请>> 艾睿光电-开阳及瑶光系列专家级红外热像仪-产品试用
-
5月8-10日立即报名>> 国际物流解决方案展览会
-
5月10日立即下载>> 【是德科技】精选《汽车 SerDes 发射机测试》白皮书
-
5月28日立即观看>> 【在线研讨会】Ansys镜头点胶可靠性技术及方案
-
即日-8.25立即报名>> OFweek2024中国优·智算力年度评选
- 1 赋能新质生产力 | 格力工业装备新品发布会圆满召开
- 2 iEi威强电医疗平板电脑IASO-W10B-N6210
- 3 苏州源控:打造优质计算机产品,助力生产生活高效便捷
- 4 Ansys 粉末/颗粒流多物理仿真技术介绍及案例网络研讨会4月23日正式上线!
- 5 劳易测合作伙伴Pizzato 新品上市|带锁定功能的NX系列RFID安全开关
- 6 博世力士乐2023年销售额再创新高 积极应对未来挑战
- 7 2024年海柔升级渠道政策体系,新产品、新服务全方位助力伙伴成长
- 8 劳易测5B系列光电传感器升级推出长光斑XL型号,性能强悍
- 9 创新驱动、开放共享、工具赋能,助力工业企业供应链数智化转型升级
- 10 【参会指南】2024星火生态大会邀您参会!
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论