工业大数据处理领域的“网红”——Apache Spark
4. 可融合性
Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。
Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。
三、 Spark 相比MapReduce优势
Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:
1) Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。
2) Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。
3) Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。
4) Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。
四、 Spark与工业互联网平台
工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。
基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。
本文作者: 黄欢,格创东智大数据工程师 (转载请注明来源及作者)
最新活动更多
-
即日-4.30免费预约申请>> 艾睿光电-开阳及瑶光系列专家级红外热像仪-产品试用
-
5月8-10日立即报名>> 国际物流解决方案展览会
-
5月10日立即下载>> 【是德科技】精选《汽车 SerDes 发射机测试》白皮书
-
5月16日火热报名>>> OFweek锂电/半导体行业数字化转型在线研讨会
-
5月28日立即观看>> 【在线研讨会】Ansys镜头点胶可靠性技术及方案
-
5月31日立即报名>> 【线下论坛】新唐科技2024未来创新峰会
- 1 创新驱动、开放共享、工具赋能,助力工业企业供应链数智化转型升级
- 2 赋能新质生产力 | 格力工业装备新品发布会圆满召开
- 3 iEi威强电医疗平板电脑IASO-W10B-N6210
- 4 苏州源控:打造优质计算机产品,助力生产生活高效便捷
- 5 劳易测合作伙伴Pizzato 新品上市|带锁定功能的NX系列RFID安全开关
- 6 Ansys 粉末/颗粒流多物理仿真技术介绍及案例网络研讨会4月23日正式上线!
- 7 博世力士乐2023年销售额再创新高 积极应对未来挑战
- 8 劳易测5B系列光电传感器升级推出长光斑XL型号,性能强悍
- 9 【参会指南】2024星火生态大会邀您参会!
- 10 工业上楼打造现实版“摩天工厂”
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论