SparkSQL对于批流支持的特性及批流一体化支持框架的难点
二、基于SparkSQL-Flow的
分析框架
何为 SparkSQL-Flow
1.一个由普元技术部提供的基于 SparkSQL 的开发模型;
2.一个可二次定制开发的大数据开发框架,提供了灵活的可扩展 API;
3.一个提供了 对文件,数据库,NoSQL、流处理等统一的数据开发模式;
4.基于 SQL 的开发语言和 XML 的模板配置,支持 SparkSQL UDF 的扩展管理;
5.支持基于 Spark Standlone,Yarn,Mesos 资源管理平台;
6.支持多种平台Kerberos认证(开源、华为、星环)等平台统一认证;
SparkSQL Flow XML 概览
用户只需要定义 Source,Transformer,Target 几个核心组件:
1.Source 数据源:支持Data、DB、File、NoSQL、MQ 等众多源;
2.Transformer 为上述定义的数据源和已有的Transformer 间的组合操作,一般为SQL;
3.Target 为输出目标,支持show、DB、File、NoSQL、MQ 等众多目标,支持类型基本和源相同;
4.用户可以在Properties定义一些变量,作为Source/Transformer/Target 的宏替换;
SparkSQL Flow 适合的场景
1.批量 ETL;
2.非实时分析服务;
3.流式 ETL;
支持从多种获得数据源:
1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile
2.大数据:Hive、HDFS
3.支持RDBMS数据库:PostgreSQL、 MySQL、Oracle
4.支持 NOSQL 数据库:Hbase、MongoDB、Redis
5.Streaming:JMS、AMQP、Kafka、Socket
最新活动更多
-
5月28日立即观看>> 【在线研讨会】Ansys镜头点胶可靠性技术及方案
-
5月31日立即报名>> 【线下论坛】新唐科技2024未来创新峰会
-
6月18日立即投票>> 【维科杯】OFweek 2024(第九届)物联网行业年度评选
-
6月18日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
8月27-29日马上报名>>> 2024(第五届)全球数字经济产业大会暨展览会
-
8月27日立即报名>>> 2024先进激光技术博览展
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论