博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark生态顶级项目汇总
阅读量:6816 次
发布时间:2019-06-26

本文共 1598 字,大约阅读时间需要 5 分钟。

现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。

\\

Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件(引自Spark官方文档)。

398a91a87f74e693ff27bc9b09f36239.jpg

\\
  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。\\t
  2. Spark SQL:可以执行SQL查询,包括基本的SQL语法和HiveQL语法。读取的数据源包括Hive表、Parquent文件、JSON数据、关系数据库(MySQL等)等。\\t
  3. Spark Streaming:Spark Streaming是Spark核心API,易扩展、高吞吐量、流式数据容错。\\t
  4. MLlib:Spark的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。\\t
  5. GraphX:Spark GraphX是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。\\t
  6. Spark Core API:Spark提供多种语言的API,包括R、SQL、Python、Scala和Java。\

除了上述官方的Spark组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

\\
  1. Mesos
    \\tMesos是开源的资源统一管理和调度平台。抽象物理机的CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    \\tMesos是Master/Slave结构,由Mesos-master,Mesos-slave,Framework和executor四个组件构成。
    \\t为什么官方选用Mesos,而不是Spark standalone模式或者基于Yarn框架?由Spark开发者所写的书:Mesos优于其它两个资源框架是因为Mesos的细粒度调度,这样可让多用户运行Spark shell占有更少的CPU。
    b3f195aac9b63c112c0d4194f5478e5c.png\\t
  2. Spark Cassandra Connector
    \\tCassandra是一个易扩展、高性能的数据库。 Spark Cassandra Connector现在是Spark和Cassandra表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector库让你读Cassandra表就如同Spark RDD一样,同样可以写Spark RDD到Cassandra表,并可以在Spark程序中执行CQL语句。\\t
  3. \\t

    Zepellin

    \\tZepellin是一个集成IPythoon notebook风格的Spark应用。Zepellin可以基于Spark和Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    \\tZepellin也支持其它语言插件,包括Scala和Spark,Python和Spark,SparkSQL,HIve,Markdown和Shell。
    33f9eafd3dc2750c9712571b1c51ddf5.jpg

    \\t\\t
  4. \\t

    Spark Job Server

    \\tSpark Job Server提供RESTful接口来提交和管理Spark jobs,jar包和job上下文。Spark Job Server提供Spark任务相关的运行健康信息。

    \\t\\t
  5. Alluxio
    \\tAlluxio是一个分布式内存文件系统,它在减轻Spark内存压力的同时,也赋予Spark内存快速读写海量数据的能力。Alluxio以前叫做Tachyon,即钨丝。Spark jobs可以不做任何改变即可运行在Alluxio上,并能得到极大的性能优化。Alluxio宣称:“百度使用Alluxio可以提高30倍多数据处理能力”。\

转载地址:http://jtdzl.baihongyu.com/

你可能感兴趣的文章
css正方形照片墙
查看>>
找工作的程序员必懂的Linux
查看>>
shell脚本实现杨辉三角形
查看>>
ComponentOne 2019V1火热来袭!全面支持 Visual Studio 2019
查看>>
装了一款系统优化工具,如何从Mac上卸载MacBooster 7?
查看>>
使用符号表调试release程序
查看>>
Delphi 设置系统默认打印机
查看>>
AliOS Things网络适配框架 - SAL
查看>>
数组 将一个数组的元素和另一个素组的元素相加,然后赋给第三个数组
查看>>
Python常用模块汇总
查看>>
sa提开放系统下的虚拟新贵Virtualbox权技巧之xp_regwrite替换sethc.exe
查看>>
SpringBoot开发案例之整合Dubbo提供者(一)
查看>>
变态的程序
查看>>
腾讯抄你肿么办 ?
查看>>
java多线程的Fork/Join
查看>>
ftp 服务器的配置
查看>>
JavaScript的浏览器兼容性问题小结。
查看>>
Oracle Hint的用法
查看>>
Postfix邮件系统
查看>>
《编写可读代码的艺术》读书文摘--第一部分 表面层次的改进
查看>>