分布式执行代码的认知纠正

Z.TIAN

2018年6月10日

大约1.2k字

阅读需8分钟

Spark是一个分布式计算系统/组件/平台，这是都知道的，其用Scala实现Spark任务也是最原生的，但万万不能认为只要是在Spark环境下执行的Scala代码都是分布式执行的，这是大错特错的，一开始一直有错误的认识，但现在想想，如果拿Java和Hadoop的关系来作对比，其就很容易理解了。

阅读全文

GraphX具体功能的代码使用实例-Scala实现

Z.TIAN

2018年5月11日

大约4.2k字

阅读需24分钟

GraphX 为整个图计算流程提供了强大的支持，先前已经有若干篇文章先后介绍了GraphX的强大功能，在GraphX官方编程指南中，提供了部分简单易懂的示例代码，其为GraphX的使用提供了一个初步的认识，作为需要用GraphX来编码实现需求的读者来说是十分宝贵的资源。

阅读全文

GraphX 是新的(alpha)的图形和图像并行计算的Spark API。从整理上看，GraphX 通过引入弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD：一个将有效信息放在顶点和边的有向多重图。为了支持图形计算，GraphX 公开了一组基本的运算（例如，subgraph，joinVertices和mapReduceTriplets），以及在一个优化后的
PregelAPI的变形。此外，GraphX 包括越来越多的图算法和 builder 构造器，以简化图形分析任务。

阅读全文

如何使用IDEA加载已有Spark项目

Z.TIAN

2018年5月6日

大约1.6k字

阅读需9分钟

背景是这样的：手上有一个学长之前实现的Spark项目，使用到了GraphX，并且用的Scala编写，现在需要再次运行这个项目，但如果直接在IDEA中打开项目，则由于各种错误会导致运行失败，这里就记录一下该如何使用IDEA来加载老旧的Spark项目。
注意：默认你的机器已有Scala环境，项目使用IDEA打开，对Sbt不做要求，因为这里采用的是NoSbt方式添加依赖的。

阅读全文