在使用Spark的过程中,一般都会经历调试,提交任务等等环节,如果每个环节都可以确认程序的输入结果,那么无疑对加快代码的调试起了很大的作用,现在,借助IDEA可以非常快捷方便的对Spark代码进行调试,在借助IDEA来完成Spark时,可以大致通过以下几个步骤来完成:
在使用Spark的过程中,一般都会经历调试,提交任务等等环节,如果每个环节都可以确认程序的输入结果,那么无疑对加快代码的调试起了很大的作用,现在,借助IDEA可以非常快捷方便的对Spark代码进行调试,在借助IDEA来完成Spark时,可以大致通过以下几个步骤来完成:
GraphX 为整个图计算流程提供了强大的支持,先前已经有若干篇文章先后介绍了GraphX的强大功能,在GraphX官方编程指南中,提供了部分简单易懂的示例代码,其为GraphX的使用提供了一个初步的认识,作为需要用GraphX来编码实现需求的读者来说是十分宝贵的资源。
GraphX 是新的(alpha)的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD:一个将有效信息放在顶点和边的有向多重图。为了支持图形计算,GraphX 公开了一组基本的运算(例如,subgraph,joinVertices和mapReduceTriplets),以及在一个优化后的
PregelAPI的变形。此外,GraphX 包括越来越多的图算法和 builder 构造器,以简化图形分析任务。
背景是这样的:手上有一个学长之前实现的Spark项目,使用到了GraphX,并且用的Scala编写,现在需要再次运行这个项目,但如果直接在IDEA中打开项目,则由于各种错误会导致运行失败,这里就记录一下该如何使用IDEA来加载老旧的Spark项目。
注意:默认你的机器已有Scala环境,项目使用IDEA打开,对Sbt不做要求,因为这里采用的是NoSbt方式添加依赖的。
Gephi-Toolkit是一个工具包,可以不依赖NetBeans平台来对输入数据进行可视化,输入数据一般是gexf等格式的文件,大多已经完成了坐标计算过程,用此Toolkit的目的就是使用Gephi强大的绘图功能(还有独立的其他功能,这里暂不展开)。详细项目地址点击 这里 。
原文名:OpenOrd: An Open-Source Toolbox for Large Graph Layout
中译名:OpenOrd-面向大规模图布局的开源算法
刊载源:出版源 Visualization & Data Analysis , 2011 , 7868 (3) :-
作者们:Shawn Martin a , W. Michael Brown b
机构名:
- Sandia National Laboratories [a] 桑迪亚国家实验室,US
- Oak Ridge National Laboratories [b] 橡树岭国家实验室,US
原文名:Cluster Stability and the Use of Noise in Interpretation of Clustering
中文译:聚类的稳定性和在聚类解释中添加噪声
源刊载:IEEE Symposium on Information Visualization , 2001 :23
机构名:Sandia National Laboratories 桑迪亚国家实验室,US
研究点:
- Clustering algorithms
- Data visualization
- Stability analysis
- Algorithm design and analysis
- Best practices
fork
按钮将其fork到自己的github中: