基本概括
概述
spark快速
- 扩充了mapreduce
- 基于内存计算(中间结果的存储位置)
1.复制虚拟机文件
2.在VMware中分别打开三个虚拟机
3.设置NAT模式,固定IP,可上网
4.运行一下
现在IDEA编译成功topo后,使用WinSCP将打包好的包传到主节点
注意:打包之前–要讲 [ 本地模式 ] 改为 [ 集群模式 ]
1 | //本地测试模式 |
现在IDEA编译成功topo后,使用WinSCP将打包好的包传到主节点
注意:打包之前–要讲 [ 本地模式 ] 改为 [ 集群模式 ]
1 | //本地测试模式 |
在IDEA的maven项目中编写Topology出错:
NoClassFound找不到主类:解决–
在pom.xml中,找到
1 | kafka中的topic不新建也可以使用 |
在windows下使用IDEA远程连接linux集群进行mapreduce调试
改用户名,administrator改为hadoop,即改为linux集群的用户名,我的为hadoop
将hadoop.tar.gz解压至windows下,添加系统变量跟环境变量 HADOOP_HOME,添加PATH追加上HADOOP_HOME\bin;HADOOP_HOME\sbin;
厦门大学数据库实验室教程
有几个坑
SparkSQL context 在执行sql语句时,现在使用spark.sql()替换sqlContext.sal()