当前位置:首页 > 软件开放 > 正文内容

总共访问人数统计代码(总共访问人数统计代码怎么填)

软件开放8个月前 (03-02)333

Spark大数据分析技术

(Python版·微课版)

ISBN:9787302625520

作者:曹洁

价格:59元

课程教学大纲

[课程编号]:

[英文名称]:Spark Big Data Analysis

[课程性质]:专业必修课(专业核心课)

[先修课程]:Linux 基础、Python 程序设计、大数据技术导论、数据库技术

[适用专业]:数据科学与大数据技术

[学 分 数]:2

[总 学 时]:36

[理论学时]:24

[实践学时]:12

1

课程简介

展开全文

Spark 是立足于内存计算,是大数据系统领域的全栈式数据计算与分析平台,在大数 据分析与处理中被广泛应用。本课程主要介绍Spark大数据处理框架、Spark RDD 编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习和 数据可视化等。通过本课程的学习,学生能够深入理解 Spark 大数据处理技术框架的运行机制、针对不同类型数据的处理技巧和分析方法,提高大数据分析与处理能力。

2

课程目标

1.通过学习本课程,达到以下目标:

(1)知识目标:掌握扎实的大数据基础知识和大数据开发技术方法、工具和环境。

(2)能力目标:具备一定的大数据处理技术开发能力,培养独立思考和判断、分析问题和解决问题以及较强的实践动手能力。

总共访问人数统计代码(总共访问人数统计代码怎么填)

(3)素质目标:培养学生勤奋踏实,适应大数据行业快速发展的素质,具备良好的大数据处理技术职业道德。

2.课程目标与毕业要求关系

3

课程内容

(一)理论课课程内容

(二)实验课课程内容

参考书籍

《Spark大数据分析技术(Python版·微课版)》

ISBN:9787302625520

作者:曹洁

价格:59元

学习Spark非常适用的教材,案例丰富,操作性强。提供课件、大纲、源码。

内容简介

本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。

配套资源

· PPT课件

· 用到的数据集

· 源码

目录

向上滑动阅览

第1章大数据技术概述1

1.1大数据的基本概念1

1.1.1大数据的定义1

1.1.2大数据的特征1

1.1.3大数据思维2

1.2代表性大数据技术3

1.2.1Hadoop3

1.2.2Spark5

1.2.3Flink5

1.3大数据编程语言5

1.4在线资源5

1.5拓展阅读——三次信息化浪潮的启示6

1.6习题6

第2章Spark大数据处理框架7

2.1Spark概述7

2.1.1Spark的产生背景7

2.1.2Spark的优点8

2.1.3Spark的应用场景9

2.1.4Spark的生态系统9

2.2Spark运行机制10

2.2.1Spark基本概念10

2.2.2Spark运行架构12

2.3在VirtualBox上安装Linux集群13

2.3.1Master节点的安装13

2.3.2虚拟机克隆安装Slave1节点22

2.4Hadoop安装前的准备工作26

2.4.1创建hadoop用户和更新APT262.4.2安装SSH、配置SSH无密码登录27

2.4.3安装Java环境28

2.4.4Linux系统下Scala版本的Eclipse的安装与配置29

2.4.5Eclipse环境下Java程序开发实例30

2.5Hadoop的安装与配置32

2.5.1下载Hadoop安装文件32

2.5.2Hadoop单机模式配置33

2.5.3Hadoop伪分布式模式配置35

2.5.4Hadoop分布式模式配置40

2.6Spark的安装与配置49

2.6.1下载Spark安装文件49

2.6.2单机模式配置50

2.6.3伪分布式模式配置51

2.7使用PySpark编写Python代码54

2.8安装pip工具和常用的数据分析库55

2.9安装Anaconda和配置Jupyter Notebook55

2.9.1安装Anaconda55

2.9.2配置Jupyter Notebook57

2.9.3运行Jupyter Notebook58

2.9.4配置Jupyter Notebook实现和PySpark交互59

2.9.5为Anaconda安装扩展库61

2.10拓展阅读——Spark诞生的启示62

2.11习题62

〖3〗Spark大数据分析技术(Python版·微课版)目录〖3〗第3章Spark RDD编程63

3.1RDD的创建方式63

3.1.1使用程序中的数据集创建RDD63

3.1.2使用文本文件创建RDD65

3.1.3使用JSON文件创建RDD67

3.1.4使用CSV文件创建RDD69

3.2RDD转换操作69

3.2.1映射操作70

3.2.2去重操作72

3.2.3排序操作73

3.2.4分组聚合操作75

3.2.5集合操作78

3.2.6抽样操作79

3.2.7连接操作80

3.2.8打包操作81

3.2.9获取键值对RDD的键和值集合81

3.2.10重新分区操作81

3.3RDD行动操作83

3.3.1统计操作84

3.3.2取数据操作85

3.3.3聚合操作86

3.3.4迭代操作87

3.3.5存储操作88

3.4RDD之间的依赖关系89

3.4.1窄依赖89

3.4.2宽依赖89

3.5RDD的持久化90

3.6案例实战: 利用Spark RDD实现词频统计91

3.7实验1: RDD编程实验92

3.8拓展阅读——中国女排精神94

3.9习题95

第4章Spark SQL结构化数据处理96

4.1Spark SQL96

4.1.1Spark SQL简介96

4.1.2DataFrame与Dataset96

4.2创建DataFrame对象的方法97

4.2.1使用Parquet文件创建DataFrame对象97

4.2.2使用JSON文件创建DataFrame对象98

4.2.3使用SparkSession方式创建DataFrame对象99

4.3将DataFrame对象保存为不同格式的文件104

4.3.1通过write.xxx方法保存DataFrame对象104

4.3.2通过write.format方法保存DataFrame对象105

4.3.3将DataFrame对象转化成RDD保存到文件中105

4.4DataFrame的常用操作105

4.4.1行类操作105

4.4.2列类操作106

4.4.3DataFrame的常用属性109

4.4.4输出110

4.4.5筛选112

4.4.6排序116

4.4.7汇总与聚合117

4.4.8统计119

4.4.9合并120

4.4.10连接120

4.4.11to系列转换123

4.5读写MySQL数据库124

4.5.1安装并配置MySQL124

4.5.2读取MySQL数据库中的数据126

4.5.3向MySQL数据库写入数据127

4.6实验2: Spark SQL编程实验128

4.7拓展阅读——中国芯片之路130

4.8习题131

第5章HBase分布式数据库132

5.1HBase概述132

5.1.1HBase的技术特点132

5.1.2HBase与传统关系数据库的区别132

5.1.3HBase与Hadoop中其他组件的关系133

5.2HBase系统架构和数据访问流程134

5.2.1HBase系统架构134

5.2.2HBase数据访问流程136

5.3HBase数据表139

5.3.1HBase数据表逻辑视图139

5.3.2HBase数据表物理视图141

5.3.3HBase数据表面向列的存储142

5.3.4HBase数据表的查询方式143

5.3.5HBase表结构设计143

5.4HBase的安装144

5.4.1下载安装文件144

5.4.2配置环境变量144

5.4.3添加用户权限145

5.4.4查看HBase版本信息145

5.5HBase的配置145

5.5.1单机模式配置146

5.5.2伪分布式模式配置147

5.6HBase的Shell操作150

5.6.1基本操作150

5.6.2创建表151

5.6.3插入与更新表中的数据153

5.6.4查看表中的数据154

5.6.5删除表中的数据156

5.6.6表的启用/禁用156

5.6.7修改表结构157

5.6.8删除HBase表158

5.7HBase的Java API操作158

5.7.1HBase数据库管理API158

5.7.2HBase数据库表API159

5.7.3HBase数据库表行列API161

5.8HBase案例实战163

5.8.1在Eclipse中创建工程163

5.8.2添加项目用到的JAR包164

5.8.3编写Java应用程序165

5.8.4编译运行程序168

5.9利用Python操作HBase169

5.9.1HappyBase的安装169

5.9.2Connection类169

5.9.3Table类170

5.10拓展阅读——HBase存储策略的启示171

5.11习题171

第6章Spark Streaming流计算172

6.1流计算概述172

6.1.1流数据172

6.1.2流计算处理流程172

6.2Spark Streaming工作原理173

6.3Spark Streaming编程模型174

6.3.1编写Spark Streaming程序的步骤174

6.3.2创建StreamingContext对象174

6.4创建DStream175

6.4.1创建输入源为文件流的DStream对象175

6.4.2定义DStream的输入数据源为套接字流178

6.4.3定义DStream的输入数据源为RDD队列流182

6.5DStream操作183

6.5.1DStream无状态转换操作183

6.5.2DStream有状态转换操作187

6.5.3DStream输出操作189

6.6拓展阅读——Spark Streaming流处理过程的启示190

6.7习题190

第7章Spark MLlib机器学习191

7.1MLlib概述191

7.1.1机器学习191

7.1.2PySpark机器学习库193

7.2MLlib基本数据类型193

7.2.1本地向量193

7.2.2带标签的点195

7.2.3本地矩阵196

7.3机器学习流水线198

7.3.1转换器198

7.3.2评估器198

7.3.3流水线199

7.4基本统计201

7.4.1汇总统计201

7.4.2相关分析203

7.4.3分层抽样205

7.4.4生成随机数206

7.4.5核密度估计206

7.5特征提取、转换和选择207

7.5.1特征提取207

7.5.2特征转换210

7.5.3特征选择215

7.6分类算法217

7.6.1逻辑二分类回归分析218

7.6.2决策树分类222

7.7回归算法225

7.7.1循环发电场数据的多元线性回归分析225

7.7.2回归决策树229

7.7.3梯度提升回归树230

7.8聚类算法231

7.8.1聚类概述231

7.8.2k均值聚类算法232

7.9协同过滤推荐算法235

7.9.1协同过滤推荐的原理235

7.9.2交替最小二乘协同过滤推荐算法236

7.10实验3: Spark机器学习实验239

7.11拓展阅读——工匠精神240

7.12习题241

第8章数据可视化242

8.1WordCloud242

8.2PyeCharts247

8.2.1绘制柱状图248

8.2.2绘制折线图250

8.2.3绘制饼图252

8.2.4绘制雷达图252

8.2.5绘制漏斗图253

8.2.6绘制3D柱状图254

8.2.7绘制词云图255

8.3Plotly256

8.3.1绘制折线图256

8.3.2绘制柱状图257

8.3.3绘制饼图259

8.4拓展阅读——文化自信260

8.5习题260

参考文献261

在公众号书圈后台回复【9787302625520】,下载本书配套的教学资源

单击页面下方【阅读原文】,订阅【教学大纲】栏目

扫描二维码推送至手机访问。

版权声明:本文由飞速云SEO网络优化推广发布,如需转载请注明出处。

本文链接:http://muyuzhen.com/post/93106.html

分享给朋友:

“总共访问人数统计代码(总共访问人数统计代码怎么填)” 的相关文章

广州软件开发(广州软件开发公司)

广州软件开发(广州软件开发公司)

今天给各位分享广州软件开发的知识,其中也会对广州软件开发公司进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、广州手机app软件开发公司排名哪家好?希望推荐有经验的~~谢谢了 2、广州有哪些好的软件开发公司? 3、广州软件开发公司一般工资多少? 4...

夜猫下载(夜猫下载是什么)

夜猫下载(夜猫下载是什么)

本篇文章给大家谈谈夜猫下载,以及夜猫下载是什么对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、夜猫的呼唤电子书txt全集下载 2、如何下载夜猫视频? 3、夜猫电子书txt全集下载 4、《夜猫》txt全集下载 5、山海夜猫小助手怎么下载 夜猫的呼唤电子书t...

每天能赚30—50元的游戏不用看广告(一分钟赚50元的游戏不用看广告)

每天能赚30—50元的游戏不用看广告(一分钟赚50元的游戏不用看广告)

今天给各位分享每天能赚30—50元的游戏不用看广告的知识,其中也会对一分钟赚50元的游戏不用看广告进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、真正能赚钱的游戏无广告 2、什么游戏一天赚30元的,求能赚人民币的网络游戏,最好能一天赚30元的 3、一...

女孩子做装修销售好不(装饰装修销售好做不)

女孩子做装修销售好不(装饰装修销售好做不)

本篇文章给大家谈谈女孩子做装修销售好不,以及装饰装修销售好做不对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、女孩子到底适不适合做房产销售,说的详细点,谢谢~ 2、女孩子做销售合适吗?会有哪些不便 3、大家来说说,女孩子做销售、客户好吗? 女孩子到底适不适合做房...

一对一软件怎么样(一对一软件的哪个好)

一对一软件怎么样(一对一软件的哪个好)

本篇文章给大家谈谈一对一软件怎么样,以及一对一软件的哪个好对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、一对一视频聊天软件 2、一对一辅导软件哪个用起来比较好? 3、思学通家教1对1好不好 4、国外一对一视频聊天软件哪个好用 一对一视频聊天软件 1、Sky...

精灵宝可梦所有精灵的图片图鉴(精灵宝可梦精灵图鉴图片大全)

精灵宝可梦所有精灵的图片图鉴(精灵宝可梦精灵图鉴图片大全)

今天给各位分享精灵宝可梦所有精灵的图片图鉴的知识,其中也会对精灵宝可梦精灵图鉴图片大全进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、谁能告诉我神奇宝贝精灵大全图鉴,带图片、带这个精灵的简介、身高、体重及属性,谢谢了 2、宠物小精灵图鉴大全 3、宠物...