当前位置：首页 IT编程 python 正文

Spark3 Clickhouse Hadoop大数据实战课程

rk 2024-01-23 python

Spark3 Clickhouse Hadoop大数据实战课程资源简介:

Spark3 Clickhouse Hadoop大数据实战课程图

Spark3 Clickhouse Hadoop大数据实战课程图

学员通过本课程的学习，不仅可以掌握使用Python进行Spark3数据分析，还会掌握利用Scala/java进行Spark数据分析，多语言并进，力求全面掌握；另外通过项目驱动，掌握Spark框架的精髓，教导Spark源码查看的技巧；会学到Spark性能优化的核心要点，成为企业急缺的数据分析人才；更会通过Clickhouse和Spark搭建OLAP引擎，使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目，学完即可拿来作为自己的项目经验，增加面试谈薪筹码。

目录:

第1章课程简介及环境安装(2小时11节)

1-1Spark3+Clickhouse课程大纲简介[11:41]
1-2大数据生态圈现状[11:04]
1-3彻底理解Spark RDD[13:38]
1-4开发环境安装JDK+Scala2.12[11:31]
1-5Spark3源码跟踪学习技巧[09:06]
1-6Spark IDEA调试环境搭建[06:38]
1-7Net网络配置及虚拟机静态IP配置[16:08]
1-8VMWare Workstation克隆主机[05:31]
1-9SSH无密钥登陆及关闭防火墙[06:28]
1-10Hadoop集群搭建[22:03]
1-11Spark3.x集群搭建[06:14]
第2章Hadoop/Yarn光速入门(57分钟3节)

2-1Hadoop集群动态扩容[22:45]
2-2Yarn核心组件及调度原理[11:16]
2-3Spark Yarn两种调度模式原理及代码实战[23:51]
第3章Spark RDD光速入门(4小时41分钟15节)

3-1Spark JdbcRDD等多种方式创建RDD[26:12]
3-2Jupter Notebook PySpark学习环境搭建[09:52]
3-3累加器和广播变量等8个知识点[27:36]
3-4SparkContext上的20个知识点[10:44]
3-5combineByKey等6个知识点[21:37]
3-6牢记容易被混淆的xxxByKey算子[10:34]
3-7RDD集合的差并补集[17:15]
3-8RDD上其余的20个知识点[23:53]
3-9通过隐式转换扩充RDD转换算子[17:53]
3-10通过隐式转换扩充RDD Action算子[17:08]
3-11常用的Action算子汇总(1)[30:03]
3-12常见的Action算子汇总(2)[12:42]
3-13SparkConfig配置对象[12:03]
3-14Spark任务调度源码走读[30:36]
3-15基于Spark RDD的项目实战[13:31]
第4章 DataFrame/Dataset光速入门 (5小时17分钟 11节)

4-1SparkSession详解[33:25]
4-2SparkSession read and writ[18:02]
4-3SparkSQL模块简介[06:22]
4-4Spark DataFrame核心算子知识点16[34:44]
4-5Spark DataFrame核心知识点60[46:12]
4-6GroupedData和Column知识点[41:42]
4-7Catalog和Row知识点[14:20]
4-8空数据处理和数据统计[22:03]
4-9Spark读写数据详细知识点[32:36]
4-10Spark数据类型及functions核武库[49:43]
4-11基于DataFrame的数据挖掘实战[18:34]
第5章 SparkSQL进阶 (3小时23分钟 11节)

5-1人生苦短我用SparkSQL[10:51]
5-2SparkSQL join原理及优化思路[36:13]
5-3SparkUDF用户自定义函数[11:14]
5-4Spark UDAF用户自定义聚合函数[09:38]
5-5SparkSQL整合Hive[29:36]
5-6Spark UDTF用户自定义表生成函数[09:25]
5-7SparkSQL性能优化数据倾斜之两阶段聚合[21:24]
5-8SparkSQL大表关联小表数据倾斜优化以及broa[13:14]
5-9Sql执行顺序及数仓分层理论[11:42]
5-10SparkSQL+Hive构建离线数仓[37:09]
5-11DWD明细数据生成[12:54]
第6章 Structured Streaming光速入门 (2小时38分钟 7节)

6-1Structured Streaming流式处理的两[09:17]
6-2Structured Streaming核心概念[32:33]
6-3Structured Streaming滑动窗口和水[37:33]
6-4Zokeeper集群搭建[16:15]
6-5Kafka集群搭建[24:16]
6-6pykafka推送hive订单数据到topic[27:43]
6-7Structured Streaming消费kafk[10:52]
第7章 SparkML快速入门 (2小时53分钟 8节)

7-1机器学习项目python数据处理[20:19]
7-2SparkML向量及矩阵表示[22:16]
7-3SparkML中四种分布式矩阵表示[16:05]
7-4SparkML特征转换(1)[44:17]
7-5SparkML特征转换(2)[16:55]
7-6SparkML pipline管道[20:01]
7-7SparkML交叉验证及网格搜索[12:50]
7-8SparkML房价预测[20:37]
第8章 Spark性能调优 (1小时5分钟 2节)

8-1Spark程序编写9大准则[27:38]
8-2Spark程序性能优化8大技巧[37:51]
第9章 Clickhouse光速入门 (4小时38分钟 12节)

9-1Clickhouse安装及用户和密码配置[17:54]
9-2TinyLog、Memory、Merge引擎[15:59]
9-3MergeTree引擎[33:11]
9-4Clickhouse集群配置及分布式表[29:03]
9-5Clickhouse单机多实例部署[31:54]
9-6Clickhouse三机双实例部署[08:53]
9-7Clickhouse三分片两副本集群配置[16:42]
9-8ReplicatedMergeTree实战[24:51]
9-9查询工具Tabix及DBeaver配置及使用[13:46]
9-10SSB数据分析实战[37:15]
9-11Catboost安装及回归分析应用[20:01]
9-12Catboost回归模型在clickhouse sq[29:08]
第10章 clickhouse集群监控 (1小时12分钟 5节)

10-1Clickhouse集群监控之Prometheus安[09:50]
10-2Clickhouse集群监控之Grafana配置[10:59]
10-3Clickhouse集群监控之node_export[11:17]
10-4Grafana导入clickhouse集群监控模板[02:42]
10-5Nginx反向代理Tabix+Pro+CK+Graf[37:26]

此隐藏内容仅限VIP查看升级VIP

侵权联系与免责声明 1、本站资源所有言论和图片纯属用户个人意见，与本站立场无关 2、本站所有资源收集于互联网，由用户分享，该帖子作者与独角兽资源站不享有任何版权，如有侵权请联系本站删除 3、本站部分内容转载自其它网站，但并不代表本站赞同其观点和对其真实性负责 4、如本帖侵犯到任何版权问题，请立即告知本站，本站将及时予与删除并致以最深的歉意如有侵权联系邮箱：1415374178@qq.com

0

评论0

在线客服
升级VIP
每日签到
夜间模式
返回顶部