Python大数据处理PySpark项目实战开发完整视频教程

PySpark开发员完整视频教程 -1

欢迎学习《Python大数据处理PySpark项目实战开发完整视频教程》课程,你将通过数百个实际示例深入学习 PySpark,掌握Hadoop 集群设置,成为一名全职 PySpark 开发员。

类型:在线学习 | MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz
语言:英语 | 大小:7.15 GB | 时长:29h 1m

你会学到什么

成功的 PySpark 开发人员的完整课程
Hadoop 单节点集群 设置并与 Spark 2.x 和 Spark 3.x 集成
PySpark 的完整安装流程(Windows 和 Unix)
详细的 HDFS 课程
Python速成课程
Spark 介绍
了解 SparkSession
Spark RDD 基础,操作,持久性。解决问题的实际例子。
Spark 集群架构——执行、YARN、JVM 进程、DAG 调度器、任务调度器
Spark 共享变量
Spark SQL 架构、催化剂优化器、火山迭代器模型、Tungsten 执行引擎
DataFrame 基础数据
帧行、列和数据类型。实际例子。
ETL 使用 DataFrame(提取 API、转换 API 和加载 API)。实际例子。
优化和管理——加入策略、驱动程序配置、执行程序配置等

描述

这是一个完整的 PySpark 开发人员课程,适用于数据工程师和数据科学家以及其他想要以有效方式处理大数据的人。我们将涵盖以下主题和更多

成功的 PySpark 开发人员的完整课程

设置 Hadoop 单节点集群并将其与 Spark 2.x 和 Spark 3.x 集成

独立 PySpark(Unix 和 Windows 操作系统)的完整安装流程

详细的 HDFS 命令和架构。

Python速成课程

Spark 简介(为什么开发 Spark、Spark 特性、Spark 组件)

了解 SparkSession

Spark RDD 基础

如何创建 RDD

RDD 操作(转换和操作)

Spark 集群架构——执行、YARN、JVM 进程、DAG 调度器、任务调度器

RDD 持久化

Spark 共享变量 – 广播

Spark 共享变量 – 累加器)

Spark SQL 架构、Catalyst 优化器、Volcano 迭代器模型、Tungsten 执行引擎、不同的基准测试

Catalyst Optimizer 和 Volcano Iterator 模型的区别

Spark常用函数——Version、range、createDataFrame、sql、table、SparkContext、conf、read、udf、newSession、stop、catalog等

DataFrame 内置函数——新的列函数、加密函数、字符串函数、regexp 函数、日期函数、null 函数、集合函数、na 函数、数学和统计函数、explode 函数、flatten 函数、格式化和 json 函数

什么是分区,

什么是重新分区

什么是聚结

重新分区与合并

提取 – csv 文件、文本文件、Parquet 文件、orc 文件、json 文件、avro 文件、hive、jdbc

数据帧基础

什么是数据帧

数据帧源

数据帧功能

数据框组织

数据帧行,

数据框列

数据类型。实际例子。

使用 DataFrame 执行 ETL

— 提取 API

– 转换 API

— 加载 API

— 实际例子。

优化和管理——加入策略、驱动程序配置、并行配置、执行程序配置等

本课程适用于谁

任何愿意学习 PySpark 等高级大数据技术的 IT 专业人士。
想学习 Spark 的 Python 开发者。
数据工程师和数据科学家。

原文链接:https://vuesite.cn/20914.html,转载请注明出处。
0
显示验证码
没有账号?注册  忘记密码?