Azure Databricks 和 Spark Core一级方程式赛车项目开发视频教程(Python/SQL)

Azure Databricks 和 Spark Core一级方程式赛车项目开发视频教程(Python/SQL) -1

我期待着帮助您学习云中一种按需使用的数据工程工具 Azure Databricks!本课程教授使用 Azure Databricks 和 Spark 核心实现数据工程解决方案,用于分析和报告一级方程式赛车数据的真实世界项目。

这与 Udemy 中针对 Azure Databricks 的其他课程不同。一旦你完成了包括所有作业在内的课程,我坚信你将能够自己开始一个真实世界的数据工程项目,并且精通 Azure Databricks。我还包括有关 Azure Data Lake Storage Gen2、Azure 数据工厂以及 PowerBI 的课程。本课程的主要重点是 Azure Databricks 和 Spark 核心,但也涵盖了相关概念以及与提到的其他技术的连接。请注意,本课程不涉及 Spark 的其他方面,例如 Spark 流和 Spark ML。此外,该课程还使用 PySpark 和 Spark SQL 教授;它不包括 Scala 或 Java。

本课程遵循真实世界项目实施的逻辑进展,解释技术概念并同时构建 Databricks 笔记本。尽管本课程不是专门为教你通过 Azure 数据工程师助理认证考试 DP203 所需的技能而设计的,但它可以极大地帮助你获得考试所需的大部分必要技能。

我和我一样珍惜你的时间。因此,我将这门课程设计为快节奏且切中要害。此外,该课程以简单的英语授课,没有行话。我从基础开始本课程,在课程结束时,您将精通所使用的技术。

目前课程教你以下内容

Azure 数据块

使用 Azure Databricks、Azure Data Lake Gen2、Azure 数据工厂和 Power BI 为数据工程解决方案构建解决方案体系结构

在 Azure 中创建和使用 Azure Databricks 服务以及 Databricks 的体系结构

使用 Databricks 笔记本以及使用 Databricks 实用程序、魔术命令等

在笔记本之间传递参数以及创建笔记本工作流程

创建、配置和监控 Databricks 集群、集群池和作业

使用存储在 Azure Key Vault 中的机密在 Databricks 中挂载 Azure 存储

使用 Databricks 表、Databricks 文件系统 (DBFS) 等

使用 Delta Lake 实现使用 Lakehouse 架构的解决方案

创建仪表板以可视化输出

从 PowerBI 连接到 Azure Databricks 表

Spark(仅限 PySpark 和 SQL)

Spark 架构、数据源 API 和数据帧 API

PySpark – 将 CSV、简单和复杂的 JSON 文件作为镶木地板文件 / 表摄取到数据湖中。

PySpark – 转换,例如过滤器、连接、简单聚合、GroupBy、窗口函数等。

PySpark – 创建本地和临时视图

Spark SQL – 创建数据库、表和视图

Spark SQL – 转换,例如过滤器、连接、简单聚合、GroupBy、窗口函数等。

Spark SQL – 创建本地和临时视图

使用分区实现完全刷新和增量加载模式

Delta Lake

Data Lakehouse 架构的出现和Delta Lake的作用。

使用 PySpark 和 SQL 读取、写入、更新、删除和合并到Delta Lake

历史、时间旅行和真空

将 Parquet 文件转换为 Delta 文件

使用 delta Lake 实现增量加载模式

Azure 数据工厂

创建管道以执行 Databricks 笔记本

设计强大的管道以处理意外情况,例如丢失文件

在活动和管道之间创建依赖关系

使用数据工厂触发器调度管道以定期执行

监控触发器/管道以检查错误/输出。

MP4 | 视频:h264,1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:电子学习 | 语言:英语+srt | 持续时间:147 次讲座 (15h 12m) | 大小:3.76 GB

面向使用 Azure Databricks、Delta Lake、Azure 数据工厂 DP203 的数据工程师的一级方程式赛车真实世界项目


你将学到什么:
你将学习如何使用 Azure Databricks 和 Spark Core 构建真实世界的数据项目。本课程使用来自
一级方程式赛车的真实数据教授您将获得 Azure Databricks、Delta Lake、Spark Core、Azure Data Lake Gen2 和 Azure 数据工厂 (ADF) 的专业级数据工程技能
您将学习如何创建笔记本, Azure Databricks 中的仪表板、群集、群集池和作业
您将学习如何在 Azure Databricks 中使用 PySpark 摄取和转换数据
您将学习如何在 Azure Databricks 中使用 Spark SQL 转换和分析数据
您将了解数据湖架构和 Lakehouse 架构。此外,您还将学习如何使用 Delta Lake 实现 Lakehouse 架构的解决方案。
您将学习如何创建 Azure 数据工厂管道来执行 Databricks notebooks
您将学习如何创建 Azure 数据工厂触发器来安排管道以及监视它们。
您将获得有关 Azure Databricks 和数据工厂所需的技能,以通过 Azure 数据工程师助理认证考试 DP203,但本课程的主要目标不是教您通过考试。
你将学习如何从 Pow 连接到 Azure Databricks

要求 提供了
所有代码和分步说明,但以下技能将对您的旅程大有裨益
需要
基本的Python 编程经验 需要基本的 SQL 知识 了解
云基础知识会有所帮助,但不需要
Azure 订阅是必需的,如果您没有,我们将在课程中创建一个免费帐户

谁该课程是为
大学生寻找数据工程职业
IT开发人员对其他学科的试图移动到数据工程工作
数据工程师/数据仓库开发人员目前正在对内部部署的技术,或者其他云平台,例如AWS或GCP谁想要了解 Azure 数据技术
数据架构师希望了解 Azure 数据工程堆栈

面向数据工程师的 Azure Databricks 和 Spark Core(Python/SQL)

原文链接:https://vuesite.cn/17261.html,转载请注明出处。
0
显示验证码
没有账号?注册  忘记密码?