類型:在線學習| MP4 | 視頻:h264,1280×720 | 音頻:aac,48000 Hz
語言:英語| VTT | 大小:7.43 GB | 片長:16小時
您将學到的知識
在分布式框架(Apache Spark)上将Python與大數據結合使用
在現實的咨詢項目上使用REAL數據集可以
通過大數據實際解決實際問題,并通過MLflowTheory 集成UI來監視模型訓練和開發過程數據科學算法的研究和應用,
在Python中使用Spark操縱,連接和聚合數據幀
了解如何将Spark的機器學習技術應用于分布式數據幀
交叉驗證和超參數調整
頻繁模式挖掘技術
分類和回歸技術
用于自然語言處理的數據處理
方法在Spark中編寫SQL查詢
要求
熟悉Python是有幫助的,但不是必需的。
數據科學的某些背景是有幫助的,但不是必需的。
說明
本課程适用于希望使用REAL WORLD數據集在PySpark(适用于Apache Spark的Python)中進行實踐培訓的數據科學家(或有抱負的數據科學家)以及您每天将用作數據科學家的适用編碼知識!通過注冊本課程,您将獲得超過100堂講座,數百個示例問題和測驗以及100,000多行代碼的訪問權限!
在本課程結束之前,我将根據您作爲數據科學家爲美國國稅局(IRS)等客戶提供的數據科學家的咨詢經驗,爲您準備成爲Pyspark專家所需的基本知識。勞工部和美國退伍軍人事務部。
我已經爲實際應用程序組織了講座和編碼練習,因此您可以了解PySpark在實際工作中是如何使用的。我們還将深入研究我編寫的MYSELF自定義函數,以使您快速入門和運行MLlib API,并輕松開始構建機器學習模型!我們還将介紹MLflow,這将有助于我們在自定義用戶界面中管理和跟蹤模型訓練和評估過程,從而使您在工作市場上更具競争力!
每個部分都将提供概念複習講座以及活動結構化問題集的代碼,以幫助您将所學知識付諸實踐,并在遇到問題時解決每個問題。此外,每個部分都提供了帶有AUTHENTIC數據集的真實世界咨詢項目,以幫助您思考如何應用我們涵蓋的每個概念。
最後,我編寫了一些濃縮的複習筆記本和所有課程内容的講義,以使您日後參考時非常容易。一旦您在PySpark中進行了首次工作編程,這将非常有用!
我等不及要在講座上見到你!我真的希望您喜歡這門課程!我将在第一堂課中見!
本課程的目标讀者:
有興趣學習PySpark的數據科學家PySpark開發人員希望增強其編碼技能
需要與大數據合作的Python開發人員要與大數據合作的
數據科學家