描述
本课程是您进入令人兴奋的强化学习领域的完美切入点,其中构建了数字人工智能代理以自动学习如何通过反复试验做出连续决策。具体来说,本课程侧重于多臂老虎机问题以及各种算法策略的实际动手实现,以平衡探索和利用。每当您希望随着时间的推移从有限数量的选项中始终做出最佳选择时,您正在处理多臂强盗问题,本课程将教您构建现实的业务代理以处理所需的所有细节这种情况。
通过非常简洁的解释,本课程教你如何自信地将看似可怕的数学公式轻松地转换为 Python 代码。我们知道,我们当中没有多少人在技术上精通数学,因此除非有必要,否则本课程有意远离数学。即使有必要谈论数学,本课程采用的方法是任何具有基本代数技能的人都可以理解并且最重要的是可以轻松地将数学转化为代码并在此过程中建立有用的直觉。
本课程教授的一些算法策略是 Epsilon Greedy、Softmax Exploration、Optimistic Initialization、Upper Confidence Bounds 和 Thompson Sampling。有了这些工具,您就有足够的能力轻松构建和部署 AI机器人,这些代理可以在不确定的情况下处理关键业务操作。
本课程于2022.6月发布了后续课程《基于MAB算法广告点击AI机器人开发实战训练视频教程》
MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:eLearning | 语言:英语 + 英语字幕srt | 时长:13 节课(3 小时 45 分)| 大小:1.15 GB
你会学到什么:
- 了解并能够识别多臂强盗问题。
- 将实际业务问题建模为 MAB,并实施数字 AI 代理以使其自动化。
- 了解 RL 在探索-开发困境方面的挑战。
- 用于平衡探索和利用的各种算法策略的实际实现。
- Epsilon-greedy 策略的 Python 实现。
- Softmax 探索策略的 Python 实现。
- 乐观初始化策略的 Python 实现。
- 置信上限 (UCB) 策略的 Python 实现。
- 了解 RL 在奖励函数设计和样本效率方面的挑战。
- 通过增量抽样估计行动价值。
要求
- 能够理解 Python 中的基本 OOP 程序。
- 具备基本的 Numpy 和 Matplotlib 知识。
- 基本代数技能。如果你知道如何加、减、乘和除数,你就可以开始了。
本课程适用于谁
- 任何具有基本 Python 技能并希望开始强化学习的人。
- 希望将强化学习应用于实际业务问题的经验丰富的 AI 工程师、ML 工程师、数据科学家和软件工程师。
- 愿意学习强化学习如何帮助自动化自适应决策过程的商业专业人士。
原文链接:https://vuesite.cn/25118.html,转载请注明出处。