什么是强化学习?

深入探索:机器学习中的强化学习

在当代人工智能(AI)领域,强化学习(RL)无疑是最引人注目的研究方向之一。众多人工智能和机器学习(ML)开发者正积极投身于强化学习的实践,致力于打造更智能的应用和工具。

机器学习是所有人工智能产品背后的核心驱动力。开发人员运用各种ML技术来训练其智能应用,例如游戏等。机器学习本身是一个高度多元化的领域,不同的开发团队不断探索新的机器训练方法。

深度强化学习就是一种极具前景的机器学习方法。这种方法的核心思想是通过惩罚机器的不良行为,并奖励其期望行为来引导学习。专家普遍认为,这种机器学习方法必将推动人工智能从自身经验中不断进步。

如果您对人工智能和机器学习领域抱有浓厚的兴趣,那么接下来这份关于智能应用和机器强化学习方法的终极指南绝对值得您深入阅读。

机器学习中的强化学习是什么?

强化学习本质上是一种教计算机程序学习模型的方法。学习模型建立后,应用程序就能依据模型做出相应的决策。软件在复杂且不确定的环境中学习如何实现既定目标。在这样的机器学习模式中,人工智能将面临一个类似游戏的环境。

人工智能应用通过反复试验,为当前的问题寻求创新性的解决方案。一旦人工智能应用掌握了正确的机器学习模型,它就会指挥受其控制的机器执行程序员预设的任务。

当人工智能做出正确的决策并成功完成任务时,它会获得奖励;反之,如果人工智能做出了错误的选择,则会面临惩罚,例如失去奖励积分。人工智能应用的最终目标是累积尽可能多的奖励积分,从而赢得“游戏”。

人工智能应用的程序员会设定游戏规则或奖励政策,并为人工智能提出需要解决的问题。与其他的机器学习模型不同,人工智能程序不会接收来自软件程序员的任何提示。

人工智能需要独立思考如何克服游戏中的挑战,以获得最大化的奖励。为了达成解决方案,该应用可能会采用试错法、随机实验、强大的计算能力以及复杂的思维策略。

您需要为人工智能程序配备强大的计算基础设施,并将其思维系统与大量的并行和历史游戏数据相连接。如此一来,人工智能就能展现出人类难以想象的批判性和高阶创造力。

强化学习的常见示例

#1. 击败顶尖人类围棋选手

谷歌旗下DeepMind Technologies公司的AlphaGo人工智能是基于强化学习的机器学习的杰出代表。该人工智能擅长一种名为围棋的中国棋盘游戏。围棋是一项拥有3000年历史的策略型游戏。

AlphaGo 的训练过程采用了强化学习方法。它与人类以及自身进行了成千上万次的围棋对弈。最终,在2016年,它在一场一对一的比赛中战胜了当时世界顶尖的围棋选手李世石。

#2. 现实世界的机器人

在生产线上,人类长期以来都在使用机器人技术,这些机器人执行的是预先规划好、重复性的任务。然而,如果需要为现实世界制造一种通用机器人,并且该机器人没有预先设定的动作,这将是一个巨大的挑战。

然而,基于强化学习的人工智能能够发现在两个地点之间平滑、可导航且最短的路线。

#3. 自动驾驶汽车

自动驾驶汽车研究人员广泛采用强化学习方法来训练其人工智能,包括:

  • 动态路径规划
  • 轨迹优化
  • 运动规划,例如停车和变道
  • 优化控制器、(电子控制单元)ECU、(微控制器)MCU等。
  • 基于情境的高速公路学习

#4. 自动化冷却系统

基于强化学习的人工智能能够帮助最大限度地减少大型办公楼、商业中心、购物中心,特别是数据中心的冷却系统的能源消耗。人工智能从数千个热传感器收集数据。

它还会收集有关人类和机械活动的数据。通过这些数据,人工智能可以预测未来的热量产生潜力,并适时地启动和关闭冷却系统以节省能源。

如何建立强化学习模型

您可以采用以下方法构建强化学习模型:

#1. 基于策略的方法

这种方法允许人工智能程序员找到获得最大回报的最佳策略。在这种方法中,程序员不使用价值函数。在建立基于策略的方法之后,强化学习代理会尝试运用该策略,使其在每个步骤中所采取的行动都能最大化奖励积分。

主要有两种策略:

#1. 确定性:策略在任何给定状态下都会产生相同的动作。

#2. 随机性:产生动作的概率由事件发生的概率决定。

#2. 基于价值的方法

相反,基于价值的方法帮助程序员找到最优价值函数,即在任何给定状态下策略下的最大价值。一旦应用,强化学习代理预期在所述策略下的任何一个或多个状态下获得长期回报。

#3. 基于模型的方法

在基于模型的强化学习方法中,人工智能程序员会为环境创建一个虚拟模型。然后,强化学习代理会在环境中移动并从中学习。

强化学习的类型

#1. 正强化学习(PRL)

积极学习意味着添加某些元素来提高预期行为再次发生的可能性。这种学习方法对强化学习代理的行为产生积极影响。正强化学习还能增强人工智能某些行为的强度。

正强化学习类型的强化应该使人工智能做好长时间适应变化的准备。但是,过度的正强化学习可能会导致状态负担过重,从而降低人工智能的效率。

#2. 负强化学习(NRL)

当强化学习算法帮助人工智能避免或停止负面行为时,人工智能就会从中学习并改进其未来的行为。这种学习方法被称为消极学习。它仅为人工智能提供有限的智能,以满足某些行为要求。

强化学习的实际应用

#1. 电子商务解决方案开发人员已经构建了个性化的产品或服务推荐工具。您可以将该工具的应用程序编程接口(API)连接到您的在线购物网站。然后,人工智能会向个人用户学习,并推荐定制化的商品和服务。

#2. 开放世界的视频游戏具有无限的可能性。然而,游戏程序背后有一个人工智能程序,它可以从玩家的输入中学习并修改视频游戏代码,以适应未知情况。

#3. 基于人工智能的股票交易和投资平台使用强化学习模型,从股票和全球指数的走势中学习。因此,他们构建了一个概率模型,以建议哪些股票值得投资或交易。

#4. YouTube、Metacafe、Dailymotion等在线视频库使用在强化学习模型上训练的人工智能机器人,向用户推荐个性化的视频。

强化学习 vs. 监督学习

强化学习旨在训练人工智能代理按顺序做出决策。简单来说,您可以认为人工智能的输出取决于当前输入的状况。同样,强化学习算法的下一个输入将取决于过去输入的输出。

基于人工智能的机器人与人类棋手下棋是强化学习机器学习模型的一个典型例子。

相反,在监督学习中,程序员会训练人工智能代理根据最初给出的输入或任何其他初始输入做出决策。自动驾驶汽车驾驶人工智能识别环境物体是监督学习的一个典型例子。

强化学习 vs. 无监督学习

目前为止,您已经了解到强化学习方法驱动人工智能代理从机器学习模型策略中学习。基本上,人工智能只会采取那些能够最大化奖励积分的步骤。强化学习通过反复试验来帮助人工智能即兴发挥。

另一方面,在无监督学习中,人工智能程序员会向人工智能软件引入未标记的数据。此外,机器学习讲师不会告诉人工智能关于数据结构的任何信息,也不会告诉人工智能应该在数据中寻找什么。该算法通过对自己对给定未知数据集的观察进行分类来学习各种决策。

强化学习课程

现在,您已经掌握了基础知识,以下是一些在线课程,可以帮助您学习更高级的强化学习内容。您还可以获得能够在LinkedIn或其他社交平台上展示的证书:

强化学习专业化:Coursera

您是否希望通过机器学习的背景掌握强化学习的核心概念?您可以尝试这个Coursera 强化学习课程。该课程在线提供,并提供自定进度的学习和认证选项。如果您具备以下背景技能,该课程将非常适合您:

  • 具备Python编程知识
  • 掌握基本统计概念
  • 能够将伪代码和算法转换为Python代码
  • 拥有两到三年的软件开发经验
  • 计算机科学专业的二年级本科生也符合资格

该课程获得了4.8星的评分,超过36,000名学生在不同的时间注册了该课程。此外,只要候选人符合Coursera的某些资格标准,该课程将提供经济援助。

最后,这门课程由阿尔伯塔大学的阿尔伯塔机器智能研究所提供(不授予学分)。计算机科学领域的知名教授将担任您的课程讲师。完成课程后,您将获得Coursera证书。

Python中的人工智能强化学习:Udemy

如果您涉足金融市场或数字营销,并想为上述领域开发智能软件包,那么您必须查看这个Udemy 强化学习课程。除了强化学习的核心原理外,培训内容还将指导您如何为在线广告和股票交易开发强化学习解决方案。

该课程涵盖的一些重要主题包括:

  • 强化学习的高级概述
  • 动态规划
  • 蒙特卡罗方法
  • 近似方法
  • 强化学习的股票交易项目

到目前为止,已经有超过42,000名学生参加了该课程。这个在线学习资源目前拥有令人印象深刻的4.6星评分。此外,该课程旨在满足全球学生社区的需求,学习内容提供法语、英语、西班牙语、德语、意大利语和葡萄牙语版本。

Python中的深度强化学习:Udemy

如果您对深度学习和人工智能抱有好奇心并具备基础知识,您可以尝试这门进阶的Python 强化学习课程来自Udemy。该课程获得了学生4.6星的评价,是另一个在人工智能/机器学习背景下学习强化学习的热门课程。

该课程包含12个部分,涵盖以下重要主题:

  • OpenAI Gym和基本的强化学习技术
  • 时序差分学习(TD-Learning)
  • A3C(异步优势演员评论家)算法
  • Theano基础知识
  • TensorFlow基础知识
  • 针对初学者的Python编码

完成整个课程需要投入10小时40分钟的时间。除了文字内容外,还附带79场专家讲座。

深度强化学习专家:Udacity

想向Nvidia深度学习研究所和Unity等人工智能/机器学习领域的领导者学习高级机器学习吗?Udacity可以帮助您实现梦想。请了解这个深度强化学习课程,以成为一名机器学习专家。

但是,您需要具备高级Python、中级统计、概率论、TensorFlow、PyTorch和Keras的背景。

完成该课程最多需要4个月的刻苦学习。在整个课程中,您将学习重要的强化学习算法,例如深度确定性策略梯度(DDPG)、深度Q网络(DQN)等。

结语

强化学习是人工智能发展的下一个阶段。人工智能开发机构和IT公司正在该领域投入大量资金,以创建可靠且值得信赖的人工智能训练方法。

尽管强化学习已经取得了显著进展,但仍有很大的发展空间。例如,独立的强化学习代理之间不会共享知识。因此,如果您正在训练一个应用程序来驾驶汽车,那么学习过程将会非常缓慢。这是因为像对象检测、道路参考等强化学习代理不会共享数据。

您有机会将自己的创造力和机器学习专业知识投入到这些挑战中。注册在线课程将帮助您进一步了解高级强化学习方法及其在实际项目中的应用。

另一个值得探讨的学习领域是人工智能、机器学习和深度学习之间的区别。