2024年图灵奖授予强化学习之父Richard Sutton及其导师!
来源 | ACM翻译| 苏宓出品 | CSDN(ID:CSDNnews)ACM(美国计算机学会)最新公布了 2024 年度ACM A.M. 图灵奖获得者:Andrew G. Barto 和 Richard S. Sutton,以表彰他们在强化学习领域的概念和算法基础方面的贡献。自 20 世纪 80 年代起,Barto 和 Sutton 发表了一系列论文,提出了强化学习的核心思想,...
来源 | ACM 翻译 | 苏宓
出品 | CSDN(ID:CSDNnews)
ACM(美国计算机学会)最新公布了 2024 年度 ACM A.M. 图灵奖获得者:Andrew G. Barto 和 Richard S. Sutton,以表彰他们在强化学习领域的概念和算法基础方面的贡献。
自 20 世纪 80 年代起,Barto 和 Sutton 发表了一系列论文,提出了强化学习的核心思想,建立了数学基础,并开发了重要的强化学习算法——这一领域已成为构建智能系统的关键方法之一。
Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的名誉教授。他于 1977 年在该校担任博士后研究员,随后历任副教授、教授及系主任等职务。Barto 本科毕业于密歇根大学,获数学学士学位(荣誉),并在同校获得计算机与通信科学硕士和博士学位。
Barto 曾荣获马萨诸塞大学神经科学终身成就奖、国际人工智能联合会议(IJCAI)研究卓越奖以及 IEEE 神经网络学会先锋奖。他是电气与电子工程师学会(IEEE)会士及美国科学促进会(AAAS)会士。
Richard Sutton 是阿尔伯塔大学计算机科学系教授,同时担任人工通用智能公司 Keen Technologies(总部位于美国得克萨斯州达拉斯)的研究科学家,并担任阿尔伯塔机器智能研究所(Amii)的首席科学顾问。2017 年至 2023 年间,他曾是 DeepMind 的杰出研究科学家。
在加入阿尔伯塔大学之前,Sutton 于 1998 年至 2002 年在新泽西州弗洛勒姆帕克的 AT&T 香农实验室人工智能部门担任首席技术人员。Sutton 与 Andrew Barto 的合作始于 1978 年,当时他在马萨诸塞大学阿默斯特分校攻读博士和从事博士后研究,Barto 是他的导师。Sutton 本科毕业于斯坦福大学,获心理学学士学位,并在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。
Sutton 曾获国际人工智能联合会议(IJCAI)研究卓越奖、加拿大人工智能协会终身成就奖,以及马萨诸塞大学阿默斯特分校的杰出研究成就奖。他是英国皇家学会(Royal Society)会士、人工智能促进协会(AAAI)会士及加拿大皇家学会(Royal Society of Canada)会士。
ACM A.M. 图灵奖被誉为“计算机界的诺贝尔奖”,奖金为 100 万美元,由 Google 资助。该奖项以英国数学家艾伦·图灵(Alan M. Turing)命名,他奠定了计算理论的数学基础。
AI 的核心目标是打造能感知和行动的“智能体”(Agent)。简单来说,就是让 AI 变得更聪明,能做出更好的决策。在 AI 研究中,一个关键原则是:有些行动比其他行动更好,如何选择更优的行动就成了重点。
强化学习(Reinforcement Learning, RL)就是围绕这个原则展开的。它的核心概念是“奖励”——AI 通过试错学习,不断收到反馈信号,并根据这些信号调整自己的决策,最终优化行为,变得更聪明。
这个想法其实很古老,比如训练动物时,用奖励引导它们学会特定动作。1950 年,艾伦·图灵在论文《计算机器与智能》(Computing Machinery and Intelligence)中思考“机器能不能思考?”并提出用“奖励和惩罚”来训练机器的想法。后来,在 20 世纪 50 年代末,Arthur Samuel 开发了一款会自我学习的跳棋程序。但在之后的几十年里,AI 在这一方向上的进展并不多。
20 世纪 80 年代初,Barto 和他的博士生 Sutton 受到心理学研究的启发,开始把强化学习定义为一个通用问题框架。他们借鉴了马尔可夫决策过程(MDP)的数学理论,在这个模型中,智能体在一个充满随机性的环境中做决策,每次行动后都会收到奖励,并希望最终获得最大的长期收益。与传统 MDP 假设智能体对环境了如指掌不同,强化学习不要求事先知道环境和奖励机制,因此能适用于更多复杂场景。
Barto 和 Sutton 及其团队开发了强化学习的许多关键算法。其中最重要的贡献是时序差分学习(Temporal Difference Learning),这个方法大大提升了 AI 对奖励的预测能力。此外,他们还提出了策略梯度方法(Policy Gradient Methods),以及利用神经网络来表示学习函数的方法。他们还研究了如何让 AI 同时进行学习和规划,并证明了 AI 了解环境知识对于制定更优决策的重要性。
他们在 1998 年合著的教材 《强化学习:导论》(Reinforcement Learning: An Introduction)影响深远,至今仍是强化学习领域的权威书籍,被引用超过 75,000 次,帮助了无数研究者理解和推动这一领域的发展。
虽然 Barto 和 Sutton 早在几十年前就提出了强化学习的核心算法,但真正的突破是在过去 15 年里,尤其是它与深度学习结合后。深度学习是由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 推动的,而两者结合后,催生出了深度强化学习(Deep Reinforcement Learning) 这一技术,让 AI 变得更加强大。
强化学习最著名的成功案例之一,就是 AlphaGo 在 2016 和 2017 年击败了世界顶级围棋选手。此外,ChatGPT 的成功也离不开强化学习,特别是 人类反馈强化学习(RLHF),这种技术让 ChatGPT 更符合人类的需求,说话更自然、更有帮助。
但强化学习的应用远不止围棋和 AI 对话,它在机器人运动技能、网络流量控制、芯片设计、广告优化、供应链管理等多个领域都发挥了巨大作用。甚至在计算机科学最古老的问题之一——矩阵乘法优化 上,强化学习也提供了新的解决方案。
强化学习最初是受到神经科学的启发,如今,它也反过来帮助了神经科学研究。Barto 等人的研究发现,AI 领域的一些强化学习算法,实际上能很好地解释人脑多巴胺系统的运作机制。
“Barto 和 Sutton 的研究展示了跨学科方法如何攻克计算机科学的长期难题。从认知科学、心理学到神经科学,这些领域的研究催生了强化学习,而强化学习不仅推动了 AI 发展,也加深了我们对人脑的理解。他们的工作不是过去的遗产,而是持续创新的领域,仍然充满巨大潜力。因此,我们授予他们计算机科学领域最负盛名的奖项”,ACM 主席 Yannis Ioannidis 评价道。
在接受外媒 BetaKit 采访时,Sutton 坦言自己完全没有预料到能获得这个荣誉。此外,他还分享了自己对 AI 安全问题的看法,以及通往类人智能(Human-like AI)的路径。
Sutton 直言不讳地表示:“那些 AI 末日论者言过其实,他们的担忧被夸大了。” 他最担心的不是 AI 本身,而是 AI 可能被当作世界问题的替罪羊。他对当前 AI 领域的舆论趋势感到失望:“我很遗憾地看到,我的同行们正在助长这种对 AI 的不当妖魔化。”
不过,Sutton 认为人们确实应该警惕 ChatGPT 等工具提供的信息,因为 LLM 容易出错或产生幻觉。但在他看来,这并不是技术本身的问题,而是“人们太容易轻信”导致的。他同时认为,AI 确实会让一些工作消失,但也会创造新的就业机会,而政府可以在人才培训方面做得更好。他还明确表示,不会参与 AI 军事研发,强调“我们不应急于打造能够投射武力的 AI。”
尽管强化学习(RL)在 AI 领域占据重要位置,但生成式 AI 目前更受关注。对此,Sutton 轻松地表示:“我们感觉不错,至少能排在第二。”
他对强化学习没有成为风口感到庆幸:“很多领域都会经历从极度火热到被严重高估,最终导致失望的过程。而强化学习的成长路径则更加稳健,我们一直在稳步提升自己的重要性,而不是靠夸大宣传。”
此外,Sutton 称自己并不喜欢“人工通用智能(AGI)”这个术语,该概念指的是一种能在广泛任务上匹敌或超越人类认知能力的 AI。不过,他仍然看好 AI 能够真正理解并与环境互动的前景。
对于 AGI 的发展路径,他认为当前围绕 LLM 的讨论并不靠谱,并直言:“我不认为 LLM 这条路能通向真正的智能。” 相比之下,他提出了一套不同的发展计划,即 “阿尔伯塔计划”(The Alberta Plan)。这是一项由他与阿尔伯塔大学教授 Michael Bowling 和 Patrick Pilarski 共同制定的 12 阶段发展路线,旨在探索如何逐步实现更强的 AI。他表示:“我们相信自己制定了一份可行的计划。”
谈及 AGI 何时可能实现,Sutton 估计:到 2030 年实现 AGI 的概率是 25%,到 2040 年则是 50%,因为计算能力的成本正在不断降低。
最后,祝贺 Andrew G. Barto 和 Richard S. Sutton!
来源:https://awards.acm.org/about/2024-turing
推荐阅读:
▶继亲自写代码、加班到凌晨后,谷歌联创布林再喊话员工:每周工作60小时冲刺AGI!
▶AI三小时造出游戏、10天狂赚28万!游戏开发小白逆袭,获马斯克点赞:AI游戏要火!
▶清华大学朱军教授将出席 2025 全球机器学习技术大会并发表演讲!
更多推荐
所有评论(0)