病美人(古代)折纸 1V1:清纯校花被脔日常H-新质观察|具身智能的时代已来,AI正在迈出关键一步

2024年7月6日,上海,2024世界人工智能大会,人工智能机器人伸出仿生机械手与参观的小朋友握手。视觉中国 资料图
1997年,IBM的深蓝战胜国际象棋大师加里·卡斯帕罗夫,震惊世界。2016年,“阿尔法围棋”(AlphaGo)又让围棋冠军李世石束手无策。从此,人工智能成为全球热议的话题。但那时的AI,只是一个会计算的“头脑”,它能分析棋盘局势,却摸不着棋子。
AlphaGo能够在服务器上快速训练数千场棋局,甚至击败世界冠军。但它本质上仍是纯粹的算法系统,缺乏在物理世界中执行动作的能力。每当它下棋时,必须依赖一位工作人员在场上帮它落子。这正是AI 发展的第一阶段——信息智能。它擅长处理数据,却无法直接影响现实。
如果 AI的发展是一场马拉松,那么第一阶段,我们造出了一个超凡的大脑。现在,它正在迎来第二阶段——具身智能(Embodied AI),也就是物理智能。这一阶段,AI不再局限于数据中心和屏幕,而是拥有了感知、长出了手脚,开始与物理世界交互。2025年,《政府工作报告》首次将“具身智能”写入其中,提出建立未来产业投入增长机制,重点培育生物制造、量子科技、具身智能和6G等未来产业。这一政策信号,标志着具身智能正从实验室走向现实,成为人工智能发展的重要方向。
从算法到动作,AI 迈出关键一步
想象一下,你走进一家餐厅,点了一杯咖啡。一台机器人服务员优雅地端着托盘,将热腾腾的咖啡放在你面前,没有洒出一滴。这件事,一个普通人轻松能做到,但对AI来说,却是一个天大的难题。
过去几十年,计算机视觉、语音识别、自然语言处理等信息智能取得了惊人的进展。AI可以识别图像、理解语言,甚至与人类流畅对话。然而,这些技术依然停留在数据世界。它们可以“看懂”一杯咖啡,但无法真正端起一杯咖啡。要让AI走出屏幕、影响现实,它必须学会如何在物理世界中行动。
这正是物理智能面临的核心难题。拿起一杯咖啡,这个看似简单的动作,实则涉及复杂的传感、肌肉控制、平衡调整。AI需要精准感知杯子的形状、材质、重量,计算手指施加的力度,同时调整身体平衡,以确保液体不会洒出。而这些,对人类来说几乎是本能,对AI而言,却需要从零开始学习。
如果说,信息智能的AI是生活在“理想国”里的哲学家,那么物理智能的AI,就是要下地干活的工人。而现实世界,比数据世界复杂得多,也更加不可预测。
最典型的例子,就是波士顿动力(Boston Dynamics)的机器人。它们能奔跑,跳跃,甚至做后空翻,看上去仿佛已掌握了物理智能。但你如果让它去开门,拧螺丝,或者在湿滑的地面上奔跑,它可能就会摔得四脚朝天。动作的流畅性不等于真正的灵活性,要让机器人适应复杂的现实环境,仍然存在巨大挑战。
为了让机器人更好地执行日常任务,斯坦福大学李飞飞团队提出了一种全身操作综合框架——行为机器人套件(BRS)。该框架旨在提升机器人在家庭环境中的自主执行能力,使其能够完成倒垃圾、整理衣物、刷马桶等多样化的家务任务。这项研究是具身智能突破的典型案例,它不仅让机器人“理解”任务,还让它们真正具备“动手”能力,使AI逐步迈向现实世界的高效执行者。
AI的关键,不只在于思考,更在于行动
信息智能让AI成为“世界上最聪明的读书人”,但仅仅会思考,无法改变世界。真正的变革,来自行动。具身智能,才是AI走向现实的关键。
回顾人类的进化历程,我们是因为会思考而强大,还是因为会行动而强大?
牛顿发现了万有引力定律,这是划时代的突破;但如果没有工程师们设计并制造出飞机引擎,我们依然无法飞翔于蓝天。爱因斯坦提出了相对论,这是科学史上的伟大突破;但如果没有物理学家和工程师的不断努力,我们也无法享受到GPS技术带来的便捷。知识塑造世界,但最终推动世界前行的,是实践。
人工智能亦是如此。信息智能让AI理解世界,物理智能让AI改造世界。今天,我们可以用Deepseek生成一篇文章,用豆包AI画一张图。但我们还无法让AI盖一座房子、做一顿饭、或为病人完成一场手术。未来,具身智能的突破,才是真正让AI进入日常生活的关键。
2025年3月,谷歌与机器人开发公司Apptronik合作,推出了两个基于Gemini 2.0的机器人AI模型——Gemini Robotics和Gemini Robotics-Embodied Reasoning(ER),旨在帮助机器人执行比以往更多的现实任务。
这两款模型的核心目标,是让机器人不仅能听懂指令,还能理解并适应新的环境和任务,这是物理智能发展的关键一步。测试表明,Gemini Robotics具备更强的泛化能力,能够处理未经过训练的任务,如折纸、将眼镜放入盒中、打开瓶盖等。相比之下,Gemini Robotics-ER版本更侧重于空间感知和任务规划,可供受信任的机器人开发者集成到自身系统中。这些技术突破,标志着机器人在现实环境中的适应能力和执行力取得了重要进展,使AI进一步从虚拟世界迈向物理世界。
具身智能面前的“三座大山”
AI要真正进入物理世界,最大的挑战是什么?目前来看,主要有三座大山:感知能力、运动控制和学习能力。这三者的突破,正在让具身智能从“实验室玩具”蜕变为“全能助手”。
第一座山:感知能力的进化,从“盲人摸象”到“眼观六路”
感知能力是机器人迈向现实世界的首要难题。人类的大脑,依靠眼睛、耳朵、皮肤等多种传感器感知世界,而机器人也需要类似的“感官”——摄像头、激光雷达、触觉和压力传感器等等。但问题在于,人类的感知能力是动态、综合且可适应的,而当前的AI感知系统通常是单一的、割裂的。
未来的机器人需要具备更强的泛化能力,能够适应从未见过的任务,并且在新的环境中迅速理解和反应。例如,机器人需要能够在面对不同物体、复杂场景或陌生环境时,快速识别并采取适当的行动。未来的家庭机器人管家需要在昏暗卧室避开满地乐高,抱起婴儿时自动调节力度,煮咖啡时根据香气调整萃取时间。这要求AI具备真正的全模态感知能力,让机器人像人类一样“眼耳鼻舌身意”俱全,在真实世界中精准感知、灵活应对。
第二座山:运动控制的革命,从“机械舞者”到“灵活工匠”
如果说感知能力决定了机器人能“看见”世界,那么运动控制决定了它能否与世界互动。你有没有注意到,今天的机器人能做许多事情,但它们的动作总显得有些生硬。这主要是因为人类的运动控制非常灵活,我们的肌肉、神经系统能够实时调整,而现有的AI运动系统仍显得粗糙。人类行走时,每步涉及200多块肌肉的毫秒级协调,而机器人要实现这种行云流水的动作,必须突破动态平衡、精细操作和能量效率三重难关。
随着技术的进步,机器人在动作控制方面的灵活性也在不断提升。未来的机器人能够精细地完成一些复杂的任务,如折纸、拿起易碎物品,甚至像人类一样操作物品。要实现这一点,机器人不仅需要精准的动作控制,还需要对周围环境做出实时的感知和调整。这种灵活性将使机器人更好地适应真实世界中的多变场景,执行需要高度协调和精密操作的任务。只有真正做到这一点,机器人才能适应真实世界的多变场景,从流水线上的机械臂,进化为可以胜任各种精细任务的“灵活工匠”。
第三座山:学习能力的蜕变,从“死记硬背”到“见机行事”
学习能力是机器人面临的第三大挑战。人类的学习,往往是通过试错、经验积累和直觉判断等多种方式结合的,而现有的AI虽然可以通过强化学习来训练动作,但它们仍然缺乏真正的“直觉”和“经验”,使得它们在面对环境变化时常常无法应对。
未来的机器人需要具备更强的自适应学习能力,能够通过日常对话或指令理解,不断调整自己的行为,并根据环境的变化不断优化自己的操作方式。这种持续学习和动态适应的能力,才能让机器人在复杂的现实世界中真正胜任任务,而不仅仅是按照预设程序执行操作。真正的智能,不是存储在数据库里的代码,而是在物理交互中涌现的生命力。
这些突破意味着,未来的机器人将不仅仅是单纯的工具,而是具备感知、行动、学习和适应能力的智能体。随着技术的不断发展,AI将逐渐从云端算力堆砌的“数字幽灵”,进化为扎根现实世界的“硅基生命体”。
AI的边界,还能延展到何处?
信息智能,让AI变得聪明;物理智能,让AI具备力量。但AI的终点,并非只是更强的计算能力或更灵活的肢体,而是迈向更高级的第三阶段——生物智能。
MIT实验室正在探索将神经细胞与芯片结合的技术,而中国科学院的研究团队已成功使机器人通过脑机接口“感知”虚拟疼痛。这些探索或许意味着,AI正在向生命的复杂性靠近。未来的AI将不再仅仅是冷冰冰的机器,而是像人类生命一样思考、学习、适应,甚至自主进化。
然而,生物智能仍是遥远的第三阶段。今天,我们才刚刚踏入第二阶段——具身智能的门槛。让AI具备真正的行动力,让它能够理解、感知、适应现实世界,这一过程可能比我们预想的更漫长。历史上,每一次技术革命,都是从思想到行动的演进。人类用了几千年,从哲学的思辨走向科技的实践,从构想工具到掌握工具,再到成为工具的创造者。而AI,正在沿着同样的路径前进。
唯一的问题是,我们准备好迎接这个“站起来的AI”了吗?
(作者胡逸为数据工作者,著有《未来可期:与人工智能同行》一书)