强化学习训练机器狗这件事,可以被理解为两次连续的“翻译”。
第一次翻译,是把人类模糊、含混、充满默认常识的需求,转化为奖励、惩罚、约束和评价标准。第二次翻译,则是把这些评价标准进一步写进神经网络权重中,形成具体的控制策略。
在实践中,第二次翻译往往可以由机器高效完成,而真正困难的通常是第一次。原因在于,“希望机器狗像狗一样自然运动”这样的需求,本身并不是一个现成的数学对象。它包含大量没有被明确说出的背景知识、审美判断以及隐性约束。因此,奖励设计并不仅仅是工程上的调参问题,而是在尝试把人类意图压缩成一个可计算的代理目标。 如果从更大的视角来看,这个过程未必必须完全依赖人工手写。互联网上已经积累了海量关于狗如何运动的文字、图像、视频以及讨论,而大语言模型又对这些内容进行了大规模压缩。因此,在某种意义上,模型内部很可能已经隐式携带了人类关于“狗应当如何运动”的大量规范性信息。
需要注意的是,这些互联网数据大多来自第三方观察视角——例如视频、图片、经验描述或讨论——它们描述的是“狗看起来如何运动”,而不是“狗的关节如何被控制”。换句话说,互联网上几乎没有直接的运动控制数据,例如关节力矩、控制信号或闭环控制策略。
但这并不一定构成问题。在强化学习的框架下,大语言模型未必需要掌握闭环控制的细节,因为奖励层本来也不负责具体控制,它只负责评价行为是否符合某种规范;而具体的控制策略,仍然可以交给后续的强化学习在环境中逐步适配和学习。
这样一来,问题的重点就不再只是“如何收集更多人类反馈”,而是“如何从已经被压缩进模型中的社会性反馈中,提炼出适合当前任务的规范结构”。
因此,真正困难、也真正关键的问题,可能并不在于策略学习本身,而在于规范表示:如何把“自然、协调、像狗”这样的模糊意图,转化为一种既保留语义,又能够被优化器消费的规范化数据形式。
换句话说,未来的重要问题也许不再只是继续手工设计奖励函数,而是如何把互联网与基础模型中已经存在的大量人类意图,编译成一种可计算、可检验、并且可以不断迭代修正的奖励结构。