LLMs as Human Preference Proxies • Firom's Blog

强化学习训练机器狗这件事，可以被理解为两次连续的“翻译”。

第一次翻译，是把人类模糊、含混、充满默认常识的需求，转化为奖励、惩罚、约束和评价标准。第二次翻译，则是把这些评价标准进一步写进神经网络权重中，形成具体的控制策略。

在实践中，第二次翻译往往可以由机器高效完成，而真正困难的通常是第一次。原因在于，“希望机器狗像狗一样自然运动”这样的需求，本身并不是一个现成的数学对象。它包含大量没有被明确说出的背景知识、审美判断以及隐性约束。因此，奖励设计并不仅仅是工程上的调参问题，而是在尝试把人类意图压缩成一个可计算的代理目标。如果从更大的视角来看，这个过程未必必须完全依赖人工手写。互联网上已经积累了海量关于狗如何运动的文字、图像、视频以及讨论，而大语言模型又对这些内容进行了大规模压缩。因此，在某种意义上，模型内部很可能已经隐式携带了人类关于“狗应当如何运动”的大量规范性信息。

需要注意的是，这些互联网数据大多来自第三方观察视角——例如视频、图片、经验描述或讨论——它们描述的是“狗看起来如何运动”，而不是“狗的关节如何被控制”。换句话说，互联网上几乎没有直接的运动控制数据，例如关节力矩、控制信号或闭环控制策略。

但这并不一定构成问题。在强化学习的框架下，大语言模型未必需要掌握闭环控制的细节，因为奖励层本来也不负责具体控制，它只负责评价行为是否符合某种规范；而具体的控制策略，仍然可以交给后续的强化学习在环境中逐步适配和学习。

这样一来，问题的重点就不再只是“如何收集更多人类反馈”，而是“如何从已经被压缩进模型中的社会性反馈中，提炼出适合当前任务的规范结构”。

因此，真正困难、也真正关键的问题，可能并不在于策略学习本身，而在于规范表示：如何把“自然、协调、像狗”这样的模糊意图，转化为一种既保留语义，又能够被优化器消费的规范化数据形式。

换句话说，未来的重要问题也许不再只是继续手工设计奖励函数，而是如何把互联网与基础模型中已经存在的大量人类意图，编译成一种可计算、可检验、并且可以不断迭代修正的奖励结构。