RLHF 的开放问题和限制

工具软件2年前 (2023)发布 AI观察员

235 0 0

RLHF 的开放问题和限制

从人类反馈中强化学习（RLHF）是一种训练人工智能系统使其符合人类目标的技术。RLHF 已成为对最先进的大型语言模型（LLM）进行微调的核心方法。尽管这种方法很受欢迎，但将其缺陷系统化的公开工作却相对较少。在本文中，我们（1）调查了 RLHF 和相关方法的公开问题和基本限制；（2）概述了在实践中理解、改进和补充 RLHF 的技术；（3）提出了审计和披露标准，以改善社会对 RLHF 系统的监督。我们的工作强调了 RLHF 的局限性，并突出了开发更安全的人工智能系统的多层面方法的重要性。