英伟达用ChatGPT-4训练机器人，代码水平超过人类专家

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

英伟达(NVIDIA)基于OpenAI的GPT-4打造Eureka，可自动训练实体机器人的动作指令，例如，转笔、开抽屉、使用剪刀等超复杂动作。具备零样本生成、编写代码和语境改进等能力，可对强化学习的奖励设计流程、代码进行大幅度优化，达到人类专家级水平。

英伟达AI高级研究总监兼该论文作者Anima Anandkumar表示，在过去十年，强化学习取得了空前成功，但仍面临许多困难，例如，奖励设计需要不断试错才能完成。Eureka的出现开创了一种全新的算法，将生成式AI与强化学习相结合以实现更高的执行效率。

强化学习是机器学习的一种类型，其目标是让一个智能体在与环境的交互中学习如何实现最优行为，以获取最大累积奖励。

在强化学习中，需智能体不断地从环境中获取状态，并在此基础上选择一个行动。环境对智能体的行动给出反馈，这个反馈称为“奖励”。强化学习的目标是找到一个最优的策略，关键元素包括智能体、环境、状态、行动和奖励。

研究人员对Eureka在多样化的实体机器人和任务中进行了全面评估，测试了其生成奖励函数、解决新任务等能力。

测试环境由由10个不同的机器人和29个使用IsaacGym模拟器实现的任务组成。首先，包括了来自IsaacGym(Isaac)的9个原始环境，涵盖了从四足动物、双足动物、四旋翼、协作机器人臂到灵巧手的多样化机器人形态。除了对机器人形态因素的覆盖，还通过包含双手操作基准中的所有20个任务，确保了评估的深度。

结果显示，Eureka可以生成超过人类水平的奖励函数。在29个任务中，Eureka的奖励在83%的任务中，超过了人类专家编写的奖励函数，平均规范化改进为52%。尤其是在高维灵活性环境中，Eureka实现了更的收益。