先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
如果您可以衡量性能,那么提高性能就会更容易。在某些情况下,对提示的修改将在几个孤立的示例上实现更好的性能,但会导致在一组更具代表性的示例上整体性能变差。因此,为了确保更改对性能产生净积极影响,可能有必要定义一个全面的测试套件(也称为“评估”)。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
战术:
参考黄金标准答案评估模型输出
这条的应用需要应用一些统计学的知识背景,他的阐述也想对谨慎,对gpt输出的内容比较客观(想想我们生活中存在的【幸存者偏见】),这里给出三条好的评估标准,比较抽象。这一部分阐述了关于gpt整体模型的评估是基于机器+人+混合完成,但还不够完美,一直在迭代中。
这一条就跟题目一样,列举一条评估标准,然后我们输入我们的结果,系统在已有的评估标准内对我们输入的结果进行评估。
我没有类似的应用场景,理解不够透彻,供备查。