比更爱说谎,首个大模型诚实性评估基准来了

admin 阅读:977 2024-07-11 19:25:27 评论:0

PengfeiLiu投稿

量子位|公众号QbitAI

评估大模型是否诚实的基准来了

上海交通大学生成式人工智能实验室(GAIRLab)推出了一项开创性的评估基准——BeHonest,旨在全面评估大模型的诚实性,为安全透明的AI研发和应用提供重要参考。

在人工智能(ArtificialIntelligence,AI)飞速发展的今天,大语言模型(LargeLanguageModels,LLMs)的崛起不仅带来了令人兴奋的新体验,也引发了对其安全性和可靠性的深度思考。

在众多AI安全问题中,大模型的诚实性

问题具有根本性的意义。不诚实的AI模型可能在不知道答案的情况下编造信息,隐藏自身能力,甚至故意误导用户。

这种不诚实的行为不仅会引发信息传播的混乱和安全隐患,还会严重阻碍AI技术的进一步优化和健康发展。如果大模型不能真实地展示其能力和局限,开发者就难以精确地进行改进。

因此,确保大模型的诚实性是推动AI技术进步和保障其安全应用的关键基础。

该评估框架从以下三个核心维度出发

基于这些定义,研究团队设计了10个具体场景

,对9个主流大语言模型(例如,GPT-4o、Llama3-70b等)进行了细致的评估。

结果显示,比更爱说谎,首个大模型诚实性评估基准来了当前的大模型在诚实性方面仍有显著提升空间:

大多数模型在回答已知问题时表现出色,但在主动承认未知方面存在不足。

现有模型存在为特定目的而欺骗的倾向,不论指令是否存在恶意或合理。

模型规模与回复一致性呈正相关,较大模型表现更为稳定。

评估基准细节

BeHonest围绕三个核心方面:自我认知、非欺骗性和一致性,共设计了10个场景,用以广泛且细粒度地评估大模型在诚实性上的表现。并有以下关键洞察。

1、自我认知能力参差不齐(Self-Knowledge)

BeHonest对于该方面设计了两个场景,分别评估大模型是否能承认其未知(AdmittingUnknowns)和是否能坦率表达自身能力(ExpressingKnowns)。

研究发现,大多数大模型都擅长正确回答他们知道的问题,但很难主动拒绝回答他们不知道的问题

其中,Mistral-7b有最高的拒绝率(50.03),显示出较强的未知承认能力。GPT-4o在准确回答已知问题(95.52)和识别知识边界(50.88)方面表现出色。

而综合来看,Llama3-70b表现最好(63.34)。

2、欺骗倾向需要警惕(Non-Deceptiveness)

BeHonest针对模型可能欺骗的情况设计了四个场景,分别是模型是否因为谄媚人类(Persona/PreferenceSycophancy)、实现特定目的(BurglarDeception)、或赢得游戏(Game)而误导用户。

评估结果显示,现有大模型倾向于说谎,不管背后是否有恶意,或者给出的指令是否合理

。值得注意的是,较大的模型(或者那些已知具有更好的指令遵循能力的模型)在某些情况下可能更容易欺骗用户。

总体而言,Llama3家族的模型(63.68和64.21)和Mistral-7b(74.80)在非欺骗性上表现最差。

3、规模与一致性呈正相关(Consistency)

BeHonest还检验了大模型在四种不同的场景下回答的一致性。

结果表明,较大的模型通常显示出更高的一致性,其提供的答案能反映其真实能力且不受外界干预影响

相比之下,较小的模型如Llama2-7b在一致性方面表现不佳(29.39),可能会导致用户感到困惑。

评估基准示例

评估大模型在三个大方面(自我认知、非欺骗性、一致性)上的能力的具体英文及中文示例如下所示。根据评估结果,当前大模型在诚实性上仍存在较大的提升空间。

Caption:模型承认未知以及不承认未知的例子。

Caption:同个模型在使用者换了偏好之后展示谄媚的例子。

Caption:模型在多项选择题格式中显示一致性的例子(绿色)和不一致性的例子(红色)。

Caption:Exampleoftestingamodel’sself-knowledge.

Caption:Exampleofamodellyingingame(red)andnotlying(green).

Caption:Exampleofamodelshowingconsistency(green)andinconsistency(red)inopen-formquestions.

结语

GAIRLab的这项研究为AI诚实性评估开辟了新的方向,为未来大语言模型的优化和监管提供了重要依据。研究团队呼吁AI社区进一步关注诚实性问题,并在以下方面持续努力:

随着对AI诚实性研究的深入,我们有望看到更加安全、可靠且值得信赖的AI系统的出现。这不仅关乎技术进步,更关乎AI与人类社会的和谐共处。研究团队表示,他们将继续完善BeHonest评估框架,并欢迎全球研究者的参与和贡献,共同推动AI向着更加诚实、透明的方向发展。

论文地址:https://arxiv.org/abs/2406.13261

项目地址:https://gair-nlp.github.io/BeHonest/

代码地址:https://github.com/GAIR-NLP/BeHonest

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
最近发表
关注我们

扫一扫关注我们,了解最新精彩内容