SuperBench大模型综合能力评测报告 0412 v2.2-24页

免费

3.0 九派 2024-05-03 93 16 1.75MB 23 页免费

侵权投诉

SuperBench大模型综合能力评测报告

（2024年3月）

SuperBench团队

大模型能力重点迁移历程

语义

2023年-future

随着模型能力的提升，对模型安全性和

价值观的评估、监管与强化逐渐成为研

究人员关注的重点。加强对潜在风险的

研判，确保大模型的可控、可靠和可信，

是未来“AI 可持续发展”的关键问题。

2023年-2024年

基于指令遵从和偏好对齐的能力，大模型作为智

能中枢对复杂任务进行拆解、规划、决策和执行

的能力逐渐被发掘。大模型作为智能体解决实际

问题也被视为迈向通用人工智能（AGI）的重要方

向。代表工作：AutoGPT、AutoGen等。

2022年-2023年

随着大模型在各领域的广泛应用，研究人

员发现续写式的训练方式与指令式的应用

方式之间存在差异，理解人类指令、对齐

人类偏好逐渐成为大模型训练优化的关键

目标之一。对齐好的模型能够准确理解并

响应用户的意图，为大模型的广泛应用奠

定了基础。代表工作：InstructGPT、

ChatGPT、GPT4、ChatGLM等。

2018年-2021年

早期的语言模型主要关注自然语言的

理解任务 (e.g. 分词、词性标注、句

法分析、信息抽取)，相关评测主要

考察语言模型对自然语言的语义理解

能力。代表工作：BERT、 GPT、T5

等。

2021年-2023年

随着语言模型能力的增强，更具应用价值的

代码模型逐渐出现。研究人员发现，基于代

码生成任务训练的模型在测试中展现出更强

的逻辑推理能力，代码模型成为研究热点。

代表工作：Codex、CodeLLaMa、

CodeGeeX等。

代码

对齐

智能体

安全

大模型评测原则标准

Channel: premium

atmospheric Sys

开放性

在整个评测过程中，都应保证公开透明，避免暗箱操作；评测数据集也应开放与封闭相结

合，这样既有利于后续的模型优化，也可以防止模型刷题

动态性

要不断丰富评测数据，避免静态考题，进行数据集的持续优化，力求更专业。如果榜单的评

测数据集长时间保持不变，会有被参与评测者刷题的风险，导致榜单失真

科学性

大模型的评测体系更全面，评测方法确保科学严谨，评测方式力求多元化。这不仅需要专业

的数据集构建，也需要科学研究的支撑

权威性

评测任务具有公信力，评测结果公正严谨，社会认可度高，避免成为一家之言，同时杜绝商

业利益对评测结果的干扰

大模型在2023年经历了“百模大

战”，实践者们纷纷推出了自己原

创的、或经开源模型微调、改进的

各种通用模型、行业或领域模型，

在此背景下，如何评价大模型的能

力变成一个非常重大的研究和实践

问题。

目前国内外均有测试大模型能力

的榜单，但质量良莠不齐，在不同

榜单下各模型排名差异较大，原因

在于评测数据、测试方法等还不够

成熟、科学，我们认为好的评测方

法应该满足开放性、动态性、科学

性以及权威性等。

大模型评测的必要性

优质大模型评测的标准

研报加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载研报到电脑，查找使用更方便

免费 16人已下载

立即下载

标签： #大模型

摘要：

SuperBench大模型综合能力评测报告（2024年3月）SuperBench团队大模型能力重点迁移历程语义2023年-future随着模型能力的提升，对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判，确保大模型的可控、可靠和可信，是未来“AI可持续发展”的关键问题。2023年-2024年基于指令遵从和偏好对齐的能力，大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。2022年-2023年随着大模型在各领域的广泛应用...

展开>> 收起<<

SuperBench大模型综合能力评测报告 0412 v2.2-24页.pdf

共23页,预览7页

还剩页未读，继续阅读