大型模型评估系统“思南”（OpenCompass2.0）发布

综合资源
2小时前
编辑

匿名

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系“司南”(OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。司南Op

据介绍，“思南”全面量化了模型在知识、语言、理解、推理、考试5大能力维度的表现。评估清单涉及150多个大语言模型和多模态大模型。这是一个客观、中立的大模型。科技创新提供坚实的技术支撑。截至目前，已有Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“思南”帮助开展技术研发。

大型模型评估系统“思南”（OpenCompass2.0）发布

OpenCompass2.0对过去一年的主流开源模型和商业API模型进行了全面评估。分析结果显示，GPT-4 Turbo在各项评测中取得了最佳性能，智浦清研GLM-4、阿里巴巴Qwen-Max和百度文心一研4.0紧随其后；大语言模型整体能力还有很大提升空间，复杂推理相关能力仍是短板；国产模型在中国场景下更具优势，同时开源模型也取得了快速进步，以更小的体积达到了更高的性能水平，展现出更大的发展潜力。

大型模型评估系统“思南”（OpenCompass2.0）发布

用户评论

纯真ブ已不复存在

哇，终于等到了“思南”（OpenCompass2.0）的发布，大型模型评估系统一直是行业内的一大难题，希望这个系统能够带来突破性的改进。

有6位网友表示赞同！

病房

听说这个系统是全面升级了，我对它的功能特别感兴趣，希望它能解决我之前在使用其他评估系统时遇到的痛点。

有17位网友表示赞同！

把孤独喂饱

大型模型评估系统的更新速度太快了，OpenCompass2.0发布，是不是意味着我之前的学习和经验都要重新来过？有点担心呢。

有13位网友表示赞同！

赋流云

“思南”（OpenCompass2.0）发布，这个标题看起来很专业，我虽然不是业内人士，但也想了解一下这个系统到底有什么特别的地方。

有16位网友表示赞同！

有些人,只适合好奇~

大型模型评估系统“思南”（OpenCompass2.0）发布，期待看到它如何提升模型的准确性和效率，这对我们行业来说是个福音。

有19位网友表示赞同！

作业是老师的私生子

新系统发布总是让人兴奋，但是“思南”（OpenCompass2.0）能否真正解决模型评估中的难题，还得等实际应用后才知道。

有5位网友表示赞同！

青瓷清茶倾城歌

每次看到新系统发布，我都觉得自己又落后了，大型模型评估系统“思南”（OpenCompass2.0）发布，我得赶紧去了解一下。

有18位网友表示赞同！

龙吟凤

作为一名数据分析师，我对“思南”（OpenCompass2.0）的发布充满期待，希望它能简化我们的工作流程。

有6位网友表示赞同！

早不爱了

大型模型评估系统“思南”（OpenCompass2.0）发布，我猜这次会有很多新功能和改进，不知道它是否能满足我们的所有需求。

有7位网友表示赞同！

冷青裳

以前用其他评估系统的时候，总是觉得操作复杂，希望“思南”（OpenCompass2.0）能带来更直观、更易用的体验。

有10位网友表示赞同！

无望的后半生

大型模型评估系统“思南”（OpenCompass2.0）发布，这对我们这些研究人员来说是个好消息，期待它能提高我们的研究效率。

有18位网友表示赞同！

海盟山誓总是赊

新系统发布总是伴随着争议，大型模型评估系统“思南”（OpenCompass2.0）发布，有人夸有人喷，我还在观望中。

有13位网友表示赞同！

强辩

“思南”（OpenCompass2.0）发布，这个系统名字听起来就很高大上，不知道它是否真的能引领行业潮流。

有10位网友表示赞同！

安之若素

大型模型评估系统“思南”（OpenCompass2.0）发布，这个消息让我想起了自己刚开始接触模型评估的日子，那时候的艰辛如今回想起来真是感慨万千。

有19位网友表示赞同！

今非昔比'

听说“思南”（OpenCompass2.0）是开源的，这对于开发者来说是个好事，希望它能促进更多创新。

有18位网友表示赞同！

予之欢颜

大型模型评估系统“思南”（OpenCompass2.0）发布，我对它的性能和兼容性特别关心，希望它能在这些方面有所突破。

有5位网友表示赞同！

念旧情i

每次系统更新都让人期待，大型模型评估系统“思南”（OpenCompass2.0）发布，我迫不及待想试试看它的新功能。

有8位网友表示赞同！

凉城°

“思南”（OpenCompass2.0）发布，这个系统能否在保证准确性的同时，降低成本和提高效率，这是我最关心的问题。

有12位网友表示赞同！

疯人疯语疯人愿

大型模型评估系统“思南”（OpenCompass2.0）发布，希望这次能带来一些革命性的变化，让我们的工作更加轻松高效。

有19位网友表示赞同！

歆久

新系统发布总是伴随着争议，大型模型评估系统“思南”（OpenCompass2.0）发布，我更关心的是它是否能经得起时间的考验。

有14位网友表示赞同！

国家博物馆移除了思南磁铁。是因为磁铁不够，还是根本就不存在？中科院来告诉我们

2024-11-7 20:29:16

干货资讯|数据新闻从业者常用工具盘点

2024-11-7 20:32:29

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部