据介绍,“思南”全面量化了模型在知识、语言、理解、推理、考试5大能力维度的表现。评估清单涉及150多个大语言模型和多模态大模型。这是一个客观、中立的大模型。科技创新提供坚实的技术支撑。截至目前,已有Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“思南”帮助开展技术研发。
OpenCompass2.0对过去一年的主流开源模型和商业API模型进行了全面评估。分析结果显示,GPT-4 Turbo在各项评测中取得了最佳性能,智浦清研GLM-4、阿里巴巴Qwen-Max和百度文心一研4.0紧随其后;大语言模型整体能力还有很大提升空间,复杂推理相关能力仍是短板;国产模型在中国场景下更具优势,同时开源模型也取得了快速进步,以更小的体积达到了更高的性能水平,展现出更大的发展潜力。
用户评论
纯真ブ已不复存在
哇,终于等到了“思南”(OpenCompass2.0)的发布,大型模型评估系统一直是行业内的一大难题,希望这个系统能够带来突破性的改进。
有6位网友表示赞同!
病房
听说这个系统是全面升级了,我对它的功能特别感兴趣,希望它能解决我之前在使用其他评估系统时遇到的痛点。
有17位网友表示赞同!
把孤独喂饱
大型模型评估系统的更新速度太快了,OpenCompass2.0发布,是不是意味着我之前的学习和经验都要重新来过?有点担心呢。
有13位网友表示赞同!
赋流云
“思南”(OpenCompass2.0)发布,这个标题看起来很专业,我虽然不是业内人士,但也想了解一下这个系统到底有什么特别的地方。
有16位网友表示赞同!
有些人,只适合好奇~
大型模型评估系统“思南”(OpenCompass2.0)发布,期待看到它如何提升模型的准确性和效率,这对我们行业来说是个福音。
有19位网友表示赞同!
作业是老师的私生子
新系统发布总是让人兴奋,但是“思南”(OpenCompass2.0)能否真正解决模型评估中的难题,还得等实际应用后才知道。
有5位网友表示赞同!
青瓷清茶倾城歌
每次看到新系统发布,我都觉得自己又落后了,大型模型评估系统“思南”(OpenCompass2.0)发布,我得赶紧去了解一下。
有18位网友表示赞同!
龙吟凤
作为一名数据分析师,我对“思南”(OpenCompass2.0)的发布充满期待,希望它能简化我们的工作流程。
有6位网友表示赞同!
早不爱了
大型模型评估系统“思南”(OpenCompass2.0)发布,我猜这次会有很多新功能和改进,不知道它是否能满足我们的所有需求。
有7位网友表示赞同!
冷青裳
以前用其他评估系统的时候,总是觉得操作复杂,希望“思南”(OpenCompass2.0)能带来更直观、更易用的体验。
有10位网友表示赞同!
无望的后半生
大型模型评估系统“思南”(OpenCompass2.0)发布,这对我们这些研究人员来说是个好消息,期待它能提高我们的研究效率。
有18位网友表示赞同!
海盟山誓总是赊
新系统发布总是伴随着争议,大型模型评估系统“思南”(OpenCompass2.0)发布,有人夸有人喷,我还在观望中。
有13位网友表示赞同!
强辩
“思南”(OpenCompass2.0)发布,这个系统名字听起来就很高大上,不知道它是否真的能引领行业潮流。
有10位网友表示赞同!
安之若素
大型模型评估系统“思南”(OpenCompass2.0)发布,这个消息让我想起了自己刚开始接触模型评估的日子,那时候的艰辛如今回想起来真是感慨万千。
有19位网友表示赞同!
今非昔比'
听说“思南”(OpenCompass2.0)是开源的,这对于开发者来说是个好事,希望它能促进更多创新。
有18位网友表示赞同!
予之欢颜
大型模型评估系统“思南”(OpenCompass2.0)发布,我对它的性能和兼容性特别关心,希望它能在这些方面有所突破。
有5位网友表示赞同!
念旧情i
每次系统更新都让人期待,大型模型评估系统“思南”(OpenCompass2.0)发布,我迫不及待想试试看它的新功能。
有8位网友表示赞同!
凉城°
“思南”(OpenCompass2.0)发布,这个系统能否在保证准确性的同时,降低成本和提高效率,这是我最关心的问题。
有12位网友表示赞同!
疯人疯语疯人愿
大型模型评估系统“思南”(OpenCompass2.0)发布,希望这次能带来一些革命性的变化,让我们的工作更加轻松高效。
有19位网友表示赞同!
歆久
新系统发布总是伴随着争议,大型模型评估系统“思南”(OpenCompass2.0)发布,我更关心的是它是否能经得起时间的考验。
有14位网友表示赞同!