新民晚报(记者高阳)哪家公司的大型模型技术最好? 30日,上海人工智能实验室科学家团队正式发布大模型开源开放评估系统“思南”(OpenCompass2.0),可为大语言模型、多模态模型提供一站式评估服务, ETC。
据介绍,“思南”全面量化了模型在知识、语言、理解、推理、考试5大能力维度的表现。评估清单涉及150多个大语言模型和多模态大模型。这是一个客观、中立的大模型。科技创新提供坚实的技术支撑。截至目前,已有Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“思南”辅助技术研发。
同日,年度大机型评测榜单也揭晓,对过去一年主流大机型进行了全面的评测和诊断。分析结果显示,GPT-4 Turbo在所有评测中取得了最好的成绩,其次是国内厂商近期发布的机型,包括智浦清研GLM-4、阿里巴巴Qwen-Max、百度文心一研4.0都取得了不错的成绩。
记者了解到,基于全新升级的能力体系和工具链,“思南”构建了一套高质量的中英文双语测评基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、和多编程语言编码能力。智力、创造和对话等诸多方面。通过高质量、多层次的综合能力评估基准,“思南”创新了多项能力评估方法,实现了对模型真实能力的全面诊断。
总体来说,大型语言模型的整体能力还有很大的提升空间;复杂推理相关能力仍然是大型模型面临的共同问题,国内大型模型与GPT-4仍有差距;中国场景下的最新国产大型车型,展现了独特的优势,在某些维度上接近GPT-4 Turbo的水平;此外,开源模型进展迅速,以更小的尺寸达到了高性能水平,展现出巨大的发展潜力。
用户评论
入骨相思
一直好奇哪家公司的大模型技术最牛,看到上海人工智能实验室的“司南”系统,感觉靠谱多了。期待能客观评价各个公司的技术实力。
有19位网友表示赞同!
暮光薄凉
哈哈,这个标题就让我热血沸腾!我最近也在研究大模型技术,特别想看看“司南”系统的评测结果。
有17位网友表示赞同!
醉婉笙歌
上海人工智能实验室发布“司南”,这可是个大新闻啊!我估计这次评测结果能让我们对大模型技术有个更全面的认识。
有16位网友表示赞同!
闷骚闷出味道了
听说“司南”系统是基于开源的,这太棒了!希望这次评估能让我们看到更多公司的技术潜力。
有17位网友表示赞同!
经典的对白
我之前对大模型技术一头雾水,现在有了“司南”,感觉找到了方向。希望评测结果能让我对哪家公司的技术更感兴趣。
有8位网友表示赞同!
屌国女农
每次看到大模型技术的新闻,都感觉自己的知识太匮乏了。这次“司南”系统出来,我一定要好好研究研究。
有13位网友表示赞同!
西瓜贩子
我对上海人工智能实验室的“司南”系统很感兴趣,但同时也担心它会不会偏袒某些公司。
有20位网友表示赞同!
话扎心
评测系统“司南”一出,感觉各大公司又要开始一番口水战了。不过,还是希望这次能公正客观一点。
有17位网友表示赞同!
麝香味
“司南”系统发布,感觉国内人工智能行业又要热闹起来了。希望这次评测能真正推动行业的发展。
有20位网友表示赞同!
日久见人心
我之前觉得大模型技术离我们太遥远,但现在看到“司南”,感觉离实现梦想又近了一步。
有9位网友表示赞同!
封心锁爱
听说“司南”系统要评估国内外公司的技术,这让我对国内外的差距更感兴趣了。希望结果能让我们有所启示。
有10位网友表示赞同!
╭摇划花蜜的午后
我对“司南”系统充满期待,但同时也担心它会不会因为某些原因而偏颇。希望看到最真实的技术对比。
有18位网友表示赞同!
孤自凉丶
看到“司南”系统,感觉自己对大模型技术的了解又深了一层。期待这次评测能让我有更多的学习机会。
有17位网友表示赞同!
疲倦了
这次“司南”系统的发布,让我对上海人工智能实验室刮目相看。希望他们能带领我们走进大模型的新时代。
有18位网友表示赞同!
巴黎盛开的樱花
我对大模型技术一直很感兴趣,但不知道哪家公司的技术最好。这次评测结果出来后,我一定要好好研究一下。
有5位网友表示赞同!
掉眼泪
“司南”系统评测大模型技术,这对我来说是个大福利!希望结果能让我找到适合自己的学习路径。
有11位网友表示赞同!
墨染天下
我对“司南”系统充满期待,同时也担心它会不会成为某个公司的宣传工具。希望这次评测能真实反映各家公司的技术水平。
有15位网友表示赞同!
百合的盛世恋
大模型技术一直是人工智能领域的热点,这次“司南”系统的发布,无疑为我们提供了新的研究视角。
有8位网友表示赞同!
哭花了素颜
我对“司南”系统抱有很高的期待,希望它能为我们揭开大模型技术的神秘面纱,让我们看到更多可能性。
有8位网友表示赞同!