麻省理工科技评论大模型评测：讯飞星火“最聪明”得分居首-太平洋机床网

首页 > 行业

麻省理工科技评论大模型评测：讯飞星火“最聪明”得分居首

来源：上海证券报·中国证券网 2023-08-18 15:01:56

【资料图】

国内“千模大战”下，谁是最聪明的大模型？近日，《麻省理工科技评论》从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力，力图评出“最聪明”的国产大模型。报告选取了“讯飞星火”“百度文心一言”“商汤商量”“阿里通义千问”作为中文大模型平台的代表，展开系统、科学的评测。

报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，表现突出；以81.5分（百分制计）的成绩在本次评测中登顶，荣获“最聪明”的国产大模型称号。

本次评测使用的测试集包含600道题目，覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类，126个二级分类，290个三级标签，并针对问题的丰富性和多样性做了优化。

作为“最聪明”大模型的基础能力，语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等61个二级分类，题型则以简答为主。结果显示，讯飞星火85.73%的得分率排名第一，明显高于平均值。

数学专项评测，是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等9个二级分类，以选择题为主。讯飞星火以77.75%的得分率名列第一，远高于56%的平均得分率。

逻辑思维也是“最聪明”大模型的重要体现，本次逻辑思维评测包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等19个二级分类。在逻辑思维题目中，讯飞星火81.25%的得分率名列第一，明显高于72.6%的平均值。

编程能力是大模型较高阶的能力，评测包含ASCII、ASCII码识别、Python、代码、代码修正、计算机6个二级分类。结果显示，讯飞星火80%的得分率明显高于71%的平均值。

（文章来源：上海证券报·中国证券网）

8月18日 13:11分万向德农（600371）股价快速拉升

最后一页

为你推荐

麻省理工科技评论大模型评测：讯飞星火“最聪明”得分居首

上海证券报·中国证券网 2023-08-18

8月18日 13:11分万向德农（600371）股价快速拉升

自选股写手 2023-08-18

娜丽丝防晒喷雾怎么用（防晒喷雾怎么用）

互联网 2023-08-18

陕西西安：暑期“社区公益课堂”受欢迎

新华网 2023-08-18

通告！临时改道！

腾讯网 2023-08-18

金头过背金龙鱼价格（过背金龙鱼鱼苗价格）

互联网 2023-08-18

撩男生的话一问一答

互联网 2023-08-18

8月17日基金净值：招商安福1年定开债发起式最新净值1.0396，涨0.16%

证券之星 2023-08-18

滨海投资(02886)：天津军粮城天然气供应项目正式通气

腾讯网 2023-08-17

欠费致电厂停运黎巴嫩全国大停电

央视网 2023-08-17

最新热文

麻省理工科技评论大模型评测：讯飞星火“最聪明”得分居首

上海证券报·中国证券网 2023-08-18

8月18日 13:11分万向德农（600371）股价快速拉升

自选股写手 2023-08-18

娜丽丝防晒喷雾怎么用（防晒喷雾怎么用）

互联网 2023-08-18

陕西西安：暑期“社区公益课堂”受欢迎

新华网 2023-08-18

通告！临时改道！

腾讯网 2023-08-18

金头过背金龙鱼价格（过背金龙鱼鱼苗价格）

互联网 2023-08-18

撩男生的话一问一答

互联网 2023-08-18

8月17日基金净值：招商安福1年定开债发起式最新净值1.0396，涨0.16%

证券之星 2023-08-18

滨海投资(02886)：天津军粮城天然气供应项目正式通气

腾讯网 2023-08-17

欠费致电厂停运黎巴嫩全国大停电

央视网 2023-08-17

飞龙股份：新能源热管理产品已开始小批量供货充电桩领域客户

第一财经 2023-08-17

数字技术赋能取证固证广东一案入选最高检公益诉讼典型案例

南方网 2023-08-17

随笔：“岸田首相是想发动战争吗？”——无人回复的日本小学生来信

新华网 2023-08-17

唐人神：以简易程序向特定对象发行股票申请获深交所受理

中金在线财经号 2023-08-17

保秩序迎亚运，杭州共享单车开展应急演练活动

杭州日报 2023-08-17

2023年8月17日陇南限行时间规定、外地车限行吗、今天限行尾号限行限号最新规定时间查询

互联网 2023-08-17

网传“转运珠式卖淫”？官方通报：不实

北青网 2023-08-17

59家公司获机构调研（附名单）

证券时报网 2023-08-17

热依扎个人资料（关于热依扎个人资料的介绍）

互联网 2023-08-17

模拟人生4灵异冲击dlc好玩吗（模拟人生4灵异冲击dlc好玩吗值得买吗）

互联网 2023-08-17

利比亚首都的黎波里武装冲突已造成27人死亡106人受伤

昆明日报-掌上春城 2023-08-17

比亚迪“反腐风暴”继续：对举报人严格保护，予以5000至500万元奖励甚至更高｜快讯

腾讯网 2023-08-16

中报失速，“白马”动荡

21世纪经济报道 2023-08-16

建业电影小镇夜游再升级！ “音乐周末”强势开麦，七夕心动模式即将解锁

腾讯网 2023-08-16

线上线下超3万家展商参展第七届中国—南亚博览会

新华社 2023-08-16

过去20年20大选秀失误：森林狼连续错过库里 JB&约老师无人问津

直播吧 2023-08-16

索尼PS5将更新杜比全景声：无延迟支持

中关村在线 2023-08-16

三星DRAM市场份额创下9年以来新低

亚汇网 2023-08-16

迎返程高峰全国铁路暑运累计发送旅客突破6亿人次

人民网 2023-08-16

湖北四部门联合启动政策清理修订、废止妨碍公平竞争的文件措施

云上恩施 2023-08-16