世界观察：大模型在工业领域探索仍处于初级阶段

【资料图】

图片来源：中国工业互联网研究院

近日，中国工业互联网研究院（以下简称“工联院”）针对人工智能大模型在中文工业领域的应用性能、技术架构、标准体系进行系统性评测，并发布系列报告。评测对象涵盖GPT-4、GPT-3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。

本次工业知识问答测试主要分为客观题与主观题两大类，总计超过1100个问题。主观题主要考察四大维度：基础能力、语句能力、概括能力和逻辑能力。评测结果显示，GPT-4表现最佳。国内头部大模型表现亮眼，整体与GPT-3.5相当。其中百度文心一言在国内大模型中排名第一。

在客观题方面，GPT-4与文心一言表现优于其他大模型。但评测结果也同时指出，大模型在准确率方面有较大的提升空间。在主观题方面，国内大模型的基础能力、语句能力与GPT-4接近，概括能力、逻辑能力与GPT-4存在一定差距。

评测数据集由工业领域八大行业的相关数据构成。包括电子设备制造业、装备制造业、钢铁行业、采矿行业、电力行业、石化化工行业、建材行业和纺织行业。工联院根据工业经验，结合外部数据源，按行业构建行业知识测试集。

从行业维度看，大模型在八个行业知识问答能力上差异明显，个别行业需进一步优化提升。其中，电子、装备行业评价指数较高，纺织、采矿行业综合评价指数相对较低。

分析大模型落地垂直行业痛点，丰富特定行业专业知识。虽然国内大模型在本次评测中表现较好，甚至在部分行业评分优于GPT-3.5，但工联院评测报告指出，国内外通用大模型在工业知识问答领域探索仍处于初级阶段，国内大模型与GPT-4有差距，行业间的泛化能力有待加强。对此，工联院评测报告给出的建议是进一步丰富相关专业领域的数据训练集，进行专业化的微调。　

如何看基金最大回撤？基金回撤最大能有多少？

工信部：国家级先进制造业集群产值超20万亿元|每日消息

世界观察：大模型在工业领域探索仍处于初级阶段

股票一级市场和二级市场是什么？初级市场和二级市场的区别有哪些？

今头条！北京发布高温红色预警信号大部最高温将达40℃以上

医保卡要去银行办理吗？医保卡丢了需要挂失吗？

热点新闻

《炉石传说》暴雪嘉年华活动时间表公布

EA公布云游戏平台计划云玩家或将成为未来主流

《辐射76》PC测试版出BUG：删除50GB后重新下载

SE官方宣布《勇者斗恶龙建造者2》多人玩法和截图

MLXG或将在S9转会？被4支战队抢着要

《荒野大镖客2》似乎已为次世代主机开启重制

《怪物猎人GU》今日更新简体与繁体中文补丁

网络诚信建设亮出四大“法宝” 共享信用信息共治失信顽症

如何看基金最大回撤？基金回撤最大能有多少？

工信部：国家级先进制造业集群产值超20万亿元|每日消息

世界观察：大模型在工业领域探索仍处于初级阶段

股票一级市场和二级市场是什么？初级市场和二级市场的区别有哪些？

今头条！北京发布高温红色预警信号 大部最高温将达40℃以上

医保卡要去银行办理吗？医保卡丢了需要挂失吗？

热点新闻

《炉石传说》暴雪嘉年华活动时间表公布

EA公布云游戏平台计划 云玩家或将成为未来主流

《辐射76》PC测试版出BUG：删除50GB后重新下载

SE官方宣布《勇者斗恶龙建造者2》多人玩法和截图

MLXG或将在S9转会？被4支战队抢着要

《荒野大镖客2》似乎已为次世代主机开启重制

《怪物猎人GU》今日更新简体与繁体中文补丁

网络诚信建设亮出四大“法宝” 共享信用信息共治失信顽症

今头条！北京发布高温红色预警信号大部最高温将达40℃以上

EA公布云游戏平台计划云玩家或将成为未来主流