Copyright 2018-2024 集齐豆 版权所有 京ICP备2018023569号
人工智能技术发展迅速,大模型、AGENT、具身智能、通用人工智能(AGI)等新概念和新技术层出不穷。大模型基准评测作为研究较为深入的领域,助力其他新技术的发展。AgentBench、ToolBench、ToolEval等是面向AGENT的代表性评测框架或数据集,通过搭建仿真环境,重点考察大模型与外界交互下完成复杂任务的能力,如网络购物、数据库操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D问答、空间操作等任务评估大模型在具身智能领域内的表现。
大模型基准评测还带动了AGI的发展,微软先后发布《通用人工智能的火花:GPT-4的早期实验》和AGIEval评测数据集,通过数学、编程、视觉、医学、法律、心理学等较困难的任务,证明GPT-4已进入AGI的早期阶段。中国科学院和美国俄亥俄州立大学等先后推出AGIBench和MMMU评测数据集,从多模态、多学科、多粒度等多个维度衡量大模型距离AGI的差距。虽然当前AGI发展仍然处于初期阶段,但通过基准评测的研究,可为未来AGI技术的发展提供思路。
2025年《政府工作报告》指出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。
下一步,应该以大模型测试验证工作为抓手,构建前瞻性、引领性的测评验证及平台服务,加速中国大模型技术创新、产品迭代和应用推广,促进大模型领域重大研究成果产业化落地。
一、发展现状
1.大模型应用评测需求强烈,急需面向产业的解决方案
当前,产业界对大模型行业应用场景的评估需求十分强烈,根据Meta等在《GAIA: A Benchmark for General AI Assistants》的测试结果显示,人类针对某些实际应用场景的问题回答准确率为92%,而即使是带有插件的 GPT-4 仅有15%的准确率,说明大模型在实际应用场景上仍然有较大的提升空间。中国信通院发布“方升”大模型基准评测体系,涵盖测试指标、测试方法、测试数据集和测试工具关键四要素,重点强化行业和应用导向能力的考查。
自2023年下半年起,大模型已持续渗透到金融、医疗、软件工程、教育、法律、科研、政务、电信、能源等多个垂直行业。据统计,超过50%的大模型基准评测数据集侧重于考察模型的通用能力,但面向行业的基准评测已经取得显著进展,行业评测数据集数量明显增加,如金融领域的FinEval、PIXIU,医疗领域的PubMedQA、CMExam,软件工程领域的CoderEval、OpsEval,电信领域的TeleQnA、NetEval等。大模型行业评测需要重点考察行业基础知识和行业应用场景,由于行业数据的敏感性,70%的行业评测数据集侧重于评估行业基础知识,而在行业应用场景方面,智能客服、知识管理、数据分析、办公助手、内容创作、代码助手等是大模型的重点落地方向。
2.大模型基准评测“百花齐放”,全面赋能“产用管”关键环节
据不完全统计,目前产学研各界已经出现超过300种大模型基准评测的相关成果。仅2023年,新推出的评测数据集数量就超过200个。其中,较著名的大模型评测榜单包括Hugging Face推出的Open LLM Leaderboard和Chatbot Arena,以及国内的CompassRank、SuperCLUE和FlagEval等。高频评测数据集包括MMLU、C-Eval、CMMLU、BBH、AGIEval、MBPP、HumanEval、GSM8K、MATHVISTA、MMMU等。大模型在评测数据集上的最佳测试分数不断刷新,一定程度上反映出大模型的能力在持续提升。同时,基准评测的重要性也日益凸显,已全面赋能大模型“产用管”各关键环节。在研发阶段,基准评测被用于快速挖掘大模型当前的不足与痛点问题,推动大模型能力持续提升;在应用阶段,基准评测用于大模型落地效果验证,助力产品的选型(POC)测试和商业推广;在管理阶段,基准评测用于对大模型能力进行持续监控,引导其正向发展。
3.评测效率影响模型迭代,企业级自动化评测平台迎来新发展
大模型基准评测的关键流程包括测试需求分析、测试数据准备、测试环境准备、基准测试执行、测试结果评估、测试报告生成、测试结果分析等。其中,测试数据准备和测试结果评估这两步需要大量的人力投入,工作繁琐。传统的脚本化测试框架无法满足高速迭代的业务需求,需要构建人工智能评测平台来提升测试效率。
2023年,上海人工智能实验室、北京智源研究院、天津大学等科研机构纷纷推出自研的基准测试平台或框架,极大降低了基准评测的上手门槛。其中,上海人工智能实验室的OpenCompass(司南)框架开源生态较为完善,兼容多个评测数据集和大模型,支持分布式测试等功能。为了实现测试结果的自动化评估,减少专家评估人力投入,北京智源研究院和智谱AI分别推出评估大模型JUDGELM和CRITIQUELLM,测试结果表明大模型评估和人工评估的符合度可超过90%。目前,已有包括华为、字节跳动等公司启动企业级人工智能评测平台的构建。
2023年6月8日,上海首家生成式人工智能(AIGC)质量检验检测中心挂牌批筹,为AI大模型等智能软件提供专业化“体检”。挂牌初两个月,这家AI质检中心已出具75份“体检报告”。主要面向生成式人工智能所涉及的计算机视觉、自然语言处理、内容生成等领域,聚焦人工智能生成内容的语义表达能力、逻辑推理能力、合成内容鉴别能力,以及功能、性能、安全性评估等,通过提供全方位的测评服务,以保障人工智能系统或应用的质量。对于一些大型复杂AI系统的检测,甚至需要根据应用场景专门搭建检测检验系统,耗时可能长达半年,同时还需要研发大量相关技术与标准。近三年来,上海软件中心为上海乃至长三角地区人工智能企业与应用方提供专业的第三方测评服务数,年均超过500项,累计发布AI检测相关标准30余项。通过质检,厂商能更清晰地了解AI软件的性能,对产品的迭代与优化更有针对性。
2024年3月,国内首个智能机器人中试验证平台在上海成立,进一步加强智能机器人的应用赋能,主要聚焦三个方面:一是建设垂类大模型测试床,加速大模型落地进程;二是形成人工智能大模型工业软件的自主可控测试平台,建立工业产品准入门槛;三是形成基于区块链的安全测试与性能测试平台,为数据安全提供“可见可控”的解决方案。该中试验证平台可助力人工智能领域的理论研究和技术创新快速转化为实际应用,推动技术从实验室到市场的转化,助力创新成果的商业化和规模化,将专注于垂类模型的安全能力评估,提高人工智能系统的整体安全性和可靠性,对人工智能在高风险领域的应用拓展尤为重要。
二、面临的问题与挑战
1.标准缺位
目前,AI检测尚属于企业自主行为,未来对于大模型的安全性、可解释性、伦理风险等的检测检验,尚未形成国家强制标准。
2.大模型“刷榜”问题频出,新测试方法保障结果公正
少量大模型在训练阶段加入评测数据来完成模型“刷榜”,损害了大模型榜单的公平性和可信度,评测数据的污染和泄露是当前产业界急需解决的问题。
目前,国内的上海人工智能实验室、上海交通大学、中国人民大学、昆仑万维,以及国外的UC Berkeley、佐治亚理工大学等纷纷推出针对评测数据集污染的衡量指标和工具,可以支持包括MMLU、GSM8K等主流数据集的污染检测,一定程度上缓解了数据污染的问题。
动态测试也逐步引入以保障评测结果的真实性。复旦大学推出LLMEval评测框架,通过从海量题库中随机抽样的1000题来确保每次评测题目不重复。中国信通院创新性提出自适应动态测试方法,这些努力有助于解决大模型“刷榜”问题,提高评测结果的公正性。
三、促进人工智能检验检测发展的相关建议
1.标准先行
检测检验是行业话语权的重要标志,检测标准往往是一个行业的发展风向标。人工智能飞速发展不能简单套用传统产业“先立标准后检测”的“守底线”模式,而应采用检测与标准同步发展的新型模式,以起到规范、引领产业的作用。
2.加强载体建设
深耕大模型、生成式人工智能等前沿领域,全力支撑大模型测试验证与协同创新中心重大功能性平台建设,做好大模型企业全链条服务,营造大模型产业发展活跃生态。
3.谨慎治理,构建高标准可控治理体系
支持探索大模型评测基准及工具,推动大模型自动评测技术发展。不断完善监管体系,督促大模型企业使用安全可控的技术手段开展自评估。推动通用大模型备案工作,为重点企业提供服务和指导,以争取更多本市优质的大模型产品上线服务。