导语:作者 |杨文 编辑 |六耳 来源 | AI先锋官 9月7日下午,中关村智用人工智能研究院(以下简称“智用研究院”)在北京举办了大模型评测技术研讨会。中国中小企业国际合作协会企业技术能力评价专委会、朝阳区人工智能应用联合会、西安交大人机所、阿里...
作者|杨文
来源 | AI先锋官
9月7日下午,中关村智用人工智能研究院(以下简称“智用研究院”)在北京举办了大模型评测技术研讨会。中国中小企业国际合作协会企业技术能力评价专委会、朝阳区人工智能应用联合会、西安交大人机所、阿里达摩院、360人工智能研究院、华为、曙光、智谱华章、可之科技、中科极限元、中国电信、河南投资集团、创兴动力、朝科创等单位的专家参加了此次研讨会。
智用研究院院长孙明俊表示:“组织大模型评测的目标是为了解决众多垂类行业用户对于大模型能力和特点的认知需求,建立一套具有中国特色、由丰富行业场景引导的评测体系,对大模型的垂直行业应用能力进行技术评判,推动产业的健康发展。”
目前,市场上常见的大模型评测模式主要有做题打分、以GPT-4为基准、竞技场模式、针对单项能力的评测等。这些评测模式涉及到大模型的效果评价、客观评价、主观评价。那么,如何将客观评价和主观评价进行有机协同就需要进一步思考。
因此,在研讨会上,与会代表围绕如何建立一套客观、公正的大模型评测体系展开,就大模型的评测目标、指标、方法、数据安全、隐私保护等问题进行了全面讨论。
智用研究院首席研究员钱雨表示:“生成式大语言模型的效果评价一直以来都是困扰自然语言处理领域的重要问题之一。目前市场上陆续出现了C-Eval、CMMLU、M3KE、SuperCLUE、FlagEva等针对AI大模型评测的新工具。然而,现在的AI大模型与以往NLU类模型不同的是覆盖面更广,市面上这些评测方法能否全面系统地进行评测尚且值得探究。”
“目前大模型分为通用大模型和行业大模型,究竟是要针对通用大模型还是行业大模型做评测也值得思考。”西安交大人机所教授丁宁认为,“做行业垂类大模型的评测很有价值,难度也很高。”
经过与会代表的充分讨论,评测工作将主要关注大模型基于通用能力所拥有的垂直行业应用能力,并就评测主题内容、数据集来源、评测维度、评价方法和技巧等方面达成一致,全力实行小步抢跑,加快推出大模型评测的阶段性成果。
除此之外,研讨会上还成立了大模型评测工作组。技术组组长由西安交大人机所教授丁宁担任,成员单位包括西安交大人机所等;组织组组长由智用研究院首席研究员钱雨担任,副组长由创兴动力集团董事长兼CEO陈志刚担任,成员单位包括智用研究院、中国中小企业国际合作协会企业技术能力评价专委会、创兴动力、朝科创等。
接下来,智用研究院将继续组织相关会议,以形成最专业科学的大模型评测方法,并计划于10月份对大模型评测体系进行重磅发布。
中关村智用人工智能研究院(简称“智用研究院”)是在北京市科委、中关村管委会指导下,由百度、小米、旷视和一流科技联合发起创办的民办非企业机构,致力于推进各行各业智能化进程。
智用研究院通过对复杂系统决策、复杂信息推理、技术研判、复杂系统综合应用等能力体系的研究,建立了人工智能产业信任机制和数字化转型基础设施,并打造出智算云平台、行业大模型、边缘计算服器等智能化基座。除此之外,还通过标准研究和检测认证能力建设、行业智能化创新课题研究、技术产品转化、人才培训及投融资服务等手段,实现了高新技术从原始创新到落地应用协同推进的闭环支撑,大力推进智能化技术在实体经济中的广泛应用。
创兴动力集团是国内领先的创新创业服务机构之一,拥有创新孵化载体、企业赋能加速、数字化、资讯、政策及产业服务等业务板块。在AI方面,公司今年的算力运营服务发展迅速,同时推出了AI大模型应用精选与评测产品“AI先锋官”,形成移动网站、微信小程序、微信公众号等产品和传播矩阵。截至目前,“AI先锋官”通过跟踪行业前沿资讯、专家专访、精选评测70余款大模型应用产品及直播,成为行业人士聚集社区之一。
.END.