8月22日消息,由中国工程院院刊《Engineering》、中国人工智能学会、中国工程院院刊信息与电子工程领域分刊《FITEE》联合主办的Engineering大讲堂暨“智行中国”第五期系列论坛日前在浙江大学举行。在论坛上,智慧司法技术总师系统、浙江大学、上海交通大学与阿里云等联合发布了行业首个《法律大模型评估指标和测评方法(征求意见稿)》,旨在推动法律大模型的研发、评测和应用的规范化。
过去几年,用AI辅助司法工作者提升案件处理的效率已成行业共识,随着大模型的诞生进,AI对案件理解、分析及法律文书生成、报告生成的能力进一步提升,目前,国内企业和高校研究团队已推出多个法律大模型,行业迫切需要一套面向法律AI行业的评估指标和评测方法。
作为行业首个《法律大模型评估指标和测评方法(征求意见稿)》,其涵盖法律大模型能力体系、评估指标、测评方法、典型应用场景等内容,适用于法律大模型系统测试的设计和实施等任务场景。在评测方法内容中,针对特定任务,意见稿提出需从功能、性能、安全、质量四个方面共12项指标,为法律大模型测评提供各项指标的选择、评分和计算方法,最终获得该项任务的性能测评结果。
智慧司法技术总师许建峰表示:“大模型为法律人工智能领域带来了新的机遇,推出指标体系是指导行业规范化的基础,我们希望更多行业从业者提供反馈和意见,并进一步完善法律大模型的评估标准,促进法律人工智能更好更快的发展。”
本次论坛,浙江大学还联合阿里云等发布了法律大模型智海-录问和基于通义千问7B模型的教育大模型智海-三乐,智海-录问具备提供法律问答、知识检索增强问答、案情分析、意图识别、推理决策、法律文书生成等法律辅助服务功能,智海-三乐可提供智能问答、试题生成、学习导航、教学评估等服务。
据悉,阿里云在法律AI领域已发表数十篇国际顶会论文,团队辅助研发的AI法官助理“小智”已在浙江省高院、黑龙江高院等法院上线应用,可将简单案件庭审效率提升50%以上,已辅助审理案件超10000件。