研发自主可控法律基座大模型 探索技术赋能法律行业新路径
——人民法院出版社相关负责人就“法信法律基座大模型”研发成果答记者问
2024-11-16 11:01:55 | 来源:人民法院报 | 作者:乔文心
 

  11月15日,最高人民法院举行新闻发布会,发布“法信法律基座大模型”研发成果。人民法院出版社总编辑余茂玉、副总编辑林志农、总编辑助理张承兵介绍相关情况并回答记者提问。

  问:介绍中提到“法信法律基座大模型”已通过备案。据媒体报道,全国已有二百多个大模型通过网信部门登记备案,请问法律大模型和其他大模型有什么不同?为什么有了通用大模型,还需要法律大模型?

  答:目前在国家网信部门备案的大模型中,既有通用大模型,也有行业大模型。大模型是一种利用大量数据和算力,通过深度学习技术训练出来的人工智能模型,它具有理解、生成、处理与规划各种类型数据的能力,它的规模和能力目前已经达到了千亿乃至万亿参数的级别,是一种典型的新质生产力,可以应用于各个领域,为人类提供智能化的服务和解决方案。通用大模型虽然具有广泛的应用能力,但它不一定完全匹配每个行业的专业知识和需求,法律行业的特殊性,使得研发建设法律大模型尤为必要。下面我从以下三个方面进一步说明这个问题。

  一是法律行业应用大模型,首先必须深入贯彻落实习近平法治思想,要在中国特色社会主义法治体系之下,既要同中国法治建设实际相结合,也要同中华优秀传统法律文化相结合,要坚持正确的政治导向,弘扬社会主义核心价值观和社会主义法治精神,要确保内容安全。

  二是法律行业的专业性、精准性,需要高度标准且及时更新的各种专业法律数据作为训练语料,以提升大模型对法律理解的准确性和适用性。法律思维本身特有的逻辑性、严谨性,也要求大模型具备更为强大的逻辑推理能力和论证能力。

  三是法律文本及各种法律文书在应用时有规范性和严肃性的要求,因此它对大模型生成内容的专业合规、安全可信提出了更高的要求。

  因此,在通用大模型之外研发建设具有行业专属性的法律大模型十分必要、意义重大。

  问:“法信法律基座大模型”名称中有“基座”两字,请问如何理解这个“基座”的定位?

  答:“基座”通常是指建筑的基础底座。“法信法律基座大模型”中“基座”可以从以下三个方面来认识理解:

  一是起基础支撑作用。高质量的法律数据预训练是构建法律大模型能力的关键。“法信法律基座大模型”使用最高人民法院“法信”等多个法律大数据平台的全量数据资源,种类全、规模大、来源可信、权威度高,能够源源不断为大模型预训练和机器深度学习提供充足的法律数据语料,所以它被定义为法律行业应用法律人工智能提供基础数据支撑的“基座”。

  二是可靠可控。“法信法律基座大模型”在法律行业广泛应用,一方面其研发和预训练需要大量合规的法律数据,另一方面其能力也主要是应用到各种法律业务场景,所以大模型的安全可靠、自主可控特别重要。“法信法律基座大模型”在语料来源合法性、标注规范性、输出合规性、内容安全性上严格遵照监管要求,所以它是法律行业应用人工智能的安全与合规的“基座”。

  三是广泛应用。“法信法律基座大模型”通过系统化聚集各类数据并集中化预训练,可以发挥数据资源规模效应、集约效应。也就是通过标准化知识工程、体系性安全评测等等,可以降低行业应用大模型的成本。通过开放能力、共享接口、统筹算力,可以促进大模型在法律行业取得更广泛的应用效果,所以我们说它是体系化支撑法律行业应用人工智能的“基座”。

  问:“法信法律基座大模型”完成预训练和备案之后,接下来将主要在哪些方面发挥作用?

  答:“法信法律基座大模型”经过海量、权威和高质量法律大数据预训练和增强训练之后,形成了很强的法律语言理解能力、法律文本信息抽取能力、法律逻辑推理能力以及根据提示的文本生成能力等。在大模型这一底层能力之上,可以对接、支撑各类法律人工智能产品和服务。除了前面介绍的在智能辅助审判和库网融合检索这两方面的具体应用,还可以在以下方面发挥作用:

  一是在司法工作各环节中发挥作用。比如现在在“案多人少”的压力下,即使有案件卷宗电子化的辅助,法官也要耗费大量的时间精力审查阅卷,大模型能够辅助法官从大篇幅的电子卷宗中快速进行信息分析比对,抓取要点、提炼梗概,提高立案审查和阅卷效率。再比如随着目前法律案例的大量汇聚,法官经常要在上亿的文献中查找法条和类案,甄别筛选都要耗费很大精力。大模型不但能够提高法官查法找案的质量效率,而且经过训练开发,可以像一个数字工作助手一样,帮助法官对检索到的信息进行整理、分类、提炼,可以基于法官的任务要求去总结分析相关的司法观点、裁判规则,润色校对、审核纠错法律文书。

  二是在行政执法方面发挥作用。比如辅助执法人员对执法案件的信息进行审查核验,监测报警异常情况,匹配推送执法依据和类似案例,检查执法行为是否符合法定程序和规范,确保执法活动的合法性。

  三是在公共法律服务方面发挥作用。以往由于法律的高度专业性,公众在进行法律咨询时,通过自然口语所表述的纠纷案情和争议诉求,如果不经过法律工作者的理解转化,很难获得精准、专业的解答。经过专业大数据预训练的法律大模型,不但可以理解公众非专业化的诉求表述,而且本身的回答也能具备相当的专业水平,可以根据具体案情为公众提供和解、调解、应诉等不同策略和建议,可以大大降低公共法律服务的门槛,为公众提供更为便捷、普惠的法律咨询服务。

  问:下一步,“法信法律基座大模型”重点发展方向是什么?

  答:下一步“法信法律基座大模型”重点发展方向主要有三个方面:

  一是强化“法信法律基座大模型”核心技术,全面提升保障能力。持续加强研发投入,密切追踪前沿技术,增强“法信法律基座大模型”的自主创新和可信可控能力,提升对法律数据和内容安全的保障能力。

  二是畅通“法信法律基座大模型”数据循环,夯实数字法院建设基础。推动法律数据的畅通循环、整合归集、共享利用,提升“法信法律基座大模型”依托的数据资源规模和质量,服务全国法院“一张网”建设和审判执行工作提质增效,助力公正高效司法。

  三是提升“法信法律基座大模型”社会化服务水平,赋能法治中国建设。坚持“抓前端、治未病”理念,服务矛盾纠纷源头化解,推进“法信法律基座大模型”服务资源和能力开放利用,响应执法司法办案服务需求,助推法治数字政务的服务效能和水平,为法治中国和数字中国建设贡献力量。

责任编辑:江萍