上海肇嘉浜路308号,一场如火如荼的研发已经悄然进行了整整154天。64位来自上海法院、检察院、公安机关的业务骨干,215位科大讯飞公司的高精尖技术人员,夜以继日埋头研发,这一切,都是为了实现一个未来法院人工智能系统的横空出世——“上海刑事案件智能辅助办案系统”,又名“206”。
司改目标+智能革命
2017年2月6日,中共中央政治局委员、中央政法委书记孟建柱来到上海高院调研,也就在这一天,中政委明确要求,由上海高院研发一套“推进以审判为中心的诉讼制度改革软件”,该软件后被定名为“上海刑事案件智能辅助办案系统”。
“党的十八大以来,人民法院依法纠正了34件重大冤假错案,这些冤假错案之所以发生的一个很重要的原因,就是事实不清、证据没有做到确实充分。”上海高院党组书记、院长崔亚东告诉记者,“现在我们研发这套系统,一是要解决刑事案件办案中存在的证据标准适用不统一、办案程序不规范等问题;二是系统具有校验、把关、监督功能,可以及时发现证据中的瑕疵与矛盾,及时提示办案人补正或作出说明,确保提请逮捕、移送审查起诉的案件符合法律规定的标准,提升办案质量和效率,实现防止冤假错案,减少司法任意性,推进以审判为中心的刑事诉讼制度改革的目标。”
那为什么叫“206工程”呢?崔亚东笑着说:“因为交办日期是2月6日,所以简称为 206 !”
大数据、云计算、移动网络、人工智能,这些耳熟能详的现代科技如何与司法体制改革融合?如何把统一适用的证据标准嵌入数据化程序?上海,面临了一场前所未有的历史机遇和挑战。
2月中旬,上海高院成立了以崔亚东为组长的“206工程”领导小组及办公室,办公室下设业务组、技术组、综合组和专家咨询组。同时,经上海市委政法委同意,“推进以审判为中心的诉讼制度改革软件”工作联席会议制度建立,上海市委政法委、市高院、市检察院、市公安局、市司法局等政法部门各派出一名负责同志,专门负责政法部门之间的日常联络和沟通协调。
紧接着,上海确定了33家法院、检察院、公安机关作为试点单位,8个区级司法局和上海市律协作为调研单位,同步推进专题调研、数据整理与制定证据标准工作。上海高院先后组织了专题调研34批,收集意见、建议78条,需求132条,收集公检法系统案件电子卷宗、裁判文书、庭审笔录、审理报告、退查退捕说明等资料16.55万份。
专家经验+模型算法+海量数据
“人工智能最重要的三个环节,是专家经验、模型算法和海量数据。”科大讯飞法院产品线产品部经理金泽蒙所带领的软件研发技术组,常常在上海高院“206工程研发基地”开会讨论到凌晨。据介绍,科大讯飞为“206”配备了215名技术人员,其中,在上海高院现场办公79人,在公司本部后台提供技术支撑136人。
那么,如何让机器来学习人类的法律思维呢?
“我们预定了机器学习的规则,从统一证据标准、制定证据规则、构建证据模型三方面入手。”上海高院副院长、全国审判业务专家、206工程业务组负责人黄祥青介绍。
黄祥青所说的“证据标准”,是指针对不同类型的案件,按照构建完整证据链条的要求所必须收集的证据。它与法律所要求的事实清楚、证据确实、充分的“证明标准”有所不同,前者侧重于说明应当收集哪些证据,后者侧重于表述所收集证据的证明程度。对于206研发团队来说,建立统一的刑事案件证据标准是推进以审判为中心的诉讼制度改革和开发系统的关键。
华东政法大学校长叶青很认同这样的做法:“206系统是第一次将法定的统一证据标准嵌入到公检法三机关的数据化刑事办案系统中去,并且连通了公检法三机关的办案平台,这将极大地促进公检法三机关办案人员执行统一的证据标准,同时倒逼侦查、审查起诉、审判各个诉讼环节,严格按照法律的规定办理刑事案件。”
2月中旬,上海高院结合司法实践,聚焦常见多发、重大、新类型等案件,选择了7类18个具体罪名,计划到2017年底前分三批完成,逐项制定证据标准。
“证据规则,主要是针对单一证据而言,按照证据 三性 的要求,在收集、固定、保存中所应遵循的规范。”黄祥青进一步解释,为了配合系统研发,上海高院制定了《上海刑事案件证据收集、固定、审查、判断规则》,对刑事诉讼法中的八类证据,详细规定了收集程序、规格标准、审查判断要点,对量刑证据、程序证据的收集、固定作了明确。
2月下旬,第一批证据模型构建小组也随之建立。上海高院从高院、浦东、徐汇、虹口、长宁等法院抽取精兵强将,分别组成了命案组、盗窃罪组、电信网络诈骗类案件组以及非法吸收公众存款罪组4个组。
命案组是最早成立的,上海高院刑庭副庭长徐世亮和6位小组成员几乎天天加班。他们从每个案件的审理报告和案卷中提取具体证据,然后按照法定的八大证据种类进行归类,接着分类整理法律、司法解释及各地审判经验中的证据规范,最后明确各种证据的收集程序、形式要件、内容要素和不可采情形。
“我们收集了上海近5年来的591件命案进行分析,包括故意杀人罪、故意伤害罪、抢劫罪、绑架罪,最后归纳出7个环节、13项查证事项、30种证据材料、235项证据校验标准。”徐世亮说。
上海浦东法院刑庭庭长、全国模范法官马超杰是一位有着26年刑事审判经验的学者型法官,他负责电信网络诈骗和非法吸收公众存款罪两个证据模型小组的工作:“这两种犯罪不同于传统犯罪,牵涉面广、关联犯罪多、证据庞杂、被害人众多,尤其是电信网络诈骗,犯罪手段时时翻新,建立证据模型的难度非常大。”
马超杰递给记者一份模型构建材料,记者看到,在密密麻麻的表格里,仅仅一个“电子数据”,就被细分为电话、电子文件、计算机日志、电子邮件、聊天记录、网页、IP地址、手机录音、短信、第三方网络支付平台交易记录等多种形式。
徐汇法院刑庭庭长朱以珍负责的是盗窃罪组:“为了力求模型构建的精准和实用,我们收集并分析了2012年至2016年间上海各基层法院审理的部分盗窃案36779件,最后几经调整,把盗窃模型按照证据数量和种类的不同,分为当场抓获型、重要线索型和网络犯罪型三种类型。根据高院的初步设想,证据模型不仅要有证据指引功能,还要有单个证据合法性校验功能,证据和证据间互相印证的功能,以及证据之间逻辑判断的功能,这是一个巨大的挑战。”
除了法院的专家团队外,公安和检察院的业务骨干同样发挥了重要作用。
上海市检察院侦查监督处的陈漫卿已经工作8年,对软件开发很有兴趣。今年3月,她正式加入206工程,随时与业务组、技术组沟通检察院汇总的需求,其中文书导出、证据相似情况案件推送、办案程序监督、社会危险性审查、检察监督、量刑建议参考等需求功能被206系统采纳。
“206工程是互联网+办案的实验,刑事办案实践与人工智能每天都有化学反应,非常有趣。”陈漫卿笑着说。
未来法院人工智能图景
“目前,206系统主要由上海刑事案件大数据资源库、上海刑事案件智能辅助办案应用软件、上海刑事案件智能辅助办案系统网络平台三部分组成。” 上海高院副院长、206工程技术组负责人郭伟清对人工智能技术已经非常熟悉。
截至6月底,上海刑事案件大数据资源库汇集了1695万条数据,其中案例库案例9012个、裁判文书库文书1600万篇、法律法规司法解释库条文948384条、办案业务文件库各类规范性文件638件。与此同时,证据标准库、电子卷宗库将随证据标准的制定及开发的案由同步更新。
“系统通过运用深度神经网络模型和图文识别(OCR)技术,基于对1.5万余份卷宗材料的学习,初步实现了对各种证据的印刷体文字、部分手写体文字、签名、手印、签章、表格、图片等职能识别、定位和信息提取,对单一证据实现了自动校验。”郭伟清说。
记者了解到,随着技术的不断完善,未来的206系统将具备证据标准指引、单一证据校验、逮捕条件审查、社会危险性评估、证据链和全案证据审查判断、非法言词证据排除等20项功能,其中13项已经完成,还有7项功能正在开发中。
5月3日,“上海刑事案件智能辅助办案系统”正式试运行,6家法院、6家检察院、13家公安机关试点单位上线。
“我输入一个卷宗后,系统马上提示我没有附物品勘察清单。” 徐汇公安分局漕河泾派出所民警俞昕体验了一把“智能辅助”,“那个案子的犯罪嫌疑人是被群众扭送到公安的,作案工具同时被送到派出所,我是后到现场进行勘察,所以没有关于作案工具的清单。我在备注栏里写明了情况,整个案子提交到了检察院。”
俞昕很赞赏206系统能区分批捕标准和定罪标准。“机器不能只是机械地指引,一个案件的证据收集会随着侦查、起诉、审判的阶段不同而要求不同,到审判阶段应该是最完备的,你不能要求在侦查之初或者在批准逮捕阶段的证据就跟审判阶段一样,这是不符合逻辑的,现在这样设计符合我们的办案实际。”
徐汇检察院公诉科检察官许磊也有自己的用户体验:“过去我们拿到的是冷冰冰的卷宗,现在通过系统,可以对侦查人员的办案活动一目了然,系统罗列出来的瑕疵可以帮助承办人快速理清思路,找出办案的关键点,这极大地提高了办案效率,而且全程留痕,对落实司法责任制也有好处。”
据统计,截至6月底,206系统共录入案件60件,录入证据19316份,提供证据指引2622次,发现证据瑕疵点48个,提供知识索引查询348次,总点击量达5.6万次。
“人工智能不是人的智能,当前人工智能的主流算法模型是深度神经网络模型,这个模型优势在于可以自学习,可以对学习过的知识联想学习,但是训练这个模型需要大量数据。目前,我们构建了一个206的初始模型,还得有专家知识供机器学习,随着系统不断被应用,提供的数据越来越多,我相信机器表现会越来越好。”金泽蒙说。
据悉,为了让“206”这个初生“婴儿”慢慢学习,研发团队已进入小规模数据的人工标注阶段,公检法三家的业务骨干们对扫入系统的卷宗内容进行精细化标注。
“坦率地讲, 打标注 是需要花费一定工作量的,但这是一个过渡阶段,人工智能的学习有一个过程,我们前期所打的标注是为机器学习提供样例,当积累到一定程度后,机器就可以进行自动识别,从而大大减轻办案人员的工作量。而且目前看来,前一道办案人员的标注也为后一道办案人员对证据的审查判断提供了参考,同时提高了工作效率。” 上海高院信息管理处处长曹红星说。
“我们也在考虑公安是否可以使用 格式化笔录 ,”徐汇法院刑庭法官助理、盗窃罪组成员之一林哲骏告诉记者,“盗窃类案件与其他案件不同,它的作案动机并不复杂,各事实要素又相对清晰,因此如果公安使用格式化笔录,也就是让系统将作案时间、地点、手段经过、赃物去向等具体案件要素予以事先分类并提示,这样机器就可以直接提取,而不需要民警再贴标注,既省去重复工作量,又可以提示民警以免证据缺失。”
法院的人工智能时代已经到来,未来的“206”会替代法官吗?
“创造性思维是电脑永远无法模拟的,206只是辅助办案,法官可以借助它的技术手段来帮助判断,但不可能被替代。”马超杰说。
“审判是一种艺术,世界上没有两片相同的树叶,世界上也不存在两个完全相同的案子,机器可以给办案人员做提示、指引,但最终的决定权在法官手里。”徐世亮说。
“系统的定位是 智能辅助办案系统 ,实际上是为法官、检察官、侦查人员配备了一名 智能办案助手 ,不能理解为 机器办案 ,更不能理解为 机器定案量刑 。”崔亚东说。