中文互联网语料库CCI 2.0开放打造大模型数据“共建-共享”新模式

中国高新技术产业导报

2024-04-27 18:13:32

19146

在4月26日举办的2024中关村论坛——数据安全治理与发展论坛上，智源研究院正式发布中文互联网语料库CCI2.0(ChineseCorporaInternet，CCI)。

在4月26日举办的2024中关村论坛——数据安全治理与发展论坛上，智源研究院正式发布中文互联网语料库CCI2.0(ChineseCorporaInternet，CCI)，本次在CCI1.0的基础上进一步放宽可信站源范围，对总量8TB的原始互联网数据进行筛选，形成了超过500GB的高质量“中文互联网语料库”CCI2.0，数据类型全面、质量较高、安全可信，涵盖1.25亿个网页。

中文互联网语料库CCI是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集，于2023年11月首次开源(CCI1.0)，旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源。

数据是生成式人工智能发展的重要生产要素，数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一。为推动产业持续贡献、共建高质量人工智能数据集，在中国网络空间安全协会人工智能安全治理工作委员会的指导下，智源研究院联合多家企业单位成立数据集工作组，打造了“贡献—共享”的数据运营方式，主要内容包括：

制定数据“共建-共享”积分机制，推动数据集工作组可持续发展。智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制，对贡献数据的20余家单位进行初步评分，对普通互联网数据、稀缺数据进行分类评价，涵盖格式合规、来源可信、覆盖站源等评分维度。

搭建数据集“共建-共享”平台，推动数据集积分机制落地实施。基于数据“贡献-共享”积分机制，智源研究院开发搭建了数据集“共建-共享”平台，完成了包括智源研究院在内的20余家数据贡献企业提供的58个数据集(超过200TB数据量)的上线。平台集成数据集检索与管理、用户管理、积分管理等功能，可支持首批数据贡献单位按照积分情况进行兑换下载。该平台面向数据贡献单位开放，实现数据集的“共建-共享”激励体系。

制定文本语料共享清洗过滤规范，为高质量的中文语料库形成指引。为进一步提高语料共享的效率和质量，在语料共享清洗方面形成统一规范和技术要求，促进人工智能行业健康发展，数据集工作组编制了《文本语料共享清洗过滤规范(征求意见稿)》，以指导工作组成员单位在大模型训练中开展文本语料的共享清洗过滤。该规范包括范围、规范性引用文件、术语和定义、概述、语料共享文件要求、信源过滤、格式清洗、内容过滤和数据去重等九部分内容。

共同打造数据过滤与治理标准，形成语料数据共治模式。为共同打造数据过滤与治理标准，形成语料内容清洗过滤规则，数据工作组建设了内容清洗过滤规则的共享机制，各单位共享过滤规则，进行数据过滤，形成数据共治模式。工作组编制了《内容清洗过滤规则评分方法(草案)》，综合工作组成员单位贡献数据过滤规则的数据规模与数据质量，用于对各单位的贡献度进行评价。

此外，在此次论坛上，智源研究院还发布了由数据集工作组成员单位杭州医策科技有限公司牵头构建的医疗行业数据集MDH-Patho，该数据集是病理领域的图像数据集，总量达58000+图片，约15GB。包含细胞病理、免疫组化病理、组织病理的病灶级图像块数据，均已进行脱敏操作。时间跨度为2021年4月至2023年12月。细胞病理数据占比约23%，免疫组化病理数据占比约20%，组织病理占比约57%，可用于病理图像等方面研究。

该论坛由国家互联网信息办公室、北京市政府主办，国家互联网信息办公室网络数据管理局、北京市互联网信息办公室、北京市经济和信息化局、北京市政务服务和数据管理局、北京市商务局、海淀区政府、大兴国际机场临空经济区(大兴)管理委员会共同承办。(记者李洋李争粉)

#中关村论坛#

免责声明：本文观点来自原作者，不代表天天在线的观点和立场。文章内容仅供参考、交流、学习，不构成投资建议
责任编辑：李蒙_XN032

猜你感兴趣

中文互联网语料库CCI 2.0开放 打造大模型数据“共建-共享”新模式

#中关村论坛#

中文互联网语料库CCI 2.0开放打造大模型数据“共建-共享”新模式