智源研究院联合共建中文互联网语料库 CCI,为大数据和人工智能行业提供资源

[db:摘要]

智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),该语料库经过严格的筛选和清洗,首期开放的数据规模为 104GB,时间跨度为 2001 年至 2023 年。智源研究院表示将继续扩充数据来源、完善数据处理流程,并开放其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。此举旨在为大数据和人工智能行业提供安全、可靠的语料资源。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/22181

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年11月29日
下一篇 2023年11月29日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注