
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模 …
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。 对标chatGPT训练的40T数据。 MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
MNBVC.超大规模中文语料集·NLP自然语言处理数据集
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MNBVC|超大规模中文语料集·里屋NLP自然语言处理数据集
里屋·mnbvc项目2023年年度总结和对所有参与者的感谢 LIWU: Language Intelligence and Word Understanding 里屋|MNBVC:Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集 Mailto:[email protected]
liwu/MNBVC · Datasets at Hugging Face
在英明神武的里屋管子带领下,决心发挥社区所长 (哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。 Huggingface上的MNBVC数据集在逐渐更新中,请到 https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。 可以使用如下脚本加载: next(iter(dataset)) # get the first line. MNBVC数据集包含数个子集: law_judgement: 来自法律文书的文本。 gov_xuexiqiangguo: 来自学习强国的文本。 gov_report: 来自政府工作报告的文本 …
MNBVC.2023.总结及致谢
2023年12月31日 · MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。 项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。 项目名称【MNBVC】既是里屋社区早期时使用过的一个域名,也是“ 超大规模中文语料集 ”(Massive Never-ending BT Vast Chinese corpus)的缩写。 回首过去这一年,我们从一脸茫然但是目标鉴定的 …
MNBVC.超大规模中文语料集.项目进度
MNBVC项目通过23个月的努力,在2024年12月1日成功实现了最初看似遥不可及的目标——数据集规模达到了42.77TB,超越了40TB的目标,达到了106.9%。 这一成就标志着我们在开源中文语料集工作上的坚定承诺和不懈努力。 我们的数据集包含了0.58TB的多模态数据和42.19TB的纯文本数据。 纯文本数据部分,我们从8个不同的代码仓库收集了27.85TB的数据,这些数据不仅包括代码,还有代码仓库里的各种文档和书籍,并且特别针对中文编码做了转码和保留,为模型训练 …
start [MNBVC-Wiki]
项目主页: https://mnbvc.253874.net. Github 地址: https://github.com/esbatmop/MNBVC. 联系邮箱:[email protected]. 关于MNBVC. 2024年12月1日, MNBVC语料集数据量达到42778GB,完成了我们23个月前给自己定下的小目标。 start.txt · 最后更改: 2024/12/02 09:39 由 …
现有语料格式 [MNBVC-Wiki]
2024年12月6日 · 未来所有MNBVC语料都会统一格式,请提交数据的同学都执行下格式检查工具: DataCheck_MNBVC. 对于语料格式的每个jsonl文件,其大小略大于500MB。 时间字段所有语料格式中都有,必填,代表本语料出现的最早时间,统一采用字符串的 yyyymmdd 格式,具体规则如下: 补充:补零4位python代码只需要加上:04d为 f' {$year:04d}',如需将补零4位字符串转换为int,python中 int () 函数会自动识别转换,如 int ('0001') 则为整数 1。 1.对于每一个文件,时 …
aboutmnbvc [MNBVC-Wiki]
MNBVC-Wiki 是什么? MNBVC-Wiki是 Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集。 它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目经验,希望通过wiki系统记录和分享,以帮助未来参与相关项目的开发者。
MNBVC/README.md at main · esbatmop/MNBVC · GitHub
MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。 对标chatGPT训练的40T数据。 MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。 MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 - MNBVC/README.md at main · esbatmop/MNBVC.
- 某些结果已被删除