
MNBVC.超大规模中文语料集·NLP自然语言处理数据集
MNBVC数据集(NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词 …
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模 …
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
MNBVC|超大规模中文语料集·里屋NLP自然语言处理数据集
里屋·mnbvc项目2023年年度总结和对所有参与者的感谢 LIWU: Language Intelligence and Word Understanding 里屋|MNBVC:Massive Never-ending BT Vast Chinese corpus 超大规模中文 …
liwu/MNBVC · Datasets at Hugging Face
目前MNBVC数据集包含如下几类数据: 通用文本; 问答语料; 代码语料; 多轮对话; 论坛语料; 平行语料; 可以在MNBVC的wiki页面上查看这几类数据的具体格式。 项目早期所上传的数据使用如 …
中文大模型预训练数据集介绍 - 知乎 - 知乎专栏
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
start [MNBVC-Wiki]
项目主页: https://mnbvc.253874.net. Github 地址: https://github.com/esbatmop/MNBVC. 联系邮箱:[email protected]. 关于MNBVC. 2024年12月1日, MNBVC语料集数据量达 …
MNBVC/dupan/README.md at main · esbatmop/MNBVC - GitHub
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。 对标chatGPT训练的40T数据。 MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
MNBVC.2023.总结及致谢
2023年12月31日 · MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。 项目 …
MNBVC.超大规模中文语料集.项目进度
MNBVC项目通过23个月的努力,在2024年12月1日成功实现了最初看似遥不可及的目标——数据集规模达到了42.77TB,超越了40TB的目标,达到了106.9%。 这一成就标志着我们在开源中 …
aboutmnbvc [MNBVC-Wiki]
MNBVC-Wiki 是什么? MNBVC-Wiki是 Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集。 它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目 …
- 某些结果已被删除