
MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模 …
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 Cannot retrieve latest commit at this time. 请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。 我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献! 中文互联网上最古老最神秘 (没有之一)的 MOP里屋社区 于2023.1.1庄重宣布: 在英明神武的猫扑管子带领下,决心发挥社区所长 (哪都 …
MNBVC|超大规模中文语料集·里屋NLP自然语言处理数据集
LIWU: Language Intelligence and Word Understanding 里屋|MNBVC:Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集 Mailto:[email protected]
MNBVC.超大规模中文语料集·NLP自然语言处理数据集
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 数据均来源于互联网搜集。 里 …
MNBVC|中文语料库数据集|预训练数据集数据集
2022年12月31日 · MNBVC(Massive Never-ending BT Vast Chinese corpus)是由MOP里屋社区于2023年1月1日发起的超大规模中文语料集项目。 该项目旨在收集和整理涵盖广泛主题的中文文本数据,包括新闻、小说、论文、聊天记录等多种形式,以支持自然语言处理和人工智能领域的研究。 MNBVC不仅包括主流文化内容,还涵盖了小众文化和火星文等多样化的语料,总数据量已达42915GB,目标是达到40TB,超越ChatGPT 3.5的数据规模。 该项目由社区自发组织,致力 …
MNBVC/dupan/README.md at main · esbatmop/MNBVC · GitHub
MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。 对标chatGPT训练的40T数据。 MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。 MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 - MNBVC/dupan/README.md at main · esbatmop/MNBVC.
MNBVC - MNBVC大规模中文语料集:覆盖多样类型数据支持开源 …
MNBVC中文语料集由MOP里屋社区发起,目标是创建最大的中文互联网语料集,涵盖新闻、小说、论文等多种类型数据。 当前数据量为34582GB,最终目标为40TB。 MNBVC提供多种文件格式的数据,包括txt、json、jsonl和parquet,并配备一系列优化工具及爬虫代码协助数据处理。 项目欢迎有技术背景的志愿者参与,提升数据清洗效率。 访问Wiki了解更多信息。 MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个专注于建立超大规模中文语料集的项目。 它由 …
MNBVC:超大规模中文语料数据集 - 知乎
2023年9月5日 · MNBVC:超大规模中文语料数据集 目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等各种形式的纯文本中文数据。 不但包括主流文化,也包括各个小众文化甚至 火星文 的数据。 项目目前进度为19.96%,总数据量为7984GB。 目标是达到ChatGPT的40T数据! 该项目欢迎有热情和能力的网友加入一起创建。 MNBVC:超大规模中文语料数据集 目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗 …
探秘MNBVC:一个高效、灵活的自然语言处理工具 - CSDN博客
2024年3月23日 · MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 项目地址:https://gitcode.com/gh_mirrors/mn/MNBVC. 是一个基于Python开发的自然语言处理(NLP)库,旨在为开发者提供强大的文本预处理和分析功能。 这个开源项目以其简洁的API、高效的性能和广泛的适用性吸引了众多用户和贡献者。 预处理:库内包含了丰富的文本清洗和标准化方 …
MNBVC语料库:超大规模中文数据集使用指南-CSDN博客
2024年8月9日 · MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模的中文语料库,旨在提供多样化的纯文本数据,覆盖从主流文化到小众文化,甚至是网络上的独特表达方式。 它包含了诸如新闻、作文、小说、论文、台词、帖子、古诗、歌词等多种形式的内容。 该项目旨在支持自然语言处理(NLP)任务的研究和开发,特别适合训练大规模的语言模型如ChatGPT。 2. 项目快速启动. 确保您已经安装了Git和Python环境。 接下来,安装必要的库: …
现有语料格式 [MNBVC-Wiki]
2024年12月6日 · 未来所有MNBVC语料都会统一格式,请提交数据的同学都执行下格式检查工具: DataCheck_MNBVC. 对于语料格式的每个jsonl文件,其大小略大于500MB。 时间字段所有语 …