Mnbv XC - 搜索

约 35,200 个结果

在新选项卡中打开链接

时间不限

github.com
https://github.com › esbatmop › MNBVC
MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模 …
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 Cannot retrieve latest commit at this time. 请媒体朋友们不要报道我们，让我们有更长久的时间可以收集整理数据。我们最怕捧杀了，您让我们保持低调，就是对中文算法圈做了大的贡献！中文互联网上最古老最神秘 (没有之一)的 MOP里屋社区于2023.1.1庄重宣布: 在英明神武的猫扑管子带领下，决心发挥社区所长 (哪都 …
mnbvc.org
http://www.mnbvc.org
MNBVC|超大规模中文语料集·里屋NLP自然语言处理数据集
LIWU： Language Intelligence and Word Understanding 里屋｜MNBVC：Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集 Mailto:[email protected]
253874.net
https://mnbvc.253874.net › index.htm
MNBVC.超大规模中文语料集·NLP自然语言处理数据集
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。里 …
selectdataset.com
https://www.selectdataset.com › dataset
MNBVC|中文语料库数据集|预训练数据集数据集
2022年12月31日 · MNBVC（Massive Never-ending BT Vast Chinese corpus）是由MOP里屋社区于2023年1月1日发起的超大规模中文语料集项目。该项目旨在收集和整理涵盖广泛主题的中文文本数据，包括新闻、小说、论文、聊天记录等多种形式，以支持自然语言处理和人工智能领域的研究。 MNBVC不仅包括主流文化内容，还涵盖了小众文化和火星文等多样化的语料，总数据量已达42915GB，目标是达到40TB，超越ChatGPT 3.5的数据规模。该项目由社区自发组织，致力 …
github.com
https://github.com › esbatmop › MNBVC › blob › main › dupan › ...
MNBVC/dupan/README.md at main · esbatmop/MNBVC · GitHub
MNBVC (Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。 MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。 MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 - MNBVC/dupan/README.md at main · esbatmop/MNBVC.
dongaigc.com
https://www.dongaigc.com › esbatmop › MNBVC
MNBVC - MNBVC大规模中文语料集：覆盖多样类型数据支持开源 …
MNBVC中文语料集由MOP里屋社区发起，目标是创建最大的中文互联网语料集，涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB，最终目标为40TB。 MNBVC提供多种文件格式的数据，包括txt、json、jsonl和parquet，并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与，提升数据清洗效率。访问Wiki了解更多信息。 MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个专注于建立超大规模中文语料集的项目。它由 …
zhihu.com
https://zhuanlan.zhihu.com
MNBVC：超大规模中文语料数据集 - 知乎
2023年9月5日 · MNBVC：超大规模中文语料数据集目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等各种形式的纯文本中文数据。不但包括主流文化，也包括各个小众文化甚至火星文的数据。项目目前进度为19.96%，总数据量为7984GB。目标是达到ChatGPT的40T数据！该项目欢迎有热情和能力的网友加入一起创建。 MNBVC：超大规模中文语料数据集目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗 …
csdn.net
https://blog.csdn.net › article › details
探秘MNBVC：一个高效、灵活的自然语言处理工具 - CSDN博客
2024年3月23日 · MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。项目地址:https://gitcode.com/gh_mirrors/mn/MNBVC. 是一个基于Python开发的自然语言处理（NLP）库，旨在为开发者提供强大的文本预处理和分析功能。这个开源项目以其简洁的API、高效的性能和广泛的适用性吸引了众多用户和贡献者。预处理：库内包含了丰富的文本清洗和标准化方 …
csdn.net
https://blog.csdn.net › article › details
MNBVC语料库：超大规模中文数据集使用指南-CSDN博客
2024年8月9日 · MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个超大规模的中文语料库，旨在提供多样化的纯文本数据，覆盖从主流文化到小众文化，甚至是网络上的独特表达方式。它包含了诸如新闻、作文、小说、论文、台词、帖子、古诗、歌词等多种形式的内容。该项目旨在支持自然语言处理（NLP）任务的研究和开发，特别适合训练大规模的语言模型如ChatGPT。 2. 项目快速启动. 确保您已经安装了Git和Python环境。接下来，安装必要的库： …
mnbvc.org
https://wiki.mnbvc.org › doku.php › 现有语料格式
现有语料格式 [MNBVC-Wiki]
2024年12月6日 · 未来所有MNBVC语料都会统一格式，请提交数据的同学都执行下格式检查工具： DataCheck_MNBVC. 对于语料格式的每个jsonl文件，其大小略大于500MB。时间字段所有语 …
分页
- 1
- 2
- 3
- 4
- 下一页