
MNBVC.超大规模中文语料集·NLP自然语言处理数据集
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 数据均来源于互联网搜集。 里屋社区资深用户「等战」,「零零发」和「龙骑兵」,共同发起了MNBVC项目。 期望能够为中文AI训练提供充足的粮草。 我们欢迎所有有热情和有能力的网友能够来加入MNBVC项目。 2024年12月1日,我们用23个月达成了当初定下的40TB的语料集吨位目标。 我们将追求一个全新的目 …
MNBVC|超大规模中文语料集·里屋NLP自然语言处理数据集
LIWU: Language Intelligence and Word Understanding 里屋|MNBVC:Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集 Mailto:[email protected]:[email protected]
MNBVC.2023.总结及致谢
2023年12月31日 · MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。 项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。 项目名称【MNBVC】既是里屋社区早期时使用过的一个域名,也是“ 超大规模中文语料集 ”(Massive Never-ending BT Vast Chinese corpus)的缩写。 回首过去这一年,我们从一脸茫然但是目标鉴定的 …
MNBVC/ at main · esbatmop/MNBVC · GitHub
MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。 数据均来源于互联网收集。 目前总数据量47863GB,目标是达到253T数据,目前进度18.9%。 压缩包密码为253874. 压缩包内中文语料包括txt、json、jsonl和parquet(多模态专用)格式,最终会统一到jsonl和parquet格式。 压缩包根目录的links.txt里有每个子文件夹数据来源的url. 每个子文件夹内有一张png格式的图片, …
MNBVC.超大规模中文语料集.项目进度
本月有两个AI大公司加入了mnbvc语料集,一个公司说会提供算力并要招实习生来帮忙清洗数据,另一个公司的首席科学家已经去更新了mnbvc数据集的wiki,老龙说要加鸡腿。
M系镜像 - Mnbv Game - chromaso
2023年3月8日 · M系镜像论坛的Mnbv Game板块,提供游戏相关讨论和资源分享。
MNBVC - MNBVC大规模中文语料集:覆盖多样类型数据支持开源社区 - 懂AI
腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能ai应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。
AI写作:文章AI味太浓?这8个技巧全方位解决机器味(附提示 …
所以,在AI工具的选择上,推荐大家使用更先进的AI工具,比如 Claude3 Opus 、ChatGPT4.0,其中Claude3 opus效果最为突出。 如果是使用国产的AI工具,推荐使用 Kimi chat 。
AI日报 - 每天三分钟关注AI行业趋势_AIbase
AI日报为您提供最新的人工智能行业资讯,每天仅需三分钟,全面掌握AI技术发展、行业动态和市场趋势。 关注AI日报,紧跟未来科技步伐,获取独家分析与深度解读。
AI工具箱 | AI工具资源一站式聚合网站
Coze AI是字节跳动推出的免费低门槛 AI 智能体开发平台,多插件集成,适用于教育、医疗等多行业,功能强大,使用简单。 文生视频和创建AI形象功能的创作平台,风格丰富,应用广泛。 万彩AI除了提供AI智能写作,还集成了AI换脸、照片数字人制作和AI短视频制作等强大的AI生成内容功能。 视频宝是一站式AIGC短视频解决方案,具备多种功能和特色,广泛应用于企业营销和达人带货等场景。 TinyWow是免费在线工具平台,提供多类实用工具,操作便捷,满足多种场景需 …