
Zyda|大型语言模型数据集|数据预处理数据集
2024年6月4日 · Zyda是由Zyphra创建的一个包含1.3万亿tokens的大型语言模型预训练数据集。 该数据集整合了多个高质量的开源数据集,通过严格的过滤和去重过程,确保数据质量。
Zyphra/Zyda-2 · Datasets at Hugging Face
Zyda-2 comprises diverse sources of web data, highly educational content, math, code, and scientific papers. To construct Zyda-2, we took the best open-source datasets available: Zyda, FineWeb, DCLM, and Dolma. Models trained on Zyda-2 significantly outperform identical models trained on the Pile, RefinedWeb, FineWeb, FineWeb-Edu, and DCLM.
Zyphra/Zyda · Datasets at Hugging Face
Zyda is a 1.3T language modeling dataset created by collecting open and high quality datasets and combining them and performing a uniform filtering and deduplication step.
使用NVIDIA NeMo Curator处理过的Zyda-2开放5T-Token数据集训 …
为了实现这一愿景,Zyphra团队与 NVIDIA NeMo Curator 团队紧密合作,创建了Zyda-2,这是一个开放的高质量预训练数据集,包含5T英文标记,是Zyda-1的5倍大小。 该数据集涵盖了广泛的主题和领域,并确保了高水平的多样性和质量,这对于训练如Zamba等稳健且具有竞争力的模型至关重要。 Zyda-2非常适合用于专注于语言能力的高质量语言模型预训练,而不是需要额外专业数据集的代码和数学。 这是因为Zyda-2在保持现有顶级数据集优势的同时,改进了它们的不足。 …
Zyphra
Zyphra is pleased to announce Zyda, a 1.3T trillion-token open dataset for language modeling. Zyda combines the existing suite of high-quality open datasets together and merges them through a uniform and thorough filtering and deduplication process.
Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型数据集|预 …
Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。 该数据集通过整合多个开源数据集并进行深度处理来构建,包含了1.3万亿Token,其质量接近商业语料。
Zyphra 发布 Zyda-2 数据集, 应用在 自然语言处理、预训练数据集
2024年11月13日 · Zyphra 本次发布的数据集 Zyda-2, Zyda-2是由Zyphra机构创建的一个包含5万亿Tokens的高质量数据集,旨在用于语言模型的预训练。 该数据集汇集了如FineWeb和DCLM等高质量的开源数据源,并通过交叉去重和模型质量过滤技术进一步提炼,以确保数据的高质量和多样 …
【五号雷达-数据快讯】Zyda - 包含1.3万亿Token的开源预训练数 …
2024年6月7日 · Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。 该数据集通过整合多个开源数据集并进行深度处理来构建,包含了1.3万亿Token,其质量接近商业语料。
Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM
2024年10月19日 · Zyphra Technologies是一家致力于开发多模式代理系统的公司,该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究,该公司刚刚发布了 Zyda-2,这是一个包含 5 万亿个标记的开放预训练数据集。
Zyphra推出具备1.3T tokens的大模型训练数据集Zyda - 牛透社
牛透社消息:6 月 7 日,初创公司 Zyphra 推出人工智能训练数据集 Zyda,旨在帮助研究人员构建大型语言模型(LLM)。 这家由英特尔资本(Intel Capital)提供未公开金额资金支持的初创公司,计划在开源许可下提供 Zy…
- 某些结果已被删除