
80TB!58.5亿!世界第一大规模公开图文数据集LAION-5B 解读
LAION-5B通过CommonCrawl获取文本和图片,OpenAI的CLIP计算后获取图像和文本的相似性,并删除相似度低于设定阈值的图文对(英文阈值0.28,其余阈值0.26),500亿图片保留了不到60亿,最后形成58.5亿个图文对,包括23.2亿的英语,22.6亿的100+语言及12.7亿的未知语言。
LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL …
To address this problem we release LAION 5B, a CLIP-filtered dataset of 5,85 billion high-quality image-text pairs, their CLIP ViT-L/14 embeddings, kNN-indices, a web interface for exploration & subset-creation and NSFW- and watermark-detection scores and tools.
[2210.08402] LAION-5B: An open large-scale dataset for training …
2022年10月16日 · We show successful replication and fine-tuning of foundational models like CLIP, GLIDE and Stable Diffusion using the dataset, and discuss further experiments enabled with an openly available dataset of this scale.
LAION-5B: An open large-scale dataset for training next …
2022年10月15日 · To address this problem and democratize research on large-scale multi-modal models, we present LAION-5B - a dataset consisting of 5.85 billion CLIP -filtered image-text pairs, of which 2.32B contain English language.
LAION-5B Dataset - Papers With Code
LAION 5B is a large-scale dataset for research purposes consisting of 5,85B CLIP-filtered image-text pairs. 2,3B contain English language, 2,2B samples from 100+ other languages and 1B samples have texts that do not allow a certain language assignment (e.g. names ).
laion数据集介绍及下载 - CSDN博客
2024年8月27日 · 全集laion-5B 论文介绍: LAION-5B: An open large-scale dataset for training next generation image-text models 由58.5亿个CLIP过滤的图像-文本对组成,其中包含23.2亿的英语,22.6亿的样本来自100多种其他语言,及12.7亿的未知样本
基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文 …
2023年6月6日 · 推荐语多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。 OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其 演讲内容…
Laion-5b - Dataset - LDM
A large-scale dataset of text and images for training next-generation language models. The json representation of the dataset with its distributions based on DCAT. C. Schuhmann, R. Beaumont, R. Vencu, C. Gordon, R. Wightman, M. Cherti, T. Coombes, A. Katta, C. Mullis, M. Wortsman (2024). Dataset: Laion-5b. https://doi.org/10.57702/a73taznq.
数据集-(图像-文本):LAION【史上最大规模多模态图文数据集,包 …
2024年2月25日 · laion-5b是继laion-400m后的超大规模图文数据集,包含58.5亿个图像-文本对,是世界最大、多模态的文本图像数据集。 该数据集用于图文匹配、多模态预训练、生成任务和分类任务,提供多种子集和预训练模型,并有KNN索引和web界面。
LAION-5B - Heywhale.com - 和鲸社区
laion 5b 是一个用于研究目的的大规模图文数据集。 由58.5亿个CLIP过滤的图像-文本对组成。 完整数据请到opendatalab.com获取。