
VQ-VAE, FSQ, LFQ, BSQ - 知乎 - 知乎专栏
2024年6月29日 · VQ的过程为上图,简单描述就是data经过Encoder出来的token( Z_e )会去codebook(图中的Embedding dictionary)中查找一个和他距离最近(余弦相似度 or L2距离或者xxx。 )的token( Z_q )用来传入Decoder,最后还原成data。 这里推荐一个非常好的github的repo,下面的所有思路也都是基于这个repo的(这位大佬写的很好) 但是VQ有几个经常被人诟病的缺点: 为什么会有这些问题呢? VQ-VAE中,codebook的初始化是torch.nn.Embedding。
轻松理解 VQ-VAE:首个提出 codebook 机制的生成模型 - 知乎
第一个误差来自字典学习算法里的经典算法Vector Quantisation(VQ),也就是VQ-VAE里的那个VQ,它用于优化嵌入空间。 第二个误差叫做专注误差,它用于约束编码器的输出,不让它跑到离嵌入空间里的向量太远的地方。
一文详解 codebook 技术史(从 VAE 到 VQ/RQ-VAE 到 FSQ) - 知乎
VAE (variational autoencoder,变分自编码器) 是一种强大的生成模型, Encoder 把数据编码到隐空间 z = Ecd (x) ,其学习条件概率 p_ {\phi} (z|x) , Decoder 把数据从隐空间中重建回来 x = Dcd (z) ,其学习另一个条件概率 q_ {\theta} (x|z) 。 VAE 额外有一个限制条件是让 z 满足 Gaussian 分布。 这样做的好处就是训练结束后可以扔掉 Encoder,直接从这个先验分布上随便采样 z ,然后通过 Decoder 就能生成一个 x 。
深入探讨 VQ-VAE:理解变分量化自动编码器 - CSDN博客
2023年9月20日 · VQ-VAE代表"Variational Quantized Variational Autoencoder",是一种生成模型,通常用于处理高维数据,如图像和音频。它的设计灵感来自于变分自动编码器(VAE)和量化方法,结合了它们的优点,使得 VQ-VAE 能够生成高质量的数据,并在数据表示上引入离散性。
NIPS 2024 最佳论文 VAR 深度解读:下一尺度预测为何能超越扩散 …
2024年12月21日 · 今年四月,北大和字节跳动在 Arxiv 上发表了论文 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction,介绍了一种叫做 Visual Autoregressive Modeling (视觉自回归建模,VAR)的全新图像生成范式。 这种自回归生成方法将高清图像用多尺度词元图像表示,并用.
万字长文解读深度学习——VQ-VAE和VQ-VAE-2 - CSDN博客
VQ-VAE(Vector Quantized Variational AutoEncoder,向量量化变分自编码器) 主要是 将连续潜在空间的点映射到最近的一组离散的向量 (即codebook中的向量)。 模型引入了 离散潜在空间 的思想,克服了 传统 VAE 中连续潜在空间 表示的局限性,能够有效学习高质量的离散特征表示。 z z z 是连续值,这会导致模型生成的表示较为分散、不够紧凑, 无法高效捕获复杂数据的离散结构 (如 图像中的清晰边缘、重复纹理,或离散的语音特征)。 潜在变量的表示能力未被充分利 …
AndrewBoessen/VQ-VAE - GitHub
A PyTorch implementation of Vector Quantized Variational Autoencoder (VQ-VAE) with EMA updates, pretrained encoder, and K-means initialization. Efficient discrete representation learning for variou...
GitHub - maxjcohen/vqvae: VQ-VAE implementation in pytorch, …
VQ-VAE implementation in pytorch, supporting EMA and Gumbel trainings. Applicable for images and time series.
keras-io/vq-vae · Hugging Face
To learn discrete latent representations, ideas from vector quantisation (VQ) are used. Using the VQ method allows the model to avoid issues of "posterior collapse". By pairing these representations with an autoregressive prior, VQ-VAE models can generate high quality images, videos, speech as well as doing high quality speaker conversion and ...
VQ-VAE:Neural Discrete Representation Learning 全文解读
利用向量量化(vq)方法:为了学习离散的潜在表示,作者引入了向量量化的思想。使用vq方法可以解决“ 后验坍塌 ”问题,这是在vae框架中通常观察到的问题,特别是当潜在变量与强大的自回归解码器配对时,潜在变量往往被忽视。