
Meta HSTU:统一的生成式推荐-AI.x-AIGC专属社区-51CTO.COM
2025年1月3日 · HSTU 采用新的 Pointwise 聚合(归一化)Attention 机制(Softmax Attention 在整个序列上计算归一化因子)。 这一设计基于两个因素: 与 Target 相关的先验数据点的数量作为强特征,能够指示用户偏好的强度,而 Softmax 归一化后很难捕获这一特征 。
Meta生成式多层Transformer - 知乎 - 知乎专栏
提出新的Encoder(HSTU),通过新架构 + 算法稀疏性加速达到了模型质量超过目前最快的Transfomer( FlashAttention )
大模型与搜广推(一):HSTU-based GRs, Meta AI, ICML`24
hstu 将输入独立变换为 qkvu 四个向量,都是非线性变换,增加了 silu 激活函数。其中的 u 起到了swiglu 的作用(可参考大模型结构基础(四):前馈网络层的升级)。在 swiglu 之后还有一层 mlp,笔者理解是起到维度对齐的作用,hstu 中的 qk 和 vu 使用了不同的维度。
ICML 2024 | 面向第三代推荐系统:Meta提出首个生成式推荐系统 …
2024年5月13日 · 特征交叉(Feature interaction):HSTU 通过 attention 抽取出的特征 与 进行元素积的形式,实现了特征交叉。文章采用 SiLU 代替了 softmax,这个处理和 DIN 是类似的,将序列维度的聚合权重 的约束放松了,更好地保留用户兴趣的强度。
行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系 …
为了让GR模型在工业界大规模推荐系统中实现高可扩展性,处理海量非稳态的词表和数据,作者设计了新一代的encoder架构,称为HSTU(Hierarchical Sequential Transduction Unit)。 类似Transformers,HSTU堆叠多个层,层与层之间通过残差连接。
Meta生成式推荐论文解读 - 知乎 - 知乎专栏
HSTU针对大规模、动态词汇表修改了注意力机制,并利用推荐数据集的特性,在8192长度序列上实现了与基于FlashAttention2的Transformers相比5.3倍到15.2倍的加速。 此外,通过新算法 M-FALCON,该算法通过微批量完全摊销计算成本,我们可以在相同的推理预算下服务285倍更复杂的GR模型,同时实现1.50倍到2.48倍的速度提升。 三、内容. 类别特征 (稀疏特征)首先选择最长的时间序列,通常是用户参与的物品特征,作为主时间序列。 其他如人口统计信息或关注 …
Meta最新推荐算法:统一的生成式推荐第一次打败了分层架构的深 …
新的encoder (HSTU) 通过新架构 + 算法稀疏性加速达到了模型质量超过Transformer + 实际训练侧效率比FlashAttention2 (目前最快的Transformer实现)快15.2倍; 我们通过新的推理算法M-FALCON达成了推理侧700倍加速(285倍复杂模型,2.48x推理QPS);
HSTU优势何在?Meta新一代encoder架构解析
为了让GR模型在工业界大规模推荐系统中实现高可扩展性,处理海量非稳态的词表和数据,作者设计了新一代的encoder架构,称为HSTU(Hierarchical Sequential Transduction Unit)。 类似Transformers,HSTU堆叠多个层,层与层之间通过残差连接。
字节用大模型做推荐。。_meta hstu-CSDN博客
2024年10月14日 · 4.3 对比 sota 方法(hstu)优势是什么? 论文主要先说了 HLLM 比 HSTU 在相同设置下效果更好,又强调了当增加负样本数量和 batchsize 时,基于 ID 的模型(HSTU)提升相对有限,HSTU-Large R@200 指标 +0.76,而相同设置的 HLLM-1B +2.44。
generative-recommenders - HSTU:基于万亿参数序列转录器的生 …
hstu是一个基于万亿参数序列转录器的生成式推荐系统框架。 该项目在MovieLens和Amazon Reviews等公开数据集上进行了实验,结果显示HSTU在各项指标上均优于现有方法。