首次以类 SGD 内存成本完成大模型训练 UT Austin 和 Meta AI 推出了全新训练策略 ——APOLLO(Approximated Gradient Scaling for Memory Efficient LLM Optimization)。