本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,目前主要关注统一的多模态任务建模算法。指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 ...
近年来,细粒度感知任务(如检测与分割)的建模复杂性日益增加,尤其是任务特定的结构和设计使得这一领域的发展受到限制。为此,北京大学与阿里巴巴的研究团队共同提出了一种全新的解决方案——UFO(统一细粒度感知框架)。UFO致力于将多模态大语言模型(MLLMs)与细粒度感知任务无缝集成,创新性地摒弃了依赖繁复的任务特定解码器,简化了模型结构,提升了训练效率。