NSA的解决方案就是,不通过query block的sequence length这个dimension来凑matmul,而是利用GQA的特性,靠group里面的head来凑matmul (这个做法在GQA的decoding阶段 ...