千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

作者：智通财经冯秋怡 2026-04-29 19:37:29

4月29日，千问大模型宣布，正式开源 FlashQLA ，一个基于 TileLang 实现的高性能线性注意力算子库。

智通财经APP获悉，4月29日，千问大模型宣布，正式开源 FlashQLA ，一个基于 TileLang 实现的高性能线性注意力算子库。FlashQLA 将 GDN Chunked Prefill 的前向和反向进行了合理的算子融合与性能优化，在 NVIDIA Hopper 上实现多场景相较于 FLA triton Kernel 2-3× 前向加速和 2× 反向加速。对于预训练场景和端侧 agentic 推理效率提升明显。

千问团队表示，自 Qwen3-Next 发布以来，Gated Delta Network (GDN) 已成为 Qwen 全系列的主力注意力层，从 Qwen3-Next-80B-A3B 一路延伸到后续推出的 Qwen3.5 / Qwen3.6 系列。随着模型规模扩展到 397A17B、122A10B、35B、27B，GDN 在端到端训练与推理中的开销也变得不可忽视。

据介绍，本次发布的核心亮点在于：Gate驱动的自动化卡内序列并行。利用 GDN gate 的指数衰减性质，FlashQLA 在 TP、长序列、小头数等场景下自动开启卡内序列并行，提高 GPU SM 利用率；硬件友好的代数改写。对 GDN Chunked Prefill 的前向和反向流程进行一定程度的改写，在不影响数值精度的前提下有效降低了 Tencosr Core、 CUDA Core 及 SFU 开销。

智通声明：本内容为作者独立观点，不代表智通财经立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。更多最新最全港美股资讯，请点击下载智通财经App