
当大模子试图处理一段包含 100 万 token 的超长文档时,会发生什么?谜底是:内存爆炸,瞎想崩溃。
不管是分析通盘代码库、处理万字研报,也曾进行超长多轮对话,LLM 的"长文本能力"王人是其走向更高阶智能的环节。有关词,Transformer 架构的固有瓶颈──与高下文长度成平日相关的瞎想复杂度和线性增长的 KV Cache,使其在靠近超长序列时力不从心,造成了一个既"算不动"也"存不下"的"吞金巨兽"。
为了"续命",现存决议要么遴荐高下文压缩,但这本色上是有损的,信息丢失不成幸免;要么袭取轮回机制,但这类模子又时时"忘记",难以保留归并全文的环节信息,也记不清刚刚发生的细节。

来自阿里巴巴往日生涯本质室的商酌团队瞻念察出问题的中枢在于:模子难题一套能同期兼顾"远距离中枢驰念"和"近距离高清细节"的协同系统。基于此,他们推出了一种全新的即插即用架构──协同驰念 Transformer(CoMeT),让 LLM 领有了高效处理无尽长高下文的能力。
CoMeT令东谈主偶然的施展是:一个仅在 32k 高下文上微调的模子,竟能在 100 万 token 的文本中,精确无误地找到任何位置的"密码",的确收尾了"大海捞针"!况且,通盘经过的推理时辰和内存占用王人得到了权臣的优化。

△ CoMeT 在 32k 高下文磨练后,可在 1M token 中精确大海捞针,且推理速率和内存占用远优于全耀观点模子鱼与熊掌兼得:"协同驰念"架构
{jz:field.toptypename/}CoMeT 的奥秘之处在于,它莫得试图用单一机制处分悉数问题,而是瞎想了一套双轨并行的协同驰念系统,让模子既能"谨记牢",又能"看得清"。
1. 全局驰念(Global Memory):一个带"门禁"的驰念保障箱
为了处分恒久渐忘问题,CoMeT 引入了一个固定大小的全局驰念。它的中枢是一个小巧的门控更新机制(Gated Update)。当模子处理新的文本块时,这个"门禁"会智能判断新信息的重要性:要是信息至关重要,门控大开,将其写入恒久驰念;要是信息不那么重要,门控保抓关闭,保护已有的环节驰念不被冲刷。这套机制就像一个驰念的"保障箱",金沙电玩城app确保那些归并全文的中枢痕迹梗概被恒久、结识地保存下来。
2. 临时驰念(Temporary Memory):一条高保的确"事件流"
为了保留近期细节,CoMeT 引入了由先进先出(FIFO)部队约束的临时驰念。它像一条流动的传送带,抓续将最近处理过的文本块信息进行高保真压缩并暂存。这保证了模子在作念决策时,能随时拜谒到最周边、最详备的高下文信息,幸免因信息丢失而导致的"断片"。这种瞎想优雅地均衡了恒久驰念的结识性与近期驰念的鲜嫩性。

△ CoMeT 架构概览:全局驰念与临时驰念协同职责
通过全局和临时驰念的协同,CoMeT 在处理每个文本块时,王人能同期"转头"恒久中枢信息和"疑望"近期详备内容,最终收尾了恒定的内存占用和线性的时辰复杂度,从根底上防止了 Transformer 的性能瓶颈。
推论出真知:SOTA 性能与惊东谈主效果
CoMeT 的坚决不单是停留在表面上,本质抵制更是令东谈主印象深远。
1. 泰斗基准全面突出,登顶 SOTA
在公认的长文本评测基准 SCROLLS 上,CoMeT 在同等内存预算下,平均性能突出了悉数主流的高效长文本智力(如高下文压缩、其他轮回机制模子),并在需要全局流畅的纲目任务上,达到了与全耀观点基线(Full Attention)相忘形的性能。

△ CoMeT 在 SCROLLS 基准上突出其他高效智力 2. 效果翻新:21 倍加快,10 倍显存简约
相较于圭臬的 Full Attention 模子,CoMeT 在处理 1M 长度的文本时,收尾了21 倍的推理加快和10 倍的峰值显存简约。这意味着,本来需要顶级算力才能凑合启动的任务,当今在鄙俚硬件上也能高效完成,为长文本哄骗的落地扫清了顽固。

△ CoMeT 在推理时辰和内存占用上展现出广博上风 3. 环节瞻念察:1+1>2,不同驰念各司其职
商酌团队的消融本质揭示了一个深远的瞻念察:全局驰念和临时驰念并非神圣重叠,而是各司其职,统筹兼顾。全局驰念是模子"看得远"的环节:只消依赖带门控的全局驰念,模子才能在远超磨练长度的文本中保抓驰念,收尾坚决的长度外推能力。临时驰念是模子"看得清"的保障:高保的确近期信息流是模子在处理复杂任务时,取得优异性能的基础。恰是这种精妙的协同瞎想,才栽培了 CoMeT 的不凡性能。

△ CoMeT 的临时驰念有助于普及磨练长度内的性能。

△ CoMeT 的全局驰念有助于长度外推总结
CoMeT 的职责为大模子长文本处理范围带来了里程碑式的突破。
它通过创新的"协同驰念"架构,优雅地处分了困扰业界已久的"驰念窘境",在恒定内存和线性时辰的约束下,收尾了 SOTA 级别的性能和惊东谈主的长度外推能力。这项商酌讲明,为 LLM 瞎想更相宜分解科学的驰念机制,是通往更坚决、更实用通用东谈主工智能的环节一步。
论文标题:
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
论文邻接:
https://arxiv.org/abs/2602.01766
名堂代码:
https://anonymous.4open.science/r/comet-B00B/
一键三连「点赞」「转发」「谨防心」
宽容在评述区留住你的思法!
— 完 —
咱们正在招聘又名眼疾手快、关切 AI 的学术裁剪实习生 � �
感敬爱的小伙伴宽容关切 � � 了解确定

� � 点亮星标 � �
科技前沿进展逐日见

备案号: