你的位置:尊龙凯龙时(中国)官方网站 登录入口 > 资讯 > 尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

时间:2025-11-06 07:39 点击:75 次

尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

智东西尊龙凯时(中国)官方网站

作家 | 云鹏

剪辑 | 李水青

智东西11月5日音信,刚刚,华为精良开源了UCM(Unified Cache Manager)推理驰念数据处置,这是一项针对AI推理加快的要津技艺。

▲GitCode边幅页面

本年8月12日,华为精良发布了UCM技艺,发布会上华为公布,经无数测锻真金不怕火证,UCM可将首Token时延最高裁减90%,系统隐晦最大进步22倍,已毕10倍级高下文窗口延长,AI推感性能显贵进步。

▲8月12日UCM技艺发布,图源:智东西

时隔近3个月,这一技艺精良开源,比发布会上瞻望的9月稍晚。现在UCM在ModelEngine社区通达了基础框架和器具链,建造者不错在社区得到UCM源代码和技艺文档。

▲Github边幅页面

GitCode开源地址:

https://gitcode.com/ModelEngine/unified-cache-management

Github开源地址:

https://github.com/ModelEngine-Group/unified-cache-management

总体来看,UCM所以KV Cache和驰念处置为中心的推理加快套件,不错提供全场景系列化推理加快决策,通过推理框架、算力、存储三层协同,优化Tokens在各业务模范中流转的效果,破解长序列推理效果低、本钱高的鬈曲,以已毕AI推理的更优体验、更低本钱。其主要工作对象是企业用户。

Agentic AI期间,AI推理的KV Cache容量增长已超出HBM的承载才气。通过一系列算法,UCM可凭证驰念热度在HBM、DRAM、SSD等存储介质中自动分级缓存,进步通盘系统的效果,一定进度上裁减对HBM的需求。

UCM会通了多类型缓存加快算法器具,可分级处置在推理过程中产生的KV Cache驰念数据。

UCM架构包含多个协同责任的要津功能模块,具体如下:

·UCM稀少化模块 (UcmSparseBase):兼容多种稀少算法的和谐基类,负责稀少KV Cache Block的卸载、加载与计较,已毕“零感知”插拔式稀少化。在不影响合座推理历程的前提下,大要机动适配不同稀少算法以进步推理效果。

·稀少化KV处置器 (SparseKVManager):面向算法级定制的KV Cache Block分派总控器,各稀少算法以多态子类样式将自要素配逻辑注入框架,已毕不同稀少算法计策与推理引擎解耦,清闲各别化推理场景需求。

·KV Cache存储组件 (UcmKVStoreBase):负责提供与外部存储通讯的通用接口。该组件提拔稀少算法与存储后端解耦,可无缝对接浪漫存储系统,同期提拔前缀缓存,为数据存储提供了机动千般的聘请。

·UCM相接器(UC Connector):桥接KV Cache存储组件与推理引擎,保险数据在不同组件之间的高效传输,已毕高可靠的前缀缓存才气。

▲UCM家具架构

图中统统灰色框代表vLLM 0.9.2版块中的现存类,绿色框则代表UCM新增组件。浅绿色框展示了基于此框架异日陆续延长的子类。

基于以上架构,UCM现在具备四个要津才气:稀少留意力、前缀缓存、预填充卸载、异构PD解耦。

作念UCM的动机是什么?

凭证GitCode官方信息,现时跟着模子尺寸的不休增长,KV缓存也变得越来越大,且越来越稀少,关于长序列苦求来说尤为显著。为了减小GPU显存的使用,主流的标的是将全量的KV数据卸载到外部存储中,而在GPU显存中只保留部分或者被压缩的KV数据。这同期不错减小GPU的运算量,在解码时加多最大生成序列长度和批大小。

有很多种不同的稀少KV缓存的已毕。最新的论文指出,大要最佳地适配统统场景和统统模子的措施是不存在的。因此,更好的作念法是搭建一套全球的框架,并在此之上接入不同的稀少化算法,就像KV相接器和PC相通。

凭证GitCode官方信息,UCM的中枢旨趣是合手久化LLM的KVCache,并通过多种检索机制替代冗余计较。UCM提拔前缀缓存(prefix cache,PC),同期提供了多种无需教练的稀少留意力检索措施,在处理极长序列推理任务时达到更高性能;此外,UCM基于存算永诀架构提供了PD永诀决策,使得异构计较资源的处置更肤浅机动。

结语:交接性能挑战,缓解资源瓶颈,UCM开源或加快AI推理落地

跟着角落和端侧AI的快速发展,AI推理需求快速增长,在Agentic AI期间,AI推理任务愈发复杂,对算力、内存侦察效果等方面齐建议了更多挑战。

UCM的开源尊龙凯时(中国)官方网站,不错进一步缓解AI推理复杂任务产生的资源瓶颈和性能挑战,给行业提供新的技艺旅途,加快优秀商用AI推理决策的落地。

最新内容
尊龙凯龙时官网内塔尼亚胡的狡辩团队为推迟其作证-尊龙凯龙时(中国)官方网站 登录入口
据《以色列时报》当地时辰4月12日报谈,以色各国度检验官办公室已罗致总理内塔尼亚胡的请求尊龙凯龙时官网,取消其本周在古老案审判中的出庭作证。 内塔尼亚胡暴虐的推迟下周作证的恳求,则将另行审议。此前,内塔尼亚胡的狡辩团队为推迟其作证,抛出的情理是“深重的安全和酬酢原因”。 由于2月28日爆发的好意思以伊战事,内塔尼亚胡古老案一度被暂停审理。好意思国总统特朗普日前通知停战两周后,关系体式于4月12日收复。 内塔尼亚胡 费力图。 内塔尼亚胡社媒 2020年头,以色列检方以纳贿、诓骗和掌握公众信任3项
尊龙凯时(中国)官方网站在2026年2月文书与好意思国国防部达成协作后-尊龙凯龙时(中国)官方网站 登录入口
当地时间本周五凌晨,好意思国旧金山发生全部针对OpenAI的贯穿安全事件——CEO萨姆奥特曼(Sam Altman)的私东说念主住宅遭东说念主投掷烽火弹,不到一小时后尊龙凯时(中国)官方网站,OpenAI总部大楼外又出现公开阻扰。嫌疑东说念主在第二现场被警方就地制伏。 奥特曼住宅凌晨被投烽火弹 据旧金山警方退换记载,事件最初发生在北海滩(North Beach)隔壁一处住宅。凌晨4时12分,警方接到火谍报警,又名身份不解男人向该住宅大门投掷烽火弹,导致门外发火。嫌疑东说念主随后徒步逃离现场。警
尊龙凯龙时官网第139届广交会展览总面积155万日常米-尊龙凯龙时(中国)官方网站 登录入口
掀开新闻客户端 提高3倍指令度 央视网音信:商务部4月10日举行第139届广交会专题新闻发布会。有关细致东说念主先容,第139届广交会将于4月15日至5月5日在广州分三期举办,展览总面积、展位总和、参展企业数均超历届水平。 据先容,第139届广交会展览总面积155万日常米,展位总和7.57万个,参展企业超3.2万家。其中,约3900家企业初度亮相。现在各项计划责任确认凯旋,已基本准备就绪。 商务部对外买卖司司长王志华先容,本届广交会展品专区增至179个,初度增设智能穿着、表示工夫、销耗级无东说
服务热线
官方网站:www.ljiuxin.net
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:21836779316
邮箱:190a1b00@outlook.com
地址:资讯科技园5980号
关注公众号

Powered by 尊龙凯龙时(中国)官方网站 登录入口 RSS地图 HTML地图


尊龙凯龙时(中国)官方网站 登录入口-尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

回到顶部