你的位置:尊龙凯龙时(中国)官方网站 登录入口 > 资讯 > 尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

时间:2025-11-06 07:39 点击:75 次

尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

智东西尊龙凯时(中国)官方网站

作家 | 云鹏

剪辑 | 李水青

智东西11月5日音信,刚刚,华为精良开源了UCM(Unified Cache Manager)推理驰念数据处置,这是一项针对AI推理加快的要津技艺。

▲GitCode边幅页面

本年8月12日,华为精良发布了UCM技艺,发布会上华为公布,经无数测锻真金不怕火证,UCM可将首Token时延最高裁减90%,系统隐晦最大进步22倍,已毕10倍级高下文窗口延长,AI推感性能显贵进步。

▲8月12日UCM技艺发布,图源:智东西

时隔近3个月,这一技艺精良开源,比发布会上瞻望的9月稍晚。现在UCM在ModelEngine社区通达了基础框架和器具链,建造者不错在社区得到UCM源代码和技艺文档。

▲Github边幅页面

GitCode开源地址:

https://gitcode.com/ModelEngine/unified-cache-management

Github开源地址:

https://github.com/ModelEngine-Group/unified-cache-management

总体来看,UCM所以KV Cache和驰念处置为中心的推理加快套件,不错提供全场景系列化推理加快决策,通过推理框架、算力、存储三层协同,优化Tokens在各业务模范中流转的效果,破解长序列推理效果低、本钱高的鬈曲,以已毕AI推理的更优体验、更低本钱。其主要工作对象是企业用户。

Agentic AI期间,AI推理的KV Cache容量增长已超出HBM的承载才气。通过一系列算法,UCM可凭证驰念热度在HBM、DRAM、SSD等存储介质中自动分级缓存,进步通盘系统的效果,一定进度上裁减对HBM的需求。

UCM会通了多类型缓存加快算法器具,可分级处置在推理过程中产生的KV Cache驰念数据。

UCM架构包含多个协同责任的要津功能模块,具体如下:

·UCM稀少化模块 (UcmSparseBase):兼容多种稀少算法的和谐基类,负责稀少KV Cache Block的卸载、加载与计较,已毕“零感知”插拔式稀少化。在不影响合座推理历程的前提下,大要机动适配不同稀少算法以进步推理效果。

·稀少化KV处置器 (SparseKVManager):面向算法级定制的KV Cache Block分派总控器,各稀少算法以多态子类样式将自要素配逻辑注入框架,已毕不同稀少算法计策与推理引擎解耦,清闲各别化推理场景需求。

·KV Cache存储组件 (UcmKVStoreBase):负责提供与外部存储通讯的通用接口。该组件提拔稀少算法与存储后端解耦,可无缝对接浪漫存储系统,同期提拔前缀缓存,为数据存储提供了机动千般的聘请。

·UCM相接器(UC Connector):桥接KV Cache存储组件与推理引擎,保险数据在不同组件之间的高效传输,已毕高可靠的前缀缓存才气。

▲UCM家具架构

图中统统灰色框代表vLLM 0.9.2版块中的现存类,绿色框则代表UCM新增组件。浅绿色框展示了基于此框架异日陆续延长的子类。

基于以上架构,UCM现在具备四个要津才气:稀少留意力、前缀缓存、预填充卸载、异构PD解耦。

作念UCM的动机是什么?

凭证GitCode官方信息,现时跟着模子尺寸的不休增长,KV缓存也变得越来越大,且越来越稀少,关于长序列苦求来说尤为显著。为了减小GPU显存的使用,主流的标的是将全量的KV数据卸载到外部存储中,而在GPU显存中只保留部分或者被压缩的KV数据。这同期不错减小GPU的运算量,在解码时加多最大生成序列长度和批大小。

有很多种不同的稀少KV缓存的已毕。最新的论文指出,大要最佳地适配统统场景和统统模子的措施是不存在的。因此,更好的作念法是搭建一套全球的框架,并在此之上接入不同的稀少化算法,就像KV相接器和PC相通。

凭证GitCode官方信息,UCM的中枢旨趣是合手久化LLM的KVCache,并通过多种检索机制替代冗余计较。UCM提拔前缀缓存(prefix cache,PC),同期提供了多种无需教练的稀少留意力检索措施,在处理极长序列推理任务时达到更高性能;此外,UCM基于存算永诀架构提供了PD永诀决策,使得异构计较资源的处置更肤浅机动。

结语:交接性能挑战,缓解资源瓶颈,UCM开源或加快AI推理落地

跟着角落和端侧AI的快速发展,AI推理需求快速增长,在Agentic AI期间,AI推理任务愈发复杂,对算力、内存侦察效果等方面齐建议了更多挑战。

UCM的开源尊龙凯时(中国)官方网站,不错进一步缓解AI推理复杂任务产生的资源瓶颈和性能挑战,给行业提供新的技艺旅途,加快优秀商用AI推理决策的落地。

最新内容
凯时体育游戏app平台列国齐在猖獗升级武备-尊龙凯龙时(中国)官方网站 登录入口
最近,俄罗斯径直把苏-57E拉到了迪拜航展,还挑升在翱游视频里秀了一把主弹舱里的Kh-58UShK反辐射导弹。这波操作显明是冲着中东土豪们来的,毕竟目下所有这个词这个词中东乱成一锅粥,列国齐在猖獗升级武备。 要说苏-57这战机照实有点东西,天然卖得不如F-35和歼-20,但它有个独门绝技——目下人人独一能内置反辐射导弹的隐形战机。这然而个狠变装,专门用来打雷达的。念念象一下,一架隐形战机悄无声气摸到敌方阵脚,倏得辐射反辐射导弹把雷达站给端了,这仗还怎样打?印度那位退役中队长说得直白,这种智商让
尊龙凯时体育以过头对公司的恒久欢跃-尊龙凯龙时(中国)官方网站 登录入口
【大河财立方音问】11月24日,小米集团发布公告称,公司董事会获首创东谈主、实施董事、董事长、首席实施官兼控股鼓动雷军见告,其于11月24日自公开市集通过由其全资领有的Team Guide Limited购入合共260万股公司B类庸俗股,平均价为每股约38.58港元,合计超1亿港元。 在上述增握事项后,雷军握股比例增多至23.26%。小米集团示意,董事会觉得增握事项露馅雷军对公司的发展远景及增长后劲充满信心,以过头对公司的恒久欢跃。 本月小米集团已斥地两日回购公司股票,金额超8亿港元。本年以来
凯时体育游戏app平台以致走向纽约时期广场、走进巴黎奥运会等海外舞台-尊龙凯龙时(中国)官方网站 登录入口
11月23日上昼,一场以“沙画东谈主生”为主题的读者碰头会在湖南海外会展中心举行。红网时候新闻11月23日讯(记者 汪衡 照相 秦楼)11月23日上昼,一场以“沙画东谈主生”为主题的读者碰头会在湖南海外会展中心举行。中国沙画独创东谈主苏大宝携其新书《我是一粒沙》来到现场,与广泛读者濒临面共享他二十五年来从小城市走向宇宙舞台的追梦历程。本次活动动作2025中国文体盛典·湖南文体周暨第四届岳麓书会作者活动板块的弥留构成部分,招引了宽敞沙画嗜好者、文体读者前来参与。现场,苏大宝以沙画为媒凯时体育游戏
服务热线
官方网站:www.ljiuxin.net
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:21836779316
邮箱:190a1b00@outlook.com
地址:资讯科技园5980号
关注公众号

Powered by 尊龙凯龙时(中国)官方网站 登录入口 RSS地图 HTML地图


尊龙凯龙时(中国)官方网站 登录入口-尊龙凯时(中国)官方网站已毕10倍级高下文窗口延长-尊龙凯龙时(中国)官方网站 登录入口

回到顶部