12GB实现128K上下文5会话,IBM预览Granite 4.0 Tiny模型

0次浏览     发布时间:2025-05-10 11:46:00    

IT之家 5 月 10 日消息,IBM 本月 2 日介绍了其 Granite 4.0 系列模型中的最小版本之一:Granite 4.0 Tiny 的预览版本。

Granite 4.0 Tiny Preview 的优势在于高计算效率和低内存需求:在 FP8 精度下,运行 5 个 128KB 上下文窗口的并发对话仅需 12GB 显存,一张建议零售价 329 美元(IT之家注:现汇率约合 2383 元人民币)的英伟达 GeForce RTX 3060 12GB 消费级显卡即可满足。

Granite 4.0 Tiny 计划的训练 Token 数至少为 15T,目前 Preview 预览版本仅训练了 2.5T,但已能提供与 12T 训练 Token 的 Granite 3.3 2B Instruct 相当的性能,同时在 128KB 上下文窗口 16 并发会话下内存需求降低了约 72%,预计最终性能可与 Granite 3.3 8B Instruct 相当。

Granite 4.0 Tiny Preview 的总参数规模为 7B,实际活动参数为 1B,其基于被 Granite 4.0 系列全线采用的混合 Mamba-2 / Transformer 架构,结合了两者的速度与精度,降低了内存消耗而不明显损失性能。

Granite 4.0 Tiny 的预览版本现已在 Hugging Face 上以标准 Apache 2.0 许可证提供,IBM 将于今年夏天正式推出 Granite 4.0 系列模型的 Tiny 和 Small、Medium 版本。

相关文章
  1. 12GB实现128K上下文5会话,IBM预览Granite 4.0 Tiny模型

    IT之家 5 月 10 日消息,IBM 本月 2 日介绍了其 Granite 4.0 系列模型中的最小版本之一:Granite 4.0 Tiny 的预览版本。Granite 4.0 Tiny Preview 的优势在于高计算效率和低内存需求:在 FP8 精度下,运行 5 个 128KB 上下文窗口的

    0 2025-05-10 11:46:00

  2. 京东宣布:这些人薪酬不设上限!

    5月8日,“京东招聘”微信公众号发布消息,宣布“京东TGT—顶尖青年技术天才计划”全球启动。薪酬不设上限据介绍,该计划面向全球高校本硕博在校生、应届生及毕业两年内的技术人才开放招募,旨在与全球技术天才一起,基于京东丰富的业务场景探索前沿技术、用技术创造更多美好。 在人才培养方面,京东表示将采取“技术

    0 2025-05-09 17:24:00

  3. 同比激增536.8%!AI原生APP用户规模2.7亿!AI搜索成热门赛道

    文|DataEye研究院昨日,QuestMobile发布了《2025中国移动互联网春季报告》,截至2025年3月,中国移动互联网月活跃用户规模达到12.59亿,同比增长2.2%;AI原生App活跃用户数达2.7亿,同比增长536.8%。DataEye研究院对报告内容进行筛选汇总,为大家带来AI相关

    0 2025-05-09 16:36:00

  4. 中国联通董事长陈忠岳最新演讲全文!

    中国联通董事长陈忠岳最新演讲全文!| 环球通信| @好5G |通信行业最具影响力自媒体4月29日,中国联通董事长陈忠岳出席第八届数字中国建设峰会开幕式及主论坛,并在主论坛上发表题为《深化数智融合创新服务数字中国建设》的主旨演讲。以下为速记主要内容: 作为数字中国的建设者,中国联通积极推进数智新基建、

    0 2025-05-08 14:40:00

  5. “一行一会一局”重磅发声,一揽子政策将带来什么?

    5月7日,国新办举行新闻发布会,介绍“一揽子金融政策支持稳市场稳预期”有关情况,并答记者问。特朗普推出的所谓“对等关税”已持续一个多月,全球经济不确定性增加,国际金融市场动荡,在如此关键节点下,这场发布会有什么看点?释放出哪些信号?先看发布会本身。中国人民银行行长潘功胜、国家金融监督管理总局局长李云

    0 2025-05-07 16:20:00