12GB实现128K上下文5会话,IBM预览Granite 4.0 Tiny模型

0次浏览     发布时间:2025-05-10 11:46:00    

IT之家 5 月 10 日消息,IBM 本月 2 日介绍了其 Granite 4.0 系列模型中的最小版本之一:Granite 4.0 Tiny 的预览版本。

Granite 4.0 Tiny Preview 的优势在于高计算效率和低内存需求:在 FP8 精度下,运行 5 个 128KB 上下文窗口的并发对话仅需 12GB 显存,一张建议零售价 329 美元(IT之家注:现汇率约合 2383 元人民币)的英伟达 GeForce RTX 3060 12GB 消费级显卡即可满足。

Granite 4.0 Tiny 计划的训练 Token 数至少为 15T,目前 Preview 预览版本仅训练了 2.5T,但已能提供与 12T 训练 Token 的 Granite 3.3 2B Instruct 相当的性能,同时在 128KB 上下文窗口 16 并发会话下内存需求降低了约 72%,预计最终性能可与 Granite 3.3 8B Instruct 相当。

Granite 4.0 Tiny Preview 的总参数规模为 7B,实际活动参数为 1B,其基于被 Granite 4.0 系列全线采用的混合 Mamba-2 / Transformer 架构,结合了两者的速度与精度,降低了内存消耗而不明显损失性能。

Granite 4.0 Tiny 的预览版本现已在 Hugging Face 上以标准 Apache 2.0 许可证提供,IBM 将于今年夏天正式推出 Granite 4.0 系列模型的 Tiny 和 Small、Medium 版本。

相关文章
  1. 李斌:蔚来充电站、换电站都是行业布局数量第一

    IT之家 7 月 27 日消息,蔚来创始人、董事长、CEO 李斌今日发文介绍了蔚来 9 纵 11 横 16 大城市群高速换电网络全线打通的第三条线路 ——G1 京哈高速。据介绍,G1 京哈高速打通于 2021 年 9 月 20 日,蔚来在全长 1229 公里的线路上铺设了 21 座换电站,串联北京、

    0 2025-07-27 11:55:00

  2. 腾讯云TencentOS提交Swap Table补丁系列 Linux内核内存交换性能提升20%~30%

    近日,腾讯云操作系统(TencentOS)内核团队提交了一组名为Swap Table的补丁系列,该系列在处理 4K 页面和 mTHP folios(多尺寸透明大页内存)的场景下,使系统在从基础顺序交换到重负载任务中的性能提升了约 20% 至 30%,获得了社区高度认可,并有望在未来被正式纳入 Lin

    0 2025-07-26 00:04:00

  3. 同沃汽车申请车辆加速度预测相关专利,降低数据质量的依赖

    金融界2025年7月17日消息,国家知识产权局信息显示,重庆同沃汽车科技有限公司申请一项名为“车辆加速度预测方法、装置、电子设备及存储介质”的专利,公开号CN120308136A,申请日期为2025年04月。专利摘要显示,本申请提供一种车辆加速度预测方法、装置、电子设备及存储介质。该方法包括:对车辆

    0 2025-07-17 13:23:00

  4. 华为让渡鸿蒙智行部分销售主导权?知情人士称华为仍主导

    IT之家 7 月 6 日消息,据新浪财经报道,有消息人士透露,华为正在调整汽车业务,鸿蒙智行旗下智界、尚界和享界正由合作车企筹备建设品牌专属销售网络,最新变化意味着将链路各环节分置安排,销售和售后不再完全由华为负责。对此,知情人士表示,鸿蒙智行筹备建设品牌专属销售网络,意在进一步拓展销售渠道,满足不

    0 2025-07-06 19:49:00

  5. 三星Galaxy Tab S11 Ultra平板跑分曝光:天玑9400+ 芯片

    IT之家 6 月 27 日消息,科技媒体 xpertpick 今天(6 月 27 日)发布博文,报道称三星 Galaxy Tab S11 Ultra 平板(型号 SM-X936B)现身 GeekBench 跑分库,6.4.0 版本单核成绩为 2675 分,多核成绩为 8039 分。基于此前曝光的 G

    0 2025-06-27 16:15:00