百度端到端语音语言大模型发布,成本宣称最高降90%

0次浏览     发布时间:2025-03-31 16:34:00    

IT之家 3 月 31 日消息,在今日的百度 AI DAY 上,百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。

当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求选择单一模型完成特定任务,提升响应速度与任务处理能力。

IT之家从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策。

此外,文小言新增“图个冷知识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。

百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”

相关文章
  1. 钉钉第三次转向

    “飞书多维表格比钉钉领先至少12个月。”今年7月,飞书CEO谢欣在接受媒体采访时说。已经很久没有一位掌门人如此点名道姓、简单直白地宣称自家产品领先竞争对手。他更是暗讽钉钉的AI功能:“如果你的办公工具主要不是在创作,而是在打卡,那一年的沉淀可能是1000万次的打卡数据,那大概率AI能帮你预测的是,明

    0 2025-07-21 10:35:00

  2. 同沃汽车申请车辆加速度预测相关专利,降低数据质量的依赖

    金融界2025年7月17日消息,国家知识产权局信息显示,重庆同沃汽车科技有限公司申请一项名为“车辆加速度预测方法、装置、电子设备及存储介质”的专利,公开号CN120308136A,申请日期为2025年04月。专利摘要显示,本申请提供一种车辆加速度预测方法、装置、电子设备及存储介质。该方法包括:对车辆

    0 2025-07-17 13:23:00

  3. 华为让渡鸿蒙智行部分销售主导权?知情人士称华为仍主导

    IT之家 7 月 6 日消息,据新浪财经报道,有消息人士透露,华为正在调整汽车业务,鸿蒙智行旗下智界、尚界和享界正由合作车企筹备建设品牌专属销售网络,最新变化意味着将链路各环节分置安排,销售和售后不再完全由华为负责。对此,知情人士表示,鸿蒙智行筹备建设品牌专属销售网络,意在进一步拓展销售渠道,满足不

    0 2025-07-06 19:49:00

  4. “特朗普关税”尚未推高美国物价,但时间不多了!一文看懂

    财联社7月1日讯(编辑 黄君芝)尽管今年早些时候人们担心特朗普总统的关税会导致新一轮的通货膨胀,但到目前为止,美国各地的商品和服务价格仍保持相对稳定。美联储青睐的通胀指标——PCE物价指数5月同比上涨2.3%,仅略高于美联储2%的通胀目标。5月份消费者价格指数(CPI)的年化增长率为2.4%,低于经

    0 2025-07-01 09:01:00

  5. 三星Galaxy Tab S11 Ultra平板跑分曝光:天玑9400+ 芯片

    IT之家 6 月 27 日消息,科技媒体 xpertpick 今天(6 月 27 日)发布博文,报道称三星 Galaxy Tab S11 Ultra 平板(型号 SM-X936B)现身 GeekBench 跑分库,6.4.0 版本单核成绩为 2675 分,多核成绩为 8039 分。基于此前曝光的 G

    0 2025-06-27 16:15:00