对话式AI即将迎来快速发展-XM官网门户

在生成式AI的对话潮流下，业界普遍认为多模态大模型是即将迎实现通用人工智能（AGI）的关键。知名投资机构a16z最近发布的快速XM官网关于语音AI的报告指出，随着大模型的发展不断进展，语音将成为对话式AI的对话重要切入点。

随着对话式人工智能技术的即将迎快速成熟，其应用场景也在迅速扩大。快速聊天机器人作为其中一个重要的发展应用，已在客户服务、对话教育、即将迎XM官网医疗及娱乐等多个领域得到广泛应用。快速

对话式AI即将迎来快速发展

那么，发展对话式AI的对话快速发展将首先体现在哪些领域和场景呢？近期，在声网对话式AI引擎发布会上，即将迎来自阿里云、快速腾讯云及声网的多位专家进行了讨论。

与会嘉宾认为，对话式AI可能率先在桌面助手、手机助手、智能硬件及陪伴机器人等场景中实现突破。腾讯云的产品架构师曹超表示，对话式AI的独特优势在于其能够传递情感和温度，随着模型的升级，情感表达将更加丰富。

“在应用场景方面，对话式AI并不适合视觉交互，因此目前其主要集中在语音和听觉交互场景。特别是一些老年人因视力问题常常依赖语音交互，这为对话式AI提供了新的机会和可能性。目前，对话式AI的硬件大多是基于手机设备。”阿里云的高级产品架构师辛晓剑补充道。

同时，她提到“教育领域的学习机是一个良好的应用场景，当前全国学习机的年出货量约为6000万台，且由于大模型的助力，客单价显著提升，从3000至4000元上涨至现在的8000元以上，这显示了对话式AI带来的溢价空间。”

目前市场中主要的对话式AI产品包括亚马逊Alexa+、汤姆猫AI情感陪伴机器人、苹果Siri及Manus等。声网最近发布了全球首个对话式AI引擎，凭借其650ms的超低延时响应、优雅打断和全模型适配等五大功能，使对话式AI引擎能够快速升级任何文本大模型为“能说会道”的对话式多模态模型。

声网AI RTE产品线负责人姚光华表示，“在与客户的多次交流和实地调研后发现，用户与AI之间的每次对话平均包含约三轮问答，平均对话时长约为21.1秒，每次成本仅为3分钱。如果每月进行15次对话，月成本不超过5毛钱，年成本也仅为5元。”

通过声网的对话式AI引擎，开发者可以迅速部署智能助手、虚拟陪伴、口语练习、智能客服及智能硬件等场景。例如，智能助手可以通过自然语言交互帮助人们管理日程、查询信息和执行任务。

关于大模型向多模态交互的转变，多位嘉宾认为，多模态模型的架构和训练方法变化不大，提升主要依赖于数据的质量和数量。实现多模态交互的关键在于将不同模态的信息转化为统一语境，目前的自动语音识别（ASR）技术对此有帮助。然而，提升模型推理速度及解决多角色记忆和角色区分等技术问题仍是需要克服的挑战。

此外，嘉宾普遍认为DeepSeek的火爆是行业的利好，它吸引了更多人关注人工智能。开源对技术发展至关重要，无疑促进了技术交流与创新的活力，让更多人参与到人工智能的探索中。DeepSeek在模型训练过程中减少对海量数据的依赖，通过强化学习实现迭代升级，也降低了算力需求，使得人工智能更具普及可能性。

Minimax的高级总监冯雯指出，DeepSeek的流行对整个平台的从业者都是一大利好，使得AI技术更深入人心。“开源将大大推动技术的普及，因DeepSeek的开源，我们最近发布的技术报告也在积极展示最新成果。”

本文转载自财联社，XM外汇官网编辑：陈雯芳。