自去年10月小鹏p7发布智能语音对话系统以来,经过9个月的磨练,该系统有了新的提高。 至今为止的很多功能已经可以用一句话和“你好,小p”对话了,这次重新升级的副本是什么? 答案是对ai的理解。
ai迅速发展到今天,逐渐进入普通生活,从家庭到车载,从个人佩戴到公共娱乐,ai通过语音交互给人的感觉最直接,就这种“感觉”,小鹏汽车正在寻找最接近人类的可能性。
声音最真实的是用耳朵听,小鹏在包括p7在内的8种车中加入了人类的声音,进行了系统盲测试,根据与人类的相似度、音质的清晰度、喜欢该声音的程度进行了评分。 最终小鹏p7平均获得7.48分,排名第一。 令人意外的是,人类语音广播的声音竟然以5.87分排在第三位。 通过这次测试,人类的声音被安装在汽车系统上,不一定是最舒适的声音。
有什么人性吗?
小鹏P7 XM artos2.6. 1版上线的智能语音交互系统,添加新的ai声音是首要拷贝。 小p的新声音与普通车载语音助手的声音存在代际差异,这难以用语言来描述,但有几个指标表明了小p新声音的变化。
更真实——结合“新一代超大规模在线神经网络引擎+小型离线交换引擎”的技术,让新ai的声音更细腻自然,更真实,更能表达更多情感 新语音的mos语音质量评价得分为4.49,是目前微软mos得分最高的车载语音助手。 语音质量评价指标mos(meanopinionscore )是国际公认的语音质量评价方法,可以评价机器的声音在多大程度上与实际人声相似,满分为5分,说明分数越高越完美和舒适。 此外,全新的ai音响拥有助手、聊天、客服、愉快、温和、亲切、抒情、信息、严肃、不满、愤怒、恐惧、悲伤、冷静等14种强烈感情的转换能力,在今后的版本中是其应用场景
更生动——p先生的新ai音效使用24k采样技术,现有音效为16k,各种场景下的音效反馈经过仔细调整,新旧音效有明显的音质差异。 通过hifi级的高清音质和高质量的声音组合,为客户带来沉浸式的交互体验。
终极——通过小鹏汽车自研的云融合多级缓存技术,车辆可以预测当前的互联网状况,智能选择在线神经互联网引擎或离线引擎进行语音合成,在弱网或无互联网的环境下 另外,通过智能预测算法、智能拼接等一系列创新的落地处理方案,可以实现97%的超高在线率。
只听你的话
与普通的车载语音助手不同,p先生可以连续对话,无需重复唤醒,每25秒最多可达到10个指令。 另外,听的时候,自己过滤无效的句子,不是对它说的命令,它不会执行。 这还可以区分主副驾驶的不同指令,一个人叫醒p先生后,p先生只和那个人进行语音对话,可以进一步防止干扰音。
小鹏汽车表示,车载语音系统的深度探索,最终目标是实现整车功能的全语音控制。 由此,在真正的无人驾驶到来之前,用智能的声音实现智能客舱的功能,例如在客户难以用手操作时,帮助客户完成导航设定、音乐检索、空键的调整等功能 无人驾驶真正到来后,智能客舱越来越体现娱乐、办公、休息等属性。 此时,车载智能语音成为人车交互操作最重要的交互方法,承担着越来越多的车辆控制和新闻娱乐功能,实现整车功能的全语音控制。
目前,小鹏的全语音车载系统也处于ngp自动导航辅助驾驶状态,支持基于语音控制的车辆自动变道。 驾驶员可以唤醒小p“请向左变道”、“请超越前面的车”,通过控制车辆向左变道、向右变道的语音控制实现变道功能。 该功能是业界首款基于语音控制的驾驶辅助功能。
自研新cp
小鹏汽车ai产品专家郝超表示,这套车载语音系统的“耳朵”和“喉咙”可以通过市场上成熟的通用技术提供,但“大脑”一定是小鹏自研出来的。 例如,语义识别和语义理解,即该语言属于什么行业,表达的文案是什么,如何应对……简单来说,如何将声音带入车内,为车主服务,是小鹏研发的根本。
从技术角度来说,语音合成的方法有很多种,主流的方法有单元拼接; 合成器; 基于深度神经网络合成。 虽然不同的技术有不同的优点,但新一代技术比上一代更自动化,运算能力更高,声音更逼真。 小p的新声音组合了“新一代超大规模在线神经网络引擎+小型离线交换引擎”的技术。
前两种方法会产生机械嗡嗡声、跳音等强烈的不平衡感,客户可以明显感觉到它与人类不同。 基于第三种深度神经网络技术合成声音是近年来取得突破的新技术。 这个模型经过大量的数据和计算力打磨后,可以输出无限逼近真人的声音。 小鹏说这是一次更有预见性、更冒险的技术尝试。
如何理解这个技术的组合,需要确定“在线”和“离线”的概念。 这里请参考游戏场景。 离线可以理解为“卡”之类的不需要互联网的本地小游戏。 网络游戏像“王者”、“吃鸡”一样,是需要大量计算的网络游戏。 与之相反,在线技术以生成更高质量的声音为目标,离线技术是一种驾驶战略。
目前,通过“在线技术”生成声音的业务在智能扬声器行业最为重要,但在汽车行业却寥寥无几。 由于扬声器的网络稳定性很高,所以行驶场景中的网络很弱,经常没有网络。 不处理无法上网的弱音问题的话,体验会变得非常差。 因此,小鹏汽车为了让顾客在车内大部分时间都能听到在线技术生成的声音,研究了处理互联网问题的创新落地处理方案,目前正在向国家申报专利。
小鹏表示,处理计划包括“智能在线融合”。 汽车方面使用多战略融合模型,由互联网、汽车负荷、广播业务的场景战略综合决定。 端云聚合多级缓存—所有拷贝都使用多级缓存策略,从而提高响应速度。 智能拼接:使用动态在线切换策略,无论卡位于何处,无论卡位于何处,都可以在“网络薄弱”或“没有网络”的状态下接收完整的在线语音 “智能预加载算法”: p先生越来越聪明,能够提高个性化拷贝广播的响应速度,对客户经常使用的指令做出反应。 “智能抢跑”:优先广播“ngp”、“导航”等重要文案,高优紧急文案不放过顾客,为顾客提供更顺畅的语音体验。
由此可见,深度神经网络技术在车载行业的运用,需要处理许多前所未有的工程课题,使科学技术挖掘带来的价值最大化。
车云的总结[/s2/]
小鹏汽车正在将自己转型为科技企业,何小鹏表示,成立时的想法是想让智能车大众化、普及化。
全语音车载系统为智能座舱提供了基础可靠的智能体验,目前小鹏已经开始了连续对话、语音控制辅助驾驶功能。 在更多科技企业进入汽车市场的同时,小鹏也在不断积累自研技术的实力,深化全链路的管理。
标题:“不是人声胜过人声 小鹏P7为何执着于声音改变?”
地址:http://www.0317jhgd.com//dfqcxw/13791.html