2021年4月13日,由爱因斯坦汽车、慕尼黑上海电子展共同主办的“2021中国汽车人机交互hmi创新大会”隆重举行。 此次大会旨在吸引汽车hmi行业优秀人才、ux/ui设计师及前瞻规划研究者分享各方面汽车人机交互行业的创新理念、技术趋势、领域焦点、现实挑战和应用处理方案。 会议期间,竹间智能科技(上海)有限企业/汽车领域负责人瞿捷发表了“多模式情感的相互探索与实践”主题演讲。
以下是演讲的实录:
你好。 我们竹间智能是第一个建立iot方向的。 这里的很多人是新朋友。 首先给大家看短视频,让大家对我们有初步的了解。
我们是年在上海成立的ai企业,集中在ai行业。 ai赛道很大,我们聚焦于ai的nlp技术方向。 目前,企业350人左右,在北上深、成都、广州设有分公司。 大家做hmi一定不知道吧。 因为智能座舱中现在主流都在说智能语音对话,所以我们是智能语音对话的基础能力,而nlp本身就是比较基础的技术。 今天用比较浅显的语言说明我们在做什么事件。 我们把nlp分成两个大方向。 短文案nlp,长拷贝nlp。 我发现人与人之间的交流其实是这样的短文。 使用nlp技术,很多人降落在了机器交互的场景上。
你今天为什么来? 因为客舱里也有很多语音助手。 交互场景不仅负责智能终端,还负责iot的发展方向。 在我们的日常中,无论是给银行打电话,还是接到银行的电话,都会看到很多代替人手的机器人的工作。 另外,我们服务的华为、恒大、碧桂园这样的公司也引入了机器人工作人员的概念,用机器人代替人的场景,是短文案nlp中最落地的方向。 今天,我们专注于终端交互,智能终端交互。
长拷贝举个简单的例子,让大家容易理解。 例如,4s店有dms系统,那里记录着大量维修人员票的新闻。 那个可能会很长。 300字、500字,甚至可能更高。 我不知道这些服务器上记录了什么事项。 我想说,其质量部门通过nlp的长拷贝模型有助于他挖掘这些数据的价值,预测这些数据的标签,而目前这个项目有助于他实现标签预测的95%精度。 预测什么? 预测这个副本描述了什么。 记述的是发动机的故障,还是变速器的故障,发动机的故障是异常的声音,还是漏油等。
细心的朋友可能会关注竹间的APP inspired。 从我们的上司那里得到了灵感。 年前,在微软看了电影《her》。 电影讲述了主人公和虚拟助理恋爱的故事,讲不出话来。 从那时开始,我就有强烈的想法,认为人机交互这个场景没有情绪感情,没有温度就永远不能成功。 未来是情绪感情的落地方向。 因此,年毅然走出微软,围绕nlp方向,创立了名为竹间的企业。
另外,我们从2009年开始就在行业比较初期对情绪、感情的走向进行了比较探索和研究,所以今天我想分享两个文案。 一个是我们以前根据情绪感情做的。
首先,文案的感情可以看到很多。 模型能解决的有22个。 除了表达感情以外,文案中还有很多评价类的感情。 我说你跑得慢,这家酒店很漂亮。 今天物流很快,看起来自己没有什么特色的感情,但自己有评价的感情,有隐含的感情。 车里经常有。 例如,我对今天道路怎么堵塞感到烦躁和不满。
其实在初期,很多语言学家和心理学家都会找到制定了一点标准的规范,找到很多标准者进行书写决定,对这种感情的理解很普遍,会达到大家都同意的方向。 当然做了很多事件,但是现在积累的是有了标准的感情模型的输出。
除了基于标准的情感模型输出外,现在还放置在对话管理平台上,情感模块也已标准化。 这个发动机怎么用? 在我们的模块中是这样定义的。 我们定义了内置的感情模型。 这就是把已经训练好的情感模型放在对话管理平台上,如果顾客对情感没有特别的要求,可以直接跑我们的情感模型输出情感标签。 二是可以根据原有积累的算法和模型,自己给出一点情绪资料。 比如虽然说烦躁,但我们的22种里面没有。 明白可以通过情感引擎模块自己定义情感模型。 第三,在22种情感模型中已经有这样的情感,例如不满,但在这个场景中有几个语调,认为这些语调也不满意的情况下,根据现有的情感模型增加词汇,重叠新的模型
该界面是一个对话管理平台产品,包括各种话语模块、对话管理模块、任务引擎模块、机器人技能模块、意图引擎模块、情感引擎模块。 今天显示的是感情引擎模块的内部。 同事自己训练了感情模型。 这里面包含着中性的感情、愉快的感情、愤怒的感情。 因为这个场景是基金理财,“我今天基金怎么又下跌了? ”有这样的话。 但是,他在这个场景中将它定义为愤怒的情绪,希望在检测到这个语言之后,如何安抚他。
如果机器人检测到愤怒的情绪模型,他会进行安抚话术。 让我们先冷静一下,看看怎么处理这个问题。 其实还会诱发别的模块,“基金上涨是很正常的现象,所以建议再注意一会儿。” 这是拷贝运动模块落地的小应用场景。
虽然语音变得比较普遍,但大部分人都是以中性为中心说话。 例如,作为评价率的特征,有平均音高、末尾音的降低等。 我们找了声学工程师和心理学专家,还是做了标注规范,对数据做了一些标注。 另外,关于在解决声音时如何提高精度,使用了两种分类方法。 例如,高兴生气定义为比较兴奋的声音,中性和悲伤是相对较低的原因。 使用这两个分类工具来识别高兴/生气、中性/悲伤。 下面是声音情绪的应用场景,大家看看吧。
这个例子是我们在呼叫中心将声音情感商业化落地的场景,实际顾客采用。 语音情感质量检测比nlp拷贝质量检测有好处吗? 变得高效。 以前,我们和中国联通做过一个项目,通常可以录音四五分钟,两三秒钟就能得出感情特征值。
第三个是视觉感受,经常有顾客问你和四小龙有什么区别? 其实,我们初期的研究方向也只是人脸的感情,所以初期也进行了大量的标记,大约有1400万张人脸数据标记。 我们现在制造了包括东方人的脸在内的9种脸部感情,西方人的脸正在进行脸部感情的标记和模特训练。 现在,通过titna x maxwell gpu可以在约2毫秒内识别。
我认为这样的技术可以商业化,但是现在车上找不到更好的商业化落地场景。
我们以前去过教育领域,怠工做过教育领域的检测,对比学生的课堂行为状态分析,结合学生的专注力、眼睛的集中度、头脑的姿势等来评价课堂的情绪跟踪。 这样的例子,我们也交货了。 要点中也使用了基于视觉的技术。
单一模式情感识别中存在的偏差,例如,你讨厌的,可能是生气,也可能是撒娇。 你真是个天才。 可能是褒奖,也可能是讽刺。 嗯,是的 她真的不生气吗? 因此,我们使用两种方法进行多模态融合。 一种是将这三种模型做成融合模型,然后分别取出产品制作融合模型的方法。 这是一种输出多形态融合情感的方法。 二是比较简单,用三种模式的权重直接评价。 众所周知,声音的情感权重会高于视觉。 视觉的情感权比拷贝更重要,基本上遵循一个权重值。 让我们来看看这三种模式结合起来具体会变成什么样的感情输出。
上面是情绪这一积累的经验,希望今后有越来越多的机会和大家探讨一下。 在下两部电影中,我们将讨论对多模态人机交互的理解。 这部电影主要分为输入、解决和输出。 输入后,中途称为nlp解析进程。 竹间多年来一直在进行人机交互,我们将其分为两个层面。 第一级被称为对话中的控制管理,第一级处理是对大意图的识别。 包含情感、虚拟图像部分的输出解析需要我们所理解的多模态语音交互相关的所有链接创建事件。 这里涉及的链接很多,有视觉、声音、图像、nlp、3d渲染等技术。
这个小demo很简单,但通过上面我说的环节。 结合情感、中控评价、情感的中控,可以一个一个地触发不同的触发器和技能。 我刚才看到虚拟形象的动作和他的感情有关。 语音助手竹间做了相当多的落地。 我们现在觉得如果在车端或者其他终端有这样的事件的话就可以做了。 首先,智能语音需要长时间记忆、短期记忆。 语音理解必须提供个性化的应对措施,根据客户的应对措施实现千人千人。 另外,还要进行识别id的区别和积极的对话,满足车内智能语音助手的搜索行为的变化。 后三个是建设数据管理平台,想知道车端终端语音对话侵略怎么样,评价体系怎么样,对话评价体系怎么样。 另外,建立开发者生态,迅速引进开发者,将他的服务放到外面,开发者生态到他的平台上丰富语音技能。 可视化运营平台的能力,目前大部分是语音交互的场景在增加,还是tier1来了,tier1本身偏重它,语音本身是否具有网络属性和运营属性,最终返回主机工厂。
最后,这是对我们人机交互的理解。 首先能听懂。 现在大部分语音助手都能听懂。 至少我知道我在说什么,但是连续对话能力很弱,所以第一层必须正确理解客户的意图,实现连续对话、行业跳跃、上下文理解。 第二层是可以思考、可以听懂、并且可以通过客户的图像标签、多模态交互联动实现主动交互的场景。 第三层有温度。 当然,需要在这个过程中加入情绪情感技术,加入数字化人类、情感tts/声音复制,实现千人千人的落地APP。
竹间自己提供的是基础平台能力( nlp ),基于这个平台能力有应用平台,基于对话平台有bot factory平台,一个应用是语音助手。 虽然目前没有在智能客舱非常落地的例子,但是现在手机制造商、oppo、华为、小米、vivo等有语音对话的例子,如果有有趣的例子,可以在门外的展台和我们在一起
这是我想给大家看的复印件。 谢谢你。
标题:“2021HMI大会丨竹间智能瞿捷:多模态情感交互探索与实践”
地址:http://www.0317jhgd.com//dfqcxw/15862.html