1.1 产品简介
AI 虚拟人智能交互机是面向金融、文旅、政企、商场等领域提供 AI 虚拟
人用于与用户完成“面对面”互动交流、业务咨询、智能问答、服务导览和商品导购等交
互的软硬件一体产品。产品可以提升客户服务效率、创新服务体验、降低服务综合成本。
1.2 产品功能
虚拟人可以通过智能交互机“视觉”、“听觉”、“触觉”的多模态感知,再加上语音识
别、图像处理、自然语言理解等核心技术,实现虚拟人与真人“面对面”进行实时互动交
流。(1) 多种唤醒方式
系统支持人脸唤醒、语音唤醒、触屏唤醒。人脸唤醒通过多模态摄像头感知到完整的人
脸时进行主动唤醒;语音唤醒通过对相应的人物形象设置唤醒词,线性六麦识别到语音对应
的唤醒词时进入交互状态;触屏唤醒通过用户点击未唤醒时的交互机屏幕进行唤醒。
(2) 流式语义识别
系统支持对用户说的内容实时流式语义识别并将识别到的内容流式显示在界面上,识别
完成后会自动对识别内容进行纠错。
(3) 手势动作识别
系统支持设置挥手、点赞、鼓励、比心、切换等手势动作,多模态摄像头识别到对应动
作后可以触发虚拟人互动。
(4) 触屏互动能力
系统支持对交互机屏幕进行点击、滑动等,可以实现对虚拟人多形象的切换、推荐词的
交互、虚拟人回答内容翻阅、用户感受的反馈等。
(5) 敏捷交互能力
系统支持通过多模态、全双工、自然交互实现多模态虚拟人实时交互,支持实时对话交
流并回复,支持交互过程中随时打断,还原与真人对话的实时多轮交互体验。
(6) 复杂场景感知
系统支持人脸识别、口唇识别、视线识别、语音识别等多模感知,可以在复杂场景和
用户依然正常交流。
疫情场景:当交互人带口罩丢失口唇信息时会默认为疫情场景,会正常对交互的
音频进行识别处理;
多人场景:当有多人同时出现,会确定主交互人,并根据主交互人唇形、声音、视线同时判断进行语音增强识别,对非主交互人的声音降噪处理;
高噪场景:面对商场、展会、大型活动等存在大型音响设备、各类人声干扰等高
噪情况下,会将交互人声音增强识别,复杂环境声音降噪处理。
1.2.2 多维表达
虚拟人可以通过形象、声音、动作、表情、文字、图片、视频以及天气、地图、代码
块等相关技能,再加上语音合成、口唇驱动、动作驱动以及虚拟人合成等核心技术,实现
虚拟人与用户进行多维度全方面的交流表达。
(1) 多类角色形象
虚拟人物支持 2D 真人、2D 合成人、3D 卡通、3D 美型、3D 写实等多样化形象满足
客户不同的场景需求,并根据场景支持多类角色形象包括虚拟主播、虚拟客服、虚拟数字
员工、虚拟老师、虚拟医生、虚拟政务咨询、虚拟志愿者、虚拟导游、虚拟导购、虚拟偶
像等等。
(2) 多样人物声音
虚拟人物支持选择女声、男声的选择,支持新闻播报、广告促销、影视解说、教育培训、
客服彩铃等多领域的选择,支持自然流畅、亲切温和、成熟知性、大气浑厚、诙谐幽默等多
种风格的选择。
(3) 多种语言交流
系统通过语音关键词或触屏点击切换虚拟人语言,支持中文、英语、日语、韩语等多
语种的识别与合成,也支持东北话、四川话、粤语等多种方言的互动交流。
(4) 丰富动作呈现
不同的虚拟人物都有自己丰富的动作库,系统支持对虚拟人的动作设置不同的呈现方式,包括专业知识库内容的固定话术动作、根据回答内容语义的自动动作匹配、和用户交互时无
指向性动作、未唤醒时自然过度动作等多种方式呈现。
(5) 百类交互技能
系统支持通过 AIUI 平台配置天气查询、地图导航、附近酒店搜索、火车班次、航班信
息、讲笑话、讲故事、成语接龙、数学计算、股票查询以及图文展示等上百类常用交互技能
配置。
1.2.3 自由定义
虚拟人智能交互机支持虚拟人形象、服装、声音定制,支持专业知识库定制、支持系
统界面样式自定义、支持展现形式自定义等。
(1) 虚拟人定制
系统支持对虚拟人的形象进行定制,包括 2D 真人、2D 合成人、3D 卡通、3D 美型、
3D 写实等,也支持对声音进行定制。
(2) 知识库定制
系统支持根据客户业务领域,进行业务知识问答库的定制,并通过 AIUI 平台设置智能
对话,满足客户不同场景的业务咨询、服务导览;同时支持配置多个场景的专业知识库,通
过不同的触发关键词进行互动场景的切换。
(3) 界面自定义
支持虚拟人大小、位置自定义;
支持背景图片自定义;
支持唤醒词自定义;
支持页面引导文本自定义;