云智一体|智能视频之数字人技术
区别于传统的文字、语音等对话服务,数字人技术以更加拟人或还原真人的形式,提供更有温度的服务。智能视频云 3.0 的多模态技术,将虚拟数字人形象与语音合成、唇动生成等技术相结合,低成本制作形象丰富灵动、线上线下多端适配的数字人。并可通过智能对话引擎直达用户需求,更快速、直接的解决用户问题或辅助用户决策。领先的数字人技术需要解决四大挑战:
交互自然
百度智能云拥有业界首个基于 RNN 的工业级在线实时语音合成技术,让数字人的语音合成更拟人、更自然、更动听;同时融合了下巴、面部唇动合成技术,通过高精度的纹理合成,让语音驱动的唇动自然度更高。语音和唇动的匹配准确率可达 98.4%,几乎可达到完美的口型声音一致。
形象丰富
目前数字人的形象分为 2D 卡通、2D 真人影像、3D 卡通、3D 高精建模等 4 种。其中应用最广泛的是 3D 高精建模人像,一方面可高度还原真人,实现风格定制,另一方面可避免肖像权问题。其次广泛应用的是 2D 真人影像,制作成本相对比较低,但需要模特肖像授权,一般应用在替代真人的严肃场景。“3D 高精建模”分为重新构建和微调两种制作方式,模型构建需要大量真人原型数据采集,基础人像构建完成后则需要针对面部、皮肤、发型服装等元素进行材质贴图方面的调整。“2D真人影像”采集绿幕影像数据,通过唇部抠图、打点切分等数据处理步骤,完成模型的构建。
制作高效
百度智能云数字人技术可以基于 5 分钟的视频物料就能定制一套自有 IP 的真人形象。同时,还提供快速复制多 IP 真人形象的技术,将单张人像迁移到虚拟人,就能生成多个不同 IP 的真人形象。
环境普适
目前数字人的应用载体较为广泛,除了 PC 端和手持移动端设备以外,百度智能云还自研了智能云屏、智能云席等数字人载体。为更好模拟真人交互,云屏、云席都集成了用来检测人脸和唇动的定制摄像头及拾音麦克风,可更好的识别主说话人,解决“鸡尾酒会问题”。云屏高度 170 厘米左右,1:1还原真人大小,可批量在网点铺设。今年两会期间,百度智能云与央视网合作推出虚拟数字人小 C,策划了“两会 C+ 真探”的虚拟记者采访项目,一时受到市场广泛关注。