云智一体|智能视频之数字人技术

区别于传统的文字、语音等对话服务，数字人技术以更加拟人或还原真人的形式，提供更有温度的服务。智能视频云 3.0 的多模态技术，将虚拟数字人形象与语音合成、唇动生成等技术相结合，低成本制作形象丰富灵动、线上线下多端适配的数字人。并可通过智能对话引擎直达用户需求，更快速、直接的解决用户问题或辅助用户决策。领先的数字人技术需要解决四大挑战：

交互自然

百度智能云拥有业界首个基于 RNN 的工业级在线实时语音合成技术，让数字人的语音合成更拟人、更自然、更动听；同时融合了下巴、面部唇动合成技术，通过高精度的纹理合成，让语音驱动的唇动自然度更高。语音和唇动的匹配准确率可达 98.4%，几乎可达到完美的口型声音一致。

形象丰富

目前数字人的形象分为 2D 卡通、2D 真人影像、3D 卡通、3D 高精建模等 4 种。其中应用最广泛的是 3D 高精建模人像，一方面可高度还原真人，实现风格定制，另一方面可避免肖像权问题。其次广泛应用的是 2D 真人影像，制作成本相对比较低，但需要模特肖像授权，一般应用在替代真人的严肃场景。“3D 高精建模”分为重新构建和微调两种制作方式，模型构建需要大量真人原型数据采集，基础人像构建完成后则需要针对面部、皮肤、发型服装等元素进行材质贴图方面的调整。“2D真人影像”采集绿幕影像数据，通过唇部抠图、打点切分等数据处理步骤，完成模型的构建。

制作高效

百度智能云数字人技术可以基于 5 分钟的视频物料就能定制一套自有 IP 的真人形象。同时，还提供快速复制多 IP 真人形象的技术，将单张人像迁移到虚拟人，就能生成多个不同 IP 的真人形象。

环境普适

目前数字人的应用载体较为广泛，除了 PC 端和手持移动端设备以外，百度智能云还自研了智能云屏、智能云席等数字人载体。为更好模拟真人交互，云屏、云席都集成了用来检测人脸和唇动的定制摄像头及拾音麦克风，可更好的识别主说话人，解决“鸡尾酒会问题”。云屏高度 170 厘米左右，1:1还原真人大小，可批量在网点铺设。今年两会期间，百度智能云与央视网合作推出虚拟数字人小 C，策划了“两会 C+ 真探”的虚拟记者采访项目，一时受到市场广泛关注。