火山语音:超写实数字人小灿进军职场,AI技术再创新可能
(原标题:火山语音:超写实数字人小灿进军职场,AI技术再创新可能)
ail=660x2147483647&quality=80&type=jpg" alt="" src="https://crawl.ws.126.net/nbot2/img/4c4a2453ba0056109617abcffca86ea4" style="max-width: 600px;" />
10月18日,火山语音首个超写实数字员工小灿正式亮相。在最新发布的品牌TVC中,小灿以虚拟产品经理的身份入职火山语音团队。初入职场的小灿就像普通新人一样,也会为自己能否顺利入职而纠结,更会在入职第一天整装待发,对美好的实习生活充满期待。TVC中,她阳光可爱,与同事们穿梭在日常职场中丝毫不显违和,会因开会而紧张,更希望被大家认可并看重自我成长,在短短的一分钟故事短片内,展示了虚拟数字人丰富的情感世界,直观近如眼前。
据了解,小灿由火山语音联合朝夕光年江南团队共同打造,其形象融合了艺术美感。无论从数字人的外形与动作出发,还是细致到面部微表情、皮肤肌理,甚至是发丝材质上都做到了高度逼真。伴随小灿的发布,火山语音团队已经具备3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容的制作能力。
从外在的制作能力深入到内在的数字人AI驱动角度,火山语音团队具备丰富且领先的技术储备,例如AI驱动口型方向,团队通过使用行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,准确率高达98.55%。
AI驱动动作层面,团队基于创新的Motion Blening技术,在动作切换时可生成过度帧,使得数字人在切换各类动作时不仅可以做到毫秒级切换,同时平滑效果自然无感知;除此之外还在AI表情口型联合建模,基于语音语义的动作生成即co speech技术上,都有具有前瞻性的预研工作并已取得阶段性成果,后续将全部应用于数字人视频创作、交互以及直播等场景。
值得一提的是,本次发布的超写实数字人还具备“一条音频秒级别音色复刻”技术(zero shot TTS),可以做到高保真还原真人音色、说话风格以及声学环境等特点,在核心技术架构全自研的基础上,关键指标均保持业界前沿。此外韵律模块基于自回归GPT类大模型,目前训练数据超过20万个小时,架构可扩展性很强,未来预计可支持100万小时以上数据训练;模块支持code-switch,即无论prompt为中文或者英文,都可支持直接输出中文、英文及混合内容。
如今火山语音团队已建立了包括2D、3D卡通和3D超写实在内的虚拟数字人产品矩阵,涵盖“播报型数字人”和“交互型数字人”两种类型,其中播报型数字人,即输入文本或语音,就可生成自然生动的数字人播报视频;交互数字人作为播报型数字人的形态升级,依托于火山语音长期积累的成熟语音交互技术,可以做到“善听”、“会说”、“能想”,与用户面对面实时交互。“交互数字人集成了全双工语音交互链路,前向兼容语音以及文本输入,后向兼容2D与3D数字人表现力,整体端到端交互延迟在500ms左右,性能效果超前。”团队总结道。
2022年6月,火山引擎虚拟人数字平台已获得信通院首批数字人系统基础能力认证。在“实时高逼真孪生数字人关键技术研发与应用示范”项目建设中,火山语音团队凭借业内优势的AI语音技术以及全栈语音产品解决方案能力,参与到该项目课题三“实时高保真孪生数字人通用开发平台”的建设中,并与江南游戏工作室合作,通过整合交互理解、智能对话管理、智能驱动三大模块,构建支持定制化并适用于多样场景的数字人智能“对话”系统,实现多模态交互对话。
一直以来,火山语音技术支持下的虚拟数字人专注播报、交互、直播三大核心领域,通过火山引擎面向金融、汽车、传媒等多个核心行业,提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,并可落地在内容生产、视频直播、车载环境等诸多场景中,为用户带来全新的互动服务和专业智能体验。