• 国漫丨聚力维度:要让每个人都能成为虚拟演员剧组的导演

  • 发布日期:2019-10-21 09:38   来源:未知   阅读:

  继三次技术更新工业革命后(蒸汽、电力、计算机与信息),以“人工智能”为基础的第四次工业革命即将到来。而第四次工业革命是指以新一代人工智能技术和先进制造技术的深度融合形成的新一代智能制造技术的突破和广泛应用。

  目前,很多行业正在从第二次、第三次工业革命往第四次去跃迁,但是影视行业与动画行业却一直都是停留在手工时代。

  “据我所知影视行业与动画行业的流水线实际上是人工流水线,虽然每一个细节的分工很精确很工业,但是并没有达到其他产业自动化生产的程度。”聚力维度CTO赵天奇对骨朵国漫(ID:guduoguoman)说。

  目前,手机工业制造、汽车工业制造的很多环节都由机械臂自动流水线完成的,而影视行业从拍摄到后期几乎都是由人工完成的。“可能对于很多人工智能公司来说,影视行业不是一个大行业,或者,整个影视产业的总市值,并没有没有达到一些人工智能公司的期望值吧。”赵天奇对“影视行业与动画行业目前的技术仍需要大量劳动力”并且很少有人工智能公司试图解决这个问题的原因分析道。

  从2009年开始研究计算机视觉与2D转3D等技术开始,到2012年靠着自主研发的2d转3d软件平台和智能补图算法打败日本制作公司中标电影《郑和魔海寻踪》项目的3D制作权。这一切似乎在冥冥之中为赵天奇和他的团队作指引。

  直到2014年,赵天奇团队开始对全流程人工智能2d转3d做深入研究。从传统的人力+部分智能算法到全面人工智能化,这个大胆的尝试既让赵天奇与其他竞争对手相比有了明确的优势,同时也给他和他的团队带来了诸多“困境”。

  “一开始,我是按照人工制作3D内容的流程开发算法,发现这件事情极其复杂。因为人工制作流程是对象分割、立体绘制、背景补图、渲染合成。这么做的原因是因为人手笨,而机器是“脑子笨”而不是“手笨”,不需要走这些流程。”在此思路下,赵天奇逐渐研究出2D转3D人工智能技术的核心逻辑。

  从认知影像的空间关系,再到分级生成视差图像,最后检查处理后的效果并修改完善。便是实现人工2D转3D的关键所在。终于在2015年年底,赵天奇和他的十二维度团队就通过对“多级认知、时空融合、对抗认知”等核心算法的探索,研发出达到生产级别的模型“峥嵘一号”。

  直到2016年上半年,赵天奇带着十二维度整个团队成立了聚力维度与科幻成真实验室,此时的十二维度团队已经有6年经验,而赵天奇也更明确了“深耕计算机视觉和人工智能,死磕人工智能影视制作技术”的目标。

  百度百科上,将“结构重建”和“重现原始线D场景”两种技术解释为2D转3D技术。

  而聚力维度研发出“峥嵘平台”则是通过深度学习算法,来解决2D视频转3D的问题。

  深度学习是机器学习研究中的一个新的领域,深度学习是拥有“很深的”层次的神经网络,能够通过大数据学习表示,例如图像,声音和文本。

  目前,“峥嵘平台”能实现把2D院线D院线电影,几乎无需人力,转制周期极短,而且擅于处理各类镜头画面。

  “人工智能2D转3D技术是影视后期的人工智能化,我们在完成了这项技术之后,希望从前期到后期全面实现人工智能影视创作,所以计算机生成画面--Computer Graphics也就是CG动画方式是实现这个目标的最佳选择。”赵天奇说道。

  “为什么动画制作这件事不能变的特别快呢?”聚力维度团队认真的分析了这个问题。

  很多动画团队积极采用面捕和动捕来制作,但很难在保证效果的前提下真正降低成本。

  “我们看视频作品主要是看人,所以动画的成本主要是人的动作成本,其中人脸又是关键中的关键,而传统面捕技术,虽然精度较高,但需要在演员脸上画点,使用特殊的摄像头,每换一个新演员都要专门定制,并且整个方案造价高昂。所以这些面捕技术在产业中并没有起到颠覆性的提速作用。比如一些使用面捕技术的动画公司,因为捕捉过程需要先在脸上贴上标记点,这个过程需要半个小时以上的时间,所以他们都是把要捕捉的镜头积累起来,然后专门集中完成捕捉环节。包括修改重捕也是,如果哪些镜头需要重新捕捉或者哪些镜头不够完美,都要攒着统一修改。这与行业习惯的:出现问题立刻修改,要很多次修改才能完成镜头的传统制作流程冲突很大,从业者很难适应。而且每次换一个新演员都需要专业人员长达1个月时间的定制工作才能开始捕捉,这就导致演员门槛高,且一旦演员离职就会造成非常大的损失。再加上动辄几十万的价格,最终的结果就是这些使用了面捕技术的公司,实际成本并没有降低,速度也没怎么提升。”

  还有一些简单的面捕技术,不需要上面传统面捕需要的特殊摄像头,贴点,也可以随意换人,造价也很低,但是精度非常差,情绪和口型都无法捕捉到位,完全不能应用在影视制作上,只能简单玩一下。

  “目前我们的技术能够做到只用普通摄像头,不需要在演员脸上画点,为什么科隆敢卖莫德斯特?,并且任何人不需要定制就可以实现影视级高质量的面部捕捉。

  一些互联网平台表示,聚力维度是目前唯一一个能提供这样只需普通摄像头,任何人直接可以使用的UGC场景下,还能实现PGC高精度面捕效果的公司。

  “我们没有采用常用的人脸特征点路线,因为特征点描述不了抿嘴,噘嘴,用力挤眼睛等诸多复杂表情,精度难以提高。我们拥有同时作为一家影视制作公司在影视产业积累和专门团队制作的海量数据,通过这些数据训练的深度学习模型,针对表情进行了细致地分类;对俯仰、摇摆大角度,以及诸如遮挡、光照变化、透视等复杂场景实现了全覆盖;并结合人脸生物进化多样化和人脸解剖学对人脸进行了高精度重建;对模型进行分块、分级、多任务迭代训练,使得模型能完成任意人的表情和姿态到虚拟角色的精准平滑捕捉。”聚力维度科幻成真实验室的团队回答道。

  “除了人工智能面部捕捉外,完成一个动画片还需要降低边际成本的环节还有肢体动作和配音,这就需要智能生成,智能动捕,智能声捕。这就是人工智能虚拟影帝系统。”

  “即使解决了动作捕捉,但是在现实中不可能搭建每一个虚拟场景,比如室外的山坡、台阶、拱桥等或不同室内有不同的桌椅或床。所以就需要捕捉出来的动作能适用于任意场景。”赵天奇告诉骨朵国漫,他说目前这些都可以通过人工智能自动生成。

  聚力维度的虚拟影帝系统中还有个非常有趣的人工智能声音捕捉技术,可以将一个人声音中的音色替换为另外一个指定人的音色,同时保持音调、情绪、内容等成分不变。主要解决影视剧、声漫等配音问题,可以实现一人为多个角色配音,降低制作成本;也可以将现有声音内容转换为用户熟悉的声音,如孩子对妈妈的声音很熟悉,可以实现“妈妈讲故事”等用户定制化内容形式。

  实际上,“人工智能虚拟影帝系统”不仅能够颠覆动画行业,将动画制作效率提升100余倍。而且因为不再需要特殊设备和演员适配,UGC也可以实现PGC的质量,所以还可以应用于虚拟偶像、形象代言、在线教育、虚拟主持人、VR/AR、广播剧、声漫等领域。

  目前,已经有互联网教育平台、视频内容平台向聚力维度抛出了橄榄枝。“很多在线教育面向的是年龄偏低的小朋友,选择卡通角色可以提升孩子兴趣,帮助孩子们更好的学习;而且平台希望打造自有IP的虚拟明星老师。这时候,我们的人工智能虚拟影帝系统就能够帮助他们解决这些问题。”

  聚力维度科幻成真实验室对未来的愿望就是让世界早一点享受到科幻般的文化创作生态。

  未来将会出现一个全新的职业:视频作家。每个人都可以轻松做电影,观众想看什么就看什么,想做什么就做什么,一些现实中最近发生的热点事件,也将可以快速以影视的形式呈现在我们面前,一部电影可以有一千种不同的结局,也可以将观众像玩游戏一样参与到影视的情节中,与角色进行互动,还可以定制化电影,给自家的孩子定制他喜欢看的动画片。