虚拟人的手艺宿世和AI此生

liukang20244天前吃瓜科普367

本文来自微信群众号:元天空之城(ID:gh_a702b8d21cdf),作者:城主,原文标题:《虚拟人的手艺宿世和AI此生: (虚拟人, 虚幻引擎和独立影视发明系列之一 )》,题图来自:作者

独特的虚拟人的手工前世和AI今生的图片

写在前面

这一次,咱们来个有点跨界的主题:分三篇评论一下虚拟人、虚幻引擎,以及两者将怎么影响独立影视发明。

三篇估量为:

一、虚拟人的手艺宿世和AI此生

二、虚幻Unreal怎么成了最适合做影视的3D引擎

三、虚拟人和虚幻引擎对独立影视发明的影响:或许的和不或许的

这儿的“独立”,指的是有驾驭才能的个人和独立作业室。

就像从前光辉一时的中小型核算机终究被微型个人核算机替代了干流商场位置,七两未必不能拨千斤。独立发明者,在新技能的加持下,是否有或许撬动现在的影视发明生态?

且就渐渐叙来。

作者比较喜爱先界说评论规划,这次也不破例:本篇评论的是什么虚拟人?

虚拟人是现在的抢手词汇,因而也成为了规范的箩筐概念:什么都能够往里面装,比方二次元主播,企业人工智能客服,元国际的NPC……都能够自称虚拟人。

而本系列实在重视的方针,是那些“相片级”超写实虚拟人。咱们等待这种以假乱真的虚拟人在某种程度替代真人艺人,在未来参加到影视发明中去。

虚拟人的几个年代

现在网上对虚拟人的开展前史有一个比较通用的四阶段区别,不知道是哪位大佬给界说的。咱们无妨遵从这个区别,先做一点简略的回忆。

第一阶段:八十年代 萌芽期 初代歌姬

让咱们从林明美初步:公认的初代虚拟歌姬,第一个虚拟偶像。

关于动漫迷而言,林明美有更让人了解的身份,那便是80年代日本经典动画片《超时空要塞》的女主角,她那首闻名的《可曾记住爱》,在浓缩动画剧集情节的84剧场版的完毕高潮时唱起。

《可曾记住爱》是在超时空要塞Macross向侵略的外星军团建议总攻的时分向整个战场唱起的。明美作为人类的头号歌姬,在人类文明面临着外星敌人毁灭性的冲击之时,唱出了这首歌,激发了一切人的斗志,更让部分外星戎行发生文明共识而起义,一举扭转了战局。男主角一条辉(也是前男友……)在明美的歌声中,驾驭变形战机终究闯入敌军内地,给予了外星大领袖丧命一击。

这首星际大战中6分钟的完好Live,烽火与歌声的交错,极致的绚丽和浪漫留下了动画史上永久无法逾越的经典一幕。能够说,明美一曲之后,动画片里再无虚拟歌姬,出道便是巅峰。

林明美是虚拟偶像的初步,动画公司以她的虚拟形象发行了唱片,虚拟人第一次进入了实践国际。而经过近40年的时刻,明美的形象仍家喻户晓。

从动画水准来看,当年巅峰之作的纯手绘动画现在已彻底被3D动画潮流所替代,但明美至今让人津津有味的原因和技能无关,朴实依据人物设定以及大气磅礴的故事布景所衬托出的“国际歌姬”符号。

所以用明美作为本系列的开端还挺适宜的:

林明美便是一个从影视中走出的虚拟偶像。能够这样说,明美给了咱们一个启示:成功的虚拟偶像,除了技能支撑,更重要的是,他/她有必要具有著作所赋予的魂灵。

第二阶段: 21世纪初 探究期 影视文娱的试水

时刻一下就跳到了2000年。

(从这个时刻跳跃上,咱们也能感觉到,初代歌姬林明美是多么牛的存在……)

在这个时期里,虚拟人总算摆脱了传统手绘的约束,第一代3D虚拟人偶像初步呈现, 比较有代表性的是2007年在日本呈现的初音未来。

在这个阶段,虚拟人偶像都是简略的二次元形象,也契合了其时3D的CG水平:杂乱的做欠好,做点简略的二次元形象正适宜。

风趣的是,初音未来其实是一款歌曲组成软件,其时的 CRYPTON FUTURE MEDIA 以雅马哈的 Vocaloid 系列语音组成程序为根底开发音源库,并以此制造出售了虚拟歌姬人物主唱系列,初音未来也由此走进群众视界。

而我国对标初音未来的虚拟歌姬洛天依则在2012年呈现。

值得一提的是,虚拟歌姬开展的要害,被实践证明是同人发明的UGC。

其时初音未来出售后,许多翻唱歌曲就被宣告在日本的论坛上;公司随后开放了二次发明权,鼓舞粉丝发明;加上其自身没有具体设定,日本UGC网站上呈现许多粉丝制造的美术人设/音频/视频内容,乃至还诞生了一些“大神”等级的同人发明者,极大丰满了初音的内容内在,更让初音未来扩展了粉丝圈层,并跟着粉丝发明的洗脑神曲多次出圈。

而我国的洛天依也走出了相似的路途, 阅历了几年PGC(专业内容发明)运营状况欠安后, 公司初步鼓舞UGC发明,许多同人著作呈现,洛天依这个虚拟偶像才实在站稳了脚跟。

这个时刻段里, 电影工业里一个闻名的虚拟人也呈现了, 这便是2001年电影《指环王》里的咕噜 (其实称之为虚拟怪物更恰当)

咕噜彻底由动作捕捉技能和CG技能发生, 史无前例的动作捕捉加3D CG形象的组成作用冷艳了国际。 现在依据动作捕捉的3D银幕形象很往常, 但当年咕噜能够说在电影作业轰动一时。

而到了2008年,神作《阿凡达》又达到了另一个高度:全程运用动作捕捉技能完结扮演,CG技能发明整个虚拟国际,此乃后话。

让咱们深究一下,为什么虚拟人的第一次开展是从2000年左右初步的?那个时刻点发生了什么作业呢?

在1999年,NVIDIA发布了它标志性的产品GeForce256,这个系列产品初步正式支撑3D图形运算里特别重要的T&L功用(坐标转化和光源)

要知道,3D图形的解算便是由各种杂乱的坐标转化和光源核算组成的。在GeForce256之前,一切的坐标处理和光源运算都靠CPU处理;而当图形芯片具有T&L功用后,CPU就彻底从深重的图形核算中解放出来。

从此,图形芯片能够实在被称为GPU,和CPU齐头并进了。

或许正由于个人核算机3D图形加快才能的日新月异,向群众遍及了3D图形加快的运用场景和才能, 带来了3D虚拟人的第一次开展。这个时期,商场规划还比较小,动捕、CG等要害技能还不行老练,也没有满意的资源支撑,能够说是文娱业关于虚拟人的试水阶段。

第三阶段:2016-2020 成长期 技能打破带来的运用遍及

2016年到2020年这几年一般被区别为虚拟人的第三个阶段。

这几年里有哪些虚拟人呈现呢?其实让人能记住的并不多。有必要提及的是,这个时刻里,诞生和开展了国际首位虚拟主播,即YouTube 上的“绊爱”。

2016年12月1日,YouTube频道“A.I.Channel”开设,“绊爱”成为国际上第一个自称虚拟主播的视频博主,从此确认了虚拟主播VTuber的概念,敞开了二次元风格的虚拟人年代。

出道 3 个月,“绊爱” YouTube 粉丝数就超越了 20 万;到了 2018 年 7 月 15 日,绊爱的主频道订阅人数打破 200 万人。到2022年,其YouTube主频道和游戏分频粉丝总数超 400 万。

不过,恰好在不久前的本年2月26日,“绊爱”在举行了线上演唱会“Hello World 2022”后,宣告进入“无限期休眠”。初代虚拟主播走完了完好的演艺生计周期。

和实在国际的明星比较,虚拟明星的兴衰背面也没有更多新鲜事。不外乎便是粉丝重视度的逝去,粉丝集体的分裂,公司的运营失误,如此这般。

虚拟偶像也走出了人格化的演艺圈路途。

而这几年间,技能上又发生了什么呢?

除了3D范畴的建模,烘托和动作捕捉技能日益老练;这几年仍是依据深度学习的人工智能技能爆发式添加的时期。

2016年3月,英国DeepMind公司依据深度学习的围棋程序ALphaGo以4:1打败顶尖的作业棋手李世石,成为了第一个打败作业九段的核算机围棋程序。作为标志性的作业,人工智能走进了群众的视界,引发了AI的全面炽热。

在这个阶段里, AI才能也初步运用在虚拟人身上,首要体现在AI语音的才能与虚拟人服务形象的结合,例如2018年搜狗和新华社推出的AI主持人,以及2019年浦发银行和百度合作开发的数字职工“小浦”等等。

第四阶段:2020至今 新时期 新的气候

近两年,“虚拟人”成了抢手论题。在当时语境下,咱们了解的“虚拟人”多数是指所谓“相片级”的超写实虚拟人。

或许有几方面原因让当时“虚拟人”的规范变得如此之高:

  • 软硬件的开展总算足以支撑这一终极水平;

  • 用户的口味更挑剔, 典型事例也进步了群众预期;

  • 本钱也需求虚拟人工业讲出新的故事。

归根到底,最重要的仍是用户等待有这种以假乱真的虚拟人体会。超写实的虚拟人物有更好的代入感,也能更好的接入实践国际的商业信息。

虚拟人这股热潮到了2021年愈加显着,互联网不同范畴的公司都在卖力开展虚拟人事务:

  • 2021年5月,AYAYI超写实数字人推出,现在小红书粉丝12.6w,抖音粉丝8.3w。

  • 2021年6月,B站宣告在曩昔一年里共有超越3.2万名虚拟主播在B站开播。虚拟主播成为B站直播范畴添加最快的品类。新生代虚拟主播愈加多样化且更接地气。

  • 2021年11月18日,NVIDIA推出全方位的虚拟化身渠道Omniverse Avatar,CEO黄仁勋现场演示了由这个渠道生成的能与人天然问答交流的“迷你玩具版黄仁勋”Toy-Me。

  • 2021年12月31日的跨年晚会,不谋而合地,多个干流卫视渠道都引入了虚拟人元素,其中最出彩的当属周深和虚拟人“邓丽君”同台演唱的《小城故事》。

    现代的虚拟人的手工前世和AI今生的插图

且不论各家节目终究作用怎么,多个虚拟偶像同一时刻登陆各家干流跨年晚会,这自身说明晰许多问题。

而要说现在国内最火的虚拟人偶像,当属柳夜熙。

2021年10月31日,抖音美妆虚拟主播柳夜熙,第一条视频发布即登上热搜,涨粉上百万;截止到现在,抖音粉丝数量打破了900万,且仍在显着添加中。

如此凶狠的粉丝添加着实让人眼红,另一方面,一片大好的局势下,柳夜熙有个小小的危险,那便是她的视频发布频率比较低。这是由超写实虚拟人的视频制造门槛和周期决议的。

柳夜熙背面的团队有一百多人,三分之二都是内容发明部分,这样强壮而专业的团队,每次3-4分钟的高素质视频内容,根本上一个月一条的速度。这差不多是当时极限水平了,超长的出产周期很简略让虚拟偶像失去流量宣扬节点。

试想一下,假如柳夜熙的视频产出速度进步十倍呢?

假如有一种技能能让团队每三天输出一条柳夜熙等级的短剧视频,影视作业或许就要被改写了。

虽然无法一夜之间做到这点,但核算机技能的开展正敏捷降低着虚拟人内容制造的门槛。这一天的到来或许比咱们幻想得更快。

接下来,咱们花点时刻,来回忆技能怎么推进虚拟人开展到了今日的水平。

虚拟人出产办法的演化

话接上一节,咱们先来看看当时虚拟人的出产本钱。

依据作业数据,当时打造一个Q版或许二次元形象的虚拟偶像,本钱在10万;

假如是美型偏写实的虚拟偶像,本钱就到了40万;

若想制造一个相似柳夜熙的超写实虚拟人,据称作业价格在百万;

而虚拟人动画的每分钟本钱,也对应的从几万一向到近百万。

这种本钱,不是独立内容发明所能承受的。这儿还有独立作业者的空间吗?假如每个人都能自在打造自己的超实在虚拟人,是多么酷的作业。

咱们无妨深化虚拟人的各个出产环节,来探究终究:

打造以假乱真的3D人像:3D雕琢刀、相机阵列和光场重建、捏脸游戏

  • 3D雕琢刀

把一个虚拟人的姿态给打造出来,行话叫做虚拟人的建模。

最传统的3D建模办法便是手艺打造。

和实践国际相似,运用3D国际的雕琢东西比方ZBrush软件,一点点精摹细琢而成。本质上这是核算机3D艺术家的创造。

事实上,游戏国际里各种充满着想像力和张力细节的怪物人物,都是在做了原画设定后,经过手艺办法渐渐打磨而成。

3D艺术家的巧夺天工,把只存在幻想中的人物绘声绘色的带到了用户观众面前。

  • 相机阵列扫描和动态光场重建

惋惜的是,只靠艺术家的双手,很难满意工业出产所需求的功率和量级;并且,人工打造高精度虚拟人模型,本钱十分昂扬。

为了遍及3D虚拟人的出产,一些聪明的人们持续探究更高效的模型产出办法。

最直接的思路便是3D扫描收集。

当时首要的3D扫描办法有两种:相机阵列扫描动态光场重建。

两个有点生疏的词汇,咱们逐个看过来。

首先是相机阵列扫描,这是什么技能呢?

在2021年3月,Epic在官网宣告收买了一家叫做Capturing Reality的公司。

这是一家“拍照制图技能”公司。他们家开发了一个有点奇特的软件Reality Capture:只需用户拿手机对着物体拍一圈,一切的相片输入软件核算,就能生成一个物体的3D模型。

这个拍照制图法是现在作业里用于人脸建模的最干流计划,用户能够只用一台相机完结质量还OK的模型扫描,也能够花力气组成一个相机光源阵列来完结高精度的拍照重建。

不难了解,这个办法是运用了不同图片之间的相同特征点来进行3D空间的重建。因而,相片的分辨率,相机内外部参数的操控,人脸光线的均匀程度等要素都会影响到终究的模型质量,需求一个相对抱负的拍照环境来进行拍照,国内就呈现了一些专门的扫描技能供给商,承接了不少影视事务。

这种办法虽然相对简略,但有着建模细节上的局限性。最显着的一点是,拍照制图法在重建虚拟人的皮肤细节时,会有一种无能为力的感觉。

假如咱们把镜头怼到虚拟人脸上,扁平的人物皮肤就会马上露出马脚了。

假如虚拟人仅仅做做带货直播,或在游戏里互动也算了;若希望打造出影视等级的超写实虚拟人,脸部大特写是有必要的,皮肤实在感这一点不管怎么绕不曩昔。

那能否在拍照制图法重建的3D模型之上,依托艺术家的双手在模型上重实践在的皮肤细节呢?答案是否定的,虽然3D艺术家有着高明的技艺,但实在皮肤有如一座顶峰拦在面前,难以逾越。

为什么实在质感的皮肤难以手艺打造?

这是由于,人的皮肤在细节上有着特别杂乱的体现。和那些滑溜溜的虚拟人脸部皮肤彻底不同,人类实在皮肤具有着适当的杂乱性:

当日光进入人体后,不同波长的光会有不同的吸收,对应着不同的散射间隔和衰减速度;此外,进入皮肤的光线还遭到皮肤表层透光度,毛孔和皱纹结构乃至是皮下组织结构的影响。

因而,靠着艺术家的手艺一向无法复原出皮肤的相片级实在感,纯手艺打造具有毛孔结构纤细改动的皮肤太难了。

这个难题一向到了2008年才有了起色,技能宅发明晰一种黑科技,能对面部皮肤进行高精度三维重建,在精确的脸部几许模型之上,再精确生成外表的皱纹和每个毛孔的结构细节(慨叹一下, 太牛了……),一起还用物理学公式描绘了不同波长光线在皮下组织的衰减,终究才得到了“相片级”实在的皮肤质感。

这便是影视作业里大名鼎鼎的LightStage,或许是这个星球上最牛的人脸扫描技能,也是光场动态重建技能在工业界最有代表性的体系完结。

LightStage是由美国南加州大学ICT Graphic Lab的保罗·德贝维奇(Paul Debevec)所领导开发的三维收集重建渠道体系。第一代体系于2000年诞生,从诞生的第一天就遭到了广泛的重视,到现在现已开展到了LightStage6,最新一代体系被命名为 LightStageX。

LightStage所选用的光场扫描的技能出了好些尖端图形学论文。对一般读者来说,只需求了解一点:LightStage光场扫描经过收集人脸各种视点的明暗清楚的光照数据(如上所示), 终究核算复原出超高精度的人脸外表信息。

这种技能能很好的重建人脸上每个毛孔的结构。经过LightStage扫描重建的美国前总统奥巴马人脸,上面的毛孔细节清晰可见,着实让人惊叹。

风趣的是,拍照制图法和大杀器LightStage都选用相似的球形相机阵列来拍照取得人脸不同视点的信息。但显着的区别是:前者用柔软均匀的灯火拍照,要防止高光和明暗不均匀;而后者则特别拍照明暗清楚的人脸。两种体系的用光理念南辕北辙。

因而,调查阵列拍照时的用光办法,读者能够一眼辨别出相机阵列背面所选用的是拍照制图技能,仍是动态光场重建技能。

当LightStage2成型之后,索尼影业旗下Imageworks的视觉作用主管Scott Stokdyk在Light Stage团队的合作下,用这个技能为电影《蜘蛛侠2》制造了艺人阿尔弗雷德·莫利纳(“欧克医师”Doc Ock)和托比·马奎尔(“蜘蛛侠”)的虚拟替身。这项技能在近40个镜头中运用,协助这部电影取得了2004年奥斯卡最佳视觉作用成就奖。

LightStage2在更多的电影制造中被运用,包含了2005年的电影《金刚》,以及2006年的电影《超人归来》,后者用LightStage2扫描制造了一个虚拟数字超人人物,在许多动作动作镜头里都有运用,这个虚拟数字超人协助这部电影赢得了奥斯卡最佳视觉作用提名。

《超人归来》

而到了老练的LightStage5,则被广泛用于好莱坞的各种大片,许多都是耳熟能详的,比方《本杰明巴顿奇事》《蜘蛛侠3》《阿凡达》……

严厉上来说,LightStage这个大杀器的中心技能光度立体法并不丈量几许结构,仍是要靠相似拍照制图的办法来获取人像的精确3D模型,然后再用光度立体法对模型外表进行高精度细节的核算 - 这便是Light Stage能复原皮肤毛孔结构细节的原因。也正因而,LightStage扫描技能能够得到许多好莱坞大片的喜爱。

不过,虽然LightStage是个有揭露论文的老练体系,其最中心的模型外表高精度细节核算并没有揭露的解决计划,许多算法细节无从知晓,导致国内长期以来一向没有这种等级的扫描技能呈现。

由于中心算法的缺失,国内市面上大部分球形扫描体系运用的依然是上面说到的拍照制图办法,选用球阵仅仅为了操控光照均匀以及相机标定等,这样的体系在最要害的皮肤细节精度上无法和LightStage对抗。

(听说跟着Reality Capture软件的晋级,拍照制图法现在牵强能挨近毛孔等级的细节,也算一种经济适用的重建办法。)

最近国内已有几家企业研讨完结相似Light Stage的体系,希望国内提前用上Light Stage等级的三维人脸重建。

除了Light Stage之外,还有另一种动态光场重建概念,这种所谓“光场成像”的思路更简略粗犷:不论物体模型和外表原料,直接从各个视点收集三维物体在各种条件下的光线反射信息,然后在烘托时对收集的光线进行重组输出,就能够让人看见“实在”的三维国际。

咱们是否留意到了,所谓打造“实在感国际”的尖端办法,终究都返璞归真:

把一切的信息都尽或许收集一遍,重组核算后输出。

不管是三维重建,仍是后边各种依据大数据交融的虚拟人驱动办法,其中心思路无不如此:从实践中来,回到实践中去。

  • 大数据加持的捏脸游戏

花了一些篇幅介绍了这个星球上最牛逼的三维重建技能,但定论却有点无法:这样的人脸扫描重建本钱和门槛都过高了,独立影视发明不必盼望这种核弹等级的体系。

但不要紧,咱们还有大数据和人工智能。

这儿的主意也很简略,虽然没有巨大上的体系直接扫描真人,但假如能够运用现成的扫描数据,再结合相似游戏捏脸的交互体系,是否能面向一般用户供给相片级超写实虚拟人的生成服务?

真有人这么做了,这便是Unreal虚幻的MetaHuman Creator。

(是的,又是虚幻)

MetaHuman Creator交互界面

值得一提的,MetaHuman Creator是一个云端烘托服务,用户经过网页衔接和进行交互操作,一切的数据运算和生成都是云服务烘托;而云端后台运用的,便是Unreal虚幻引擎自身。

MetaHuman初看上去似乎是一个很简略的体系,颇有点游戏创立人物捏人脸的感觉。

经典的虚拟人的手工前世和AI今生的照片

但简略的背面,其实是多门核算机学科最新技能的结晶:

超大规划的4D人类面部扫描,依据机器学习的数据处理和交融,实时3D引擎支撑,云烘托服务……许多核算机科学家和工程师的才智打造出了一个一般人能够上手发明的超写实虚拟人生成体系。

(注: 暂时没更多材料发表,但从数据成果来看,MetaHuman 4D扫描数据应该相似LightStage的光场扫描重建)

事实上,现在MetaHuman依据大数据的模型交融只完结了人脸部分——当然这也是最难的部分;而身体部分,仅供给了传统的根本款式挑选. 原因很简略,尚没有全身模型的扫描大数据支撑。

虽然如此,MetaHuman Creator完结了面向一般顾客的超写实虚拟人生成服务(竟然仍是免费的, 线上生成的虚拟人能够直接数据导出运用), 这现已是一个很了不得的作业。

毫不夸大的说,MetaHuman Creator在虚拟人制造上完结了技能打破,极大简化了超写实虚拟人的发明进程,某种程度上,让虚拟人制造实在飞入了寻常百姓家。

假如持续替用户考虑,一般人怎么规划一个英俊/美丽的虚拟人呢,或许对着明星相片捏脸是一种办法。

但明星脸这种作业,往往触及肖像版权;而在影视制造中,版权是个重要问题。

有办法能够自行生成一个美丽人脸吗?

在人脸发明这个小细节上,大数据加持的人工智能又一次展现了它的巨大威力。经过深度学习技能,咱们现已能够生成各种风格倾向的人脸。以下是作者依据揭露的深度学习模型随机生成的一些东方明星人脸和欧美一般人脸。

以上都是纯核算机生成的人脸图片, 但混在真人相片里, 肯定真伪难分

假如哪天,MetaHuman Creator添加一个上传人脸相片主动学习和匹配捏脸的功用,那就真的是“一键喜提虚拟人”了。

趁便提一下,前面说到过的虚拟人AYAYI,正是由MetaHuman Creator打造的。

到这儿,打造虚拟人模型的故事就差不多了。

在打造了3D虚拟人模型后,其实紧接着还有一项很有应战的作业——把人物模型各个部位正确地绑定到之后用以驱动动作和表情的操控器上。这就比方把皮肤和底下的肌肉和骨骼正确衔接在一起,这样静态的模型才有或许被驱动起来。

在这点上,相似MetaHuman这样的捏脸体系略微好一点,究竟是经过同一个原始模型衍生而来,内部的驱动机制能够一致做好;而关于直接相机阵列扫描得来的超写实模型,绑定是一个很深重的作业;这个范畴现在也有了大数据和AI技能的加持,不再赘叙。

让虚拟人动起来: 要害帧动画、动作捕捉、AI驱动

  • 要害帧动画

在很长一段时刻里,咱们驱动一个3D模型,不管虚拟人仍是虚拟怪物,让模型动起来的办法便是要害帧动画。

要害帧动画是简略了解的概念,有点相似黏土定格动画,把黏土人偶摆出一个动作拍一帧,持续摆拍完结后再以24帧每秒的速度播映,就得到了连接的黏土动画。很显着,打造这样的动画需求惊人的耐性。

要害帧动画和黏土动画的机制很像,读者能够了解为把实践的黏土人偶换成了软件里的3D模型,制造者在时刻轴上摆出模型的一个个动作(要害帧),软件完结动作间的过渡,然后打造了一个3D人物的要害帧动画。

人们想了许多办法去进步要害帧动画的功率,但本质上,要害帧动画仍是由3D动画师一帧帧手艺抠出来的。

  • 动作捕捉

和3D建模相同,从出产功率,输出质量和人力本钱等各方面而言,纯手艺的要害帧动画办法都无法被工业化大规划出产流程所承受。自《指环王》的咕噜初步,动作捕捉技能走进了群众的视界。

望文生义,“动作捕捉”便是直接捕捉收集扮演者的动作,然后去匹配驱动虚拟人模型。这是现在虚拟人动作生成的首要办法。

动作捕捉这个作业,有一个风趣的道路区别,有点相似主动驾驭轿车感知体系道路之争:

主动驾驭的中心是要经过传感器感知周围环境,有两种办法:纯视觉摄像头和激光雷达。哪种道路更好,视觉派和雷达派至今还PK得不亦乐乎。

动作捕捉,也分为两大派系,光学动作捕捉和惯性动作捕捉。

光学动作捕捉是在一个拍照棚四周架上一圈摄像头,360度无死角对着扮演者拍照;扮演者身上符号取许多反射红外光的符号点(marker),经过多摄像头对反光点的同步追寻,核算机核算得出艺人动作。

惯性动作捕捉呢,则是在人体特定骨骼节点上绑上惯性丈量元件(加快度计+陀螺仪+磁力计等等),经过对传感器丈量数值进行核算,然后完结动作捕捉。

光学动作捕捉是当时电影工业的首要出产办法,由于精确度满意高。

但问题是:虽然作用很好,但光学动捕关于群众化遍及没什么含义。一般人很难具有这种贵重的光学动捕拍照棚,场所和设备的需求注定了这是一个相对高深典雅的技能。

惯性动捕的本钱则低得多。现在,小几万人民币的本钱,能够具有一个包含动捕手套在内的全身惯性动捕设备,这价格对网红大V不是问题,一般发明者咬咬牙也买得起。

和相对低价的价格比较,更重要的是,惯性动捕设备对场所巨细没有要求。

现在一些高端的虚拟主播运用惯性动捕设备做直播已不是什么稀罕事了。

不过惯性动捕有个小问题,跟着接连运用时刻的添加,丈量元件会发生累计差错,因而运用一段时刻后需求从头校准。此外,虽然已比较友爱,惯性动捕仍不是特别便利,比方运用时需求全身绑上丈量单元,还需求防止环境中有磁场的影响……

想偷闲的技能宅不会彻底满意。

必定有读者在想,咱们的个人电脑上都有摄像头,假如不必架一屋子摄像头,而只依托一或两个摄像头,就像人的双眼相同,就能精确辨认动作,完结动作捕捉该多好啊。

这个主意其实许多人都有,而实在的践行者,正是大名鼎鼎的微软,产品便是在XBOX上推出的光学和深度摄像头结合的Kinect。

在Kinect设备的规划化出产以及相应算法处理上,微软投入了巨大的人力和财力。但很惋惜,经过了两代XBOX的实践之后,Kinect终究被抛弃。数据显现,Kinect的累计销量超越了 3500 万台。所以Kinect不能说是一款失利的产品,至少它在前中期对扩展XBOX品牌的影响力是有劳绩的。但终究Kinect壮志未酬,对微软的许多同学来说, 都是有惋惜的。

Kinect黯然离场后,它的中心技能仍持续发光发热。作为Kinect开始的技能供给商(后期微软已自行做了改进)PrimeSense在Kinect上市三年之后,于2013年被苹果公司以3.6亿美元的价格收买。所以,现在的苹果手机内置深度摄像头,且FaceID在原理上和Kinect有相同点,就家常便饭了。

主机游戏文娱体系作业里,当年也有着Sony PS VR手柄体感和XBOX的Kinect体感之争,即惯性和视觉道路之争。在这个范畴里,终究视觉道路失利了。

除了用户交互体会的问题,Kinect在技能上也受限于当年的硬件功能,究竟仅仅一个家用文娱体系的隶属设备,Kinect的摄像头分辨率,XBOX上的算力约束和内存约束都限制了其对人体动作辨认的精度。

虽然Kinect班师未捷,但依据单摄像头的视觉动捕运用仍在持续开展。关于个人用户,运用单摄像头完结动作捕捉是一个十分实践的需求。

在今日,依据单摄像头的人脸和半身动作捕捉,现已是一些二次元虚拟直播软件和短视频APP的标配了。但公私分明,这些视觉动捕的运用,现在仅仅玩具,文娱一下OK,尚无法满意工业出产的精度要求。

为什么说是玩具呢,举个简略的比方:市面上仍没有任何一款商业化的视觉动捕软件能很好的捕捉双手十指的动作(假如现已呈现了,请读者不惜纠正)。做不到捕捉肢体动作的细节,视觉动捕东西就无法进入出产范畴。

不过让人振奋的是,大数据、深度学习和核算机视觉的进一步结合供给了许多或许性。据闻在一些大厂的研讨机构里,已能看到依据手势动作大数据库+深度学习视觉辨认的办法,来取得十分精准的单摄像头手势辨认成果。

达观估量,在未来一两年内,咱们或许就能用上工业精度的单摄像头视觉辨认产品了。

关于独立影视制造而言,需求便是简略易用精度OK的真人动捕,光学动捕过于奢华。现在首选的办法是惯性动捕设备,价格能够承受, 作用也能够承受。

而作者所等待的抱负办法,将是惯性动捕+单摄像头视觉辨认的结合。

这种软硬结合的体系一方面在本钱上能够承当;另一方面,两个独立捕捉体系能够相互参照和校对。以完结更精准的动作捕捉。

AI驱动

动作捕捉的技能越来越完善, 但懒人的境地是无止境的:

能不能连捕捉这一步都省了, 用人工智能来驱动虚拟人的动作?

这一步也有了一些实践,如百度的AI手语主播,便是一个典型的AI驱动动作的虚拟人。

AI驱动的虚拟人关于本系列重视的影视发明有着十分实践的含义:

有了AI驱动的虚拟人,未来的影视扮演中,跑龙套的虚拟副角能够经过AI来驱动。

导演只需求要点重视虚拟主角的扮演。扮演者经过动捕技能把导演所希望表达的肢体动作(当然还有表情和言语)传递到虚拟人人物身上;而打酱油的AI虚拟人群演,只需经过预置指令组织稳当,更进一步乃至只需求凭借天然语义了解技能直接解析剧本的意图,就能合作主角虚拟人的扮演进行互动。

听起来有那么一点点科幻,不过这儿所描绘的每个环节并没有特别难啃的硬骨头。

在这儿,应战者提出的质疑,或许并不在于语义指令怎么让虚拟人AI了解,从而转为扮演的输出——辅以交互式的调教这是必定能够做到的。咱们并没有希望AI虚拟人实在懂得扮演,而只需求AI在承受了几个要害点的校对后,能和真人动捕的虚拟人进行互动就能够了。

实在的难度或许仍是在于,虚拟人的扮演是否满意天然,以骗过观众的眼睛?

现在咱们看到的虚拟人AI动作驱动,还处于一个比较初级的状况。不过作者达观地信任,和Metahuman的横空出世相似,只需辅以满意规划的人体动作数据库,完结以假乱真的AI驱动虚拟人动作,也便是迟早的作业。

终究

关于驱动虚拟人的论题,其实还有两个方面没有触及,一是虚拟人的语音才能,二是虚拟人的表情驱动。

关于前者,在当时相似GPT-3这种有千亿参数规划的大型言语模型的支撑下,虚拟人依据AI的文本交流做到真假难辨是几乎没有难度的。而依据谈天文本到天然语音的生成,也现已有很好的解决计划了。

在其他一些运用场合里,比方打造互动元国际时,一个能够自主对话的AI体系是比较重要的;而回到咱们的影视发明主题,一个虚拟人是否能自主谈天反而没那么要害。更重要的是虚拟人能够依据剧本做出契合预期的扮演(朗诵心情、面部表情、肢体言语等等)

考虑到最根本的完结,虚拟人的台词和动作能够经过背面扮演者来表达,那么中心的问题就剩余一个:咱们怎么完结以假乱真的虚拟人表情呢?

这儿暂时卖个关子,关于人物表情这个影视扮演里重要的论题,留在后续第三篇里再回来评论。

元天空之城的虚拟人代表 Jasmine

在完毕这篇现已超支的长文之前,趁便和咱们介绍一下,作者自己亲手打造的MetaHuman虚拟人Jasmine。作为元天空之城在元国际里的代表,Jasmine在未来的内容里会有更多的时机和咱们碰头:)

本文来自微信群众号:元天空之城(ID:gh_a702b8d21cdf),作者:城主

本内容为作者独立观念,不代表虎嗅态度。未经答应不得转载,授权事宜请联络 [email protected]

正在改动与想要改动国际的人,都在 虎嗅APP

告发/反应

相关文章

欧盟对华电动车加征关税将沉重打击欧洲竞争力

当地时间10月31日,欧盟轮值主席国匈牙利外交与对外经济部部长西雅尔多表明,由冯德莱恩领导的欧盟委员会无视成员国和欧洲大型车企的定见,固执对我国电动轿车企业加征关税,再次沉重打击了欧洲大陆的竞赛力,不...

泰山景区接连两日稳居全国5A热门景区追景指数第一

记者 崔京良“五一假日追景指数”显现,5月2日,全国40个热门5A景区的 “追景指数”均值为8.05,比上一日下降1.23%。排名前3位的别离是泰山景色区、黄山景色区、西湖景色名胜区, “追景指数”分...

广东发布9月上半月“蚊子地图” 共有30个高密度监测点

中新网广州9月25日电 (记者 蔡敏婕)广东省疾病防备操控中心25日发布该省本年9月上半月登革热前言伊蚊监测危险提示,全省共监测到30个前言伊蚊高密度监测点地点镇街,其间广州市和深圳市最多,各有6个,...

感悟诗词之美 在滕王阁完结“常识变现”

通篇背诵千古名篇《滕王阁序》很不简单,全文超越700个字,并且是骈文体。背诵到“落霞与孤鹜齐飞,秋水共长天一色”,才到《滕王阁序》全体篇幅的一半。可是自2021年9月至2024年3月31日,参加背诵《...

145%:关税战涉及药品,全球药价承压

关税烽火仍是烧向了药品。当地时间2025年4月8日晚,美国总统特朗普宣告说话,称美国将对药品征收关税。值得注意的是,6天前美国发布“对等关税”办法之时,药品还在美国加征关税的豁免名单之列,受影响的主要...

美“对等关税”的“豁免”清单包括消费电子

   格隆汇4月12日|据我国经营报,在美国对全球宣告“对等关税”后的第二天,特朗普政府在白宫官网发布了一份长达22页的产品豁免清单,其间有一条“美国成分≥20%”的豁免准则,亦即触及原产于任何国家的...

友情链接: