首页 / 作文 / 正文
DeepFake 新高度:一阶运动模型让“万物皆可动”
e55357 发表于:2020-6-9 22:54:48 复制链接 看图 发表新帖
阅读数:11424

下载APP可以快速和圈友联系

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
DeepFake 新高度:一阶活动模子让“万物皆可动”-1.jpg

作者 | 蒋宝尚

编辑 | 丛 末

DeepFake一方面被骂作“AI毒瘤”,另一方面在B站上大行其道。比来,这项技术又用在了在线视频会议身上。

一键换脸,设身处地与马斯克开会,商讨火箭上天大计的项目,也登上Github热榜。

DeepFake 新高度:一阶活动模子让“万物皆可动”-2.jpg

据称,这是一位来自俄罗斯的法式员开辟的开源“视频会议阿凡达”软件Avatarify,背后所用的技术基于名为First Order Motion的焦点模子,这个模子可以对视频中的工具停止动画处置,并天生视频序列。First Order Motion模子来自 NeurIPS 2019 论文《First Order Motion Model for Image Animation》,最初的目标是让“静态图片”动起来。以下图所示:“你动,它也动”。

DeepFake 新高度:一阶活动模子让“万物皆可动”-3.jpg

按照作者先容,这个模子可以轻易地让“权游”中的人物模仿特朗普停止讲话,还可以让静态的马跑起来,别的还可以完成模特的“一键换装”。

论文解读:一阶动画模子的来历与首要想法


DeepFake 新高度:一阶活动模子让“万物皆可动”-4.jpg

论文大都作者是来自意大利的特伦托大学,还有一位是 snap 公司的员工,论文已经颁发在NeurIPS 2019 上。

DeepFake 新高度:一阶活动模子让“万物皆可动”-5.jpg

First Order Motion模子运作流程

全部模子分为活动估量模块和图像天生模块两个首要组成部分。在活动估量模块中,该模子经过自监视进修将方针物体的表面和活动信息停止分手,并停止特征暗示。而在图像天生模块中,模子会对方针活动时代出现的遮挡停止建模,然后从给定的名流图片中提取表面信息,连系先前获得的特征暗示,停止视频分解。该模子对硬件要求比力高,想实现33帧/秒的视频结果,需要一张1080ti显卡,也即需要英伟达10系显卡中的卡皇加持。

模仔细节与方式


一阶动画模子的思惟是用一组自进修的关键点和部分仿射变更来建立复杂活动模子,目标是为领会决大方针姿势静态变化的情况下,传统模子天生质量较差的题目。

别的,作者引入了「遮挡感知天生器」,可以指示源图像中不偏见的物体部分,从而操纵高低文揣度这部份内容。再者为了改良部分仿射变更的估量,作者扩大了常用于关键点检测器练习的等差消耗。最初作者还公布了一个新的高分辨率数据集Thai-Chi-HD,用于评价图像动画和视频天生框架的参考基准。作者按照汽车驾驶视频中类似物体的活动情况,对源图像中描画的物体停止“动画化”。

没有间接监视,而是采用了一种自监视战略,该战略的灵感来历于Monkey-Net。

注:Monkey-Net是经过深度活动迁移使肆意物体动画化。

对于练习,作者利用包括不异工具种此外大量视频序列调集。模子被练习来经过组合单帧和进修的视频中活动的潜伏暗示来重建练习视频。观察从同一视频中提取的帧对,模子进修将活动编码为特定的关键点位移和部分仿射变更的组合。

在测试时,将模子利用于源图像和驱动视频的每一帧的帧对,并对源工具停止图像“动画”。活动估量模块的感化是估量一个麋集的活动场(dense motion field),该麋集活动场随后被用来调剂计较特征图与物体姿势。

别的,作者采用的是后向光流,由于它可以有用地实现双线采样。活动估量模块没有间接停止猜测,而是分两步停止,在第一步中,从稀疏轨迹集近似两个变更,其中两个变更是经过利用自监视方式进修关键点获得的。视频和图像中的关键点由编码器-解码器收集别离猜测。

别的,稀疏活动暗示很是合适于动画,由于在测试时,可以利用驱动视频中的关键点轨迹来移动源图像的关键点。利用部分仿射变更的益处是可以对每个关键点四周的活动停止建模,与仅利用关键点置换相比,部分仿射变更可以对更大的变更族( larger family of transformations)停止建模。

在第二步中,麋集活动收集连系部分近似以获得麋集活动场,除了麋集的活动场之外,该收集还输出遮挡遮罩,该遮挡遮罩指示视频中的哪些图像部分可以经过源图像的扭曲来重建,以及哪些部分应当内嵌(即从高低文揣度)。

尝试


作者在四个数据集上停止了练习和测试,成果显现与一切尝试相比,一阶动画模子可以衬着分辨率很是高的视频。 VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。

其中,VoxCeleb 是从YouTube的视频中提取到的包括1251人共跨越10万条语音的数据集。数据集是性别平衡的,其中男性为55%.。措辞人涵盖分歧的种族,口音,职业和年龄。UvA-Nemo 是一个由1240个视频组成的人脸分析数据集。作者利用1116个视频停止练习,124个视频停止评价。

伯克利的这个,包括了由Sawyer机械人手臂在桌子上推着分歧物体的视频收集的视频。它包括42880个练习视频和128个测试视频。每个视频都有30帧长,分辨率为256×256。作者自己收集的数据是YouTube上的285个关于太极功夫的视频,其中252个用于练习,28个用于测试。在练习之前对视频停止了预处置,朋分以后练习集为3049个练习视频,285个测试视频。

DeepFake 新高度:一阶活动模子让“万物皆可动”-6.jpg

太极功夫视频上的重建比力

DeepFake 新高度:一阶活动模子让“万物皆可动”-7.jpg

天下成果如上图消融研讨所示:对来自太极高清数据集的两个序列和两个源图像上的图像动画使命与当前SOTA比力。

与X2Face和Monkey-Ne相比力,作者的一阶动画模子改良了四个分歧数据集合的每一个目标,即使在VoxCeleb和Nemo这两小我脸数据集上,作者的方式也明显优于X2Face。

在作者的博客上,还做了换脸的尝试,以下所示:

DeepFake 新高度:一阶活动模子让“万物皆可动”-8.jpg

雷锋网)(雷锋网)(雷锋网)


上一篇:人世四月天,青岛市南“樱花限制”上线
下一篇:听读柳宗元《小石潭记》有感
温馨提示:
下载好向圈客户端可以随时随地交流学习经验,也可以和圈友发起聊天成为好友
好向圈www.kuaixunai.com是一个专业经验分享交流平台,请提供优质的经验内容分享,拒绝任何广告内容出现,低质量广告内容硬广包含手机号码,微信,QQ或者二维码,网址等形式存在可能会审核不通过甚至封号 圈友联系仅限于好向圈APP进行及时沟通咨询 要想被各大搜索引擎尽快收录请做好内容原创工作,才会有更好的推广效果。
返回列表
使用道具 举报
#视频, #模型, #运动, #作者, #进行
13 条评论
您需要登录后才可以回帖 登录 | 立即注册
大可和喝 发表于 2020-6-9 22:59:33 | 阅读全部
这样搞下去,演员没前途了
使用道具 举报
回复
James178 发表于 2020-6-9 23:05:08 | 阅读全部
蒙娜丽莎没动啊?
使用道具 举报
回复
八格牙备 发表于 2020-6-9 23:12:05 | 阅读全部
我要换脸,支持安卓机吗?
使用道具 举报
回复
water211 发表于 2020-6-9 23:16:54 | 阅读全部
厉害
使用道具 举报
回复
fwbz27 发表于 2020-6-9 23:19:10 | 阅读全部
高达技术的基础,很快就可以同步操控高达了
使用道具 举报
回复
123474511 发表于 2020-6-9 23:20:15 | 阅读全部
转发了
使用道具 举报
回复
文倩麻麻 发表于 2020-6-9 23:22:01 | 阅读全部
牛逼克拉斯
使用道具 举报
回复
冷大萌 发表于 2020-6-9 23:26:19 | 阅读全部
转发了
使用道具 举报
回复
我叫徐百万灸 发表于 2020-6-9 23:30:45 | 阅读全部
转发了
使用道具 举报
回复
秋水人家253 发表于 2020-6-9 23:37:05 | 阅读全部
转发了
使用道具 举报
回复
冯472 发表于 2020-6-9 23:39:38 | 阅读全部
转发了
使用道具 举报
回复
如如然技 发表于 2020-6-9 23:43:48 | 阅读全部
转发了
使用道具 举报
回复
茜茜尼亚 发表于 2020-6-9 23:50:04 | 阅读全部
转发了
使用道具 举报
回复
百度地图侵权投诉可通过好向圈APP举报投诉----社区技术支持:泰帮动力 江苏好向圈信息科技有限公司 网站地图1 网站地图2