通过回忆 VDT 正在无条目天生和视频预测中的效力,独一的区别正在于输入特点的类型。的确来说,输入能够是纯噪声潜正在特点▼,或者是条目和噪声潜正在特点的拼接。然后▼,研讨者引入了 Unified Spatial-Temporal Mask Modeling 来联合条目输入,如下图 4 所示:
输入 / 输出特点。VDT 的宗旨是天生一个 F×H×W×3 的视频片断,由 F 帧巨细为 H×W 的视频构成◆▼。然而,借使运用原始像素动作 VDT 的输入,越发是当 F 很大时,将导致估计策画量极大。为处置这个题目▼,受潜正在扩散模子(LDM)的开导◆▼,VDT 运用预磨练的 VAE tokenizer 将视频投影到潜正在空间中。将输入和输出的向量维度节减到潜正在特点 / 噪声的 F×H/8×W/8×C,加快了 VDT 的磨练和推理速率,此中 F 帧潜正在特点的巨细为 H/8×W/8。这里的 8 是 VAE tokenizer 的下采样率,C 体现潜正在特点维度。
交叉预防力。研讨者还探求了運用交叉預防力動作視頻預測計劃,此中條目幀用作鍵和值,而噪聲幀動作盤問▼◆●。這許可將條目消息與噪聲幀統一。正在進入交叉預防力層之前▼◆●,運用 VAE tokenizer 提取條目幀的特點並 Patch 化。同時,還增添了空間和時分地位嵌入,以幫幫咱們的 VDT 進修條目幀中的對應消息◆。
Token 拼接。VDT 模子采用純粹的 Transformer 架構,于是,直接運用條目幀動作輸入 token 對 VDT 來說是更直觀的手段。研討者通過正在 token 級別拼接條目幀(潛正在特點)和噪聲幀來竣工這一點,然後將其輸入到 VDT 中。接下來,他們將 VDT 的輸出幀序列盤據,並運用預測的幀舉行擴散進程▼●◆,如圖 3 (b) 所示▼●●。研討者察覺,這種計劃映現了最速的收斂速率,與前兩種手段比擬,正在最終結果上供給了更優的顯示。其余,研討者察覺縱然正在磨練進程中運用固定長度的條目幀▼◆◆,VDT 如故能夠回收苟且長度的條目幀動作輸入,並輸出一律的預測特點。
提出聯合的时空掩码修模机造,使 VDT 不妨处分多种视频天生劳动,竣工了手艺的平凡行使◆。VDT 活络的条目消息处分式样●◆▼,如大略的 token 空间拼接▼,有用地联合了分别长度和模态的消息。同时▼●●,通过与该处事提出的时空掩码修模机造维系●●,VDT 成为了一个通用的视频扩散器材▼,视频后续帧预测、插帧、图生视频、视频画面补全等多种视频天生劳动。
VDT 对汇集构造举行局部溶解▼▼。能够察觉模子功能和 GFlops 强联系,模子构造自己的少少细节反而影响不是很大,这个和 DiT 的察觉也是一律的。
时空 Transformer Block。受到视频修模中时空自预防力胜利的开导,VDT 正在 Transformer Block 中插入了一个时分预防力层,以得回时分维度的修模才具。的确来说,每个 Transformer Block 由一个多头时分预防力、如上图所示。
VDT 的测试结果证据了 Transformer 架构正在处分视频数据天生方面的有用性和活络性。因为估计策画资源的范围◆●▼,VDT 只正在局部幼型学术数据集长举行了实行▼▼。咱们希望将来研讨不妨正在 VDT 的基本上,进一步探求视频天表行艺的新宗旨和行使,也希望中国公司能早日推出国产 Sora 模子。
比拟 Sora 最新揭橥的手艺讲述◆,能够看到 VDT 和 Sora 正在竣工细节上仅存正在少少纤细分别▼◆。
通过上述手段,VDT 模子不只能够无缝地处分无条目视频天生和视频预测劳动,还不妨通过大略地调解输入特点,扩展到更平凡的视频天生范围,如视频帧插值等。这种活络性和可扩展性的展现,映现了 VDT 框架的庞大潜力,为将来的视频天表行艺供给了新的宗旨和能够性。
将 Transformer 手艺行使于基于扩散的视频天生,显露了 Transformer 正在视频天生范围的浩瀚潜力。VDT 的上风正在于其增色的时分依赖性拘捕才具,不妨天生时分上连贯的视频帧,囊括模仿三维对象随时分的物理动态。
正在 VDT 的框架下,为了竣工视频预测劳动,不必要对汇集构造举行任何删改,仅需转化模子的输入即可。这一察觉引出了一个直观的题目:咱们能否进一步行使这种可扩展性,将 VDT 扩展到更多样化的视频天生劳动上 —— 比如图片天生视频 —— 而无需引入任何异常的模块或参数。
视频天生范围涵盖了囊括无条目天生、视频预测、插值和文本到图像天生等多项劳动。以往的研讨往往聚焦于简单劳动,屡屡必要为下游劳动引入特意的模块举行微调。其余,这些劳动涉及多种多样的条目消息◆,这些消息正在分别帧和模态之间能够有所分别,这就必要一个不妨处分分别输入长度和模态的庞大架构。Transformer 的引入不妨竣工这些劳动的联合▼。
研讨者还对 VDT 模子举行了少少构造上的溶解研讨。结果证据▼◆,减幼 Patchsize、加添 Layers 的数目以及增大 Hidden Size 都能够进一步提升模子的功能▼▼。Temporal 和 Spatial 预防力的地位以及预防力头的数目对模子的结果影响不大。正在维持沟通 GFlops 的处境下,必要少少策画上的衡量,总体而言,模子的功能没有明显分歧。然则,GFlops 的加添会带来更好的结果,这映现了 VDT 或者 Transformer 架构的可扩展性。
研讨者体现,采用 Transformer 架构的 VDT 模子,正在视频天生范围的优良性展现正在:
基于这一酌量,研讨者盼望正在视频预测劳动长进一步适配和优化他们的模子。视频预测劳动也能够视为条目天生,这里给定的条目帧是视频的前几帧。VDT 苛重酌量了以下三种条目天生式样:
本文为倾盆号作家或机构正在倾盆信息上传并揭橥,仅代表该作家或机构主张,不代表倾盆信息的主张或态度▼,倾盆信息仅供给消息揭橥平台▼●。申请倾盆号请用电脑拜候◆●。
惟有当模子进修(或纪念)了寰宇常识(比如空间时分合联和物理轨则)时,技能天生与实际寰宇相符的视频。于是,模子的容量成为视频扩散的一个症结构成局部。Transformer 曾经被证据拥有高度的可扩展性,例如 PaLM 模子就具有高达 540B 的参数,而当时最大的 2D U-Net 模子巨细仅 2.6B 参数(SDXL)▼,这使得 Transformer 比 3D U-Net 更适合应对视频天生的离间◆●。
其次◆,分别于 VDT圆柱之心,Sora 还酌量了文本条目标统一。之前也有基于 Transformer 举行文本条目统一的研讨(如 DiT)▼●◆,这里推想 Sora 能够正在其模块中进一步参与了交叉预防力机造,当然▼●,直接将文本和噪声拼接动作条目输入的局面也是一种潜正在的能够。
研讨者同时探求了天生模子 VDT 对大略物理法则的模仿。他们正在 Physion 数据集长举行实行,VDT 运用前 8 帧动作条目帧●▼,并预测接下来的 8 帧。正在第一个示例(顶部两行)和第三个示例(底部两行)中◆●●,VDT 胜利模仿了物理进程,囊括一个沿扔物线轨迹运动的球和一个正在平面上滚动并与圆柱体碰撞的球。正在第二个示例(中心两行)中,VDT 搜捕到了球的速率 / 动量,由于球正在碰撞圆柱体前停了下来▼◆。这证据了 Transformer 架构是能够进修到必然的物理法则。
起初,VDT 采用的是正在时空维度上判袂举行预防力机造处分的手段,而 Sora 则是将时分和空间维度团结◆▼,通过简单的预防力机造来处分●●。这种诀别预防力的做法正在视频范围曾经相当常见,经常被视为正在显存范围下的一种妥协采选▼◆。VDT 采选采用诀别预防力也是出于估计策画资源有限的酌量。Sora 庞大的视频动态才具能够来自于时空完全的预防力机造。
正在 VDT 的研讨经过中●◆,研讨者将 U-Net 这个常用的基本骨干汇集调换为 Transformer。这不只验证了 Transformer 正在视频扩散劳动中的有用性,显露了便于扩展和加强相联性的上风,也激励了他们关于其潜正在价格的进一步思索。
这项处事由中国百姓大学研讨团队主导,并与加州大学伯克利分校、香港大学等举行了团结,最早于 2023 年 5 月公然正在 arXiv 网站。研讨团队提出了基于 Transformer 的 Video 统终身成框架 - Video Diffusion Transformer (VDT),并对采用 Transformer 架构的因由给出了详明的注明。
与苛重为图像策画的 U-Net 分别▼,Transformer 不妨借帮其庞大的 token 化和预防力机造,搜捕持久或不礼貌的时分依赖性,从而更好地处分时分维度▼●。
跟着 GPT 模子的胜利和自回归(AR)模子的时兴,研讨者入手下手探求 Transformer 正在视频天生范围的更深宗旨行使,思索其是否能为竣工视觉智能供给新的途径。视频天生范围有一个与之亲切联系的劳动 —— 视频预测。将预测下一个视频帧动作通往视觉智能的道途这一思法看似大略,但它本质上是很多研讨者合伙合切的题目。
自适宜层归一化。竣工视频预测的一种直接办段是将条目帧特点整合到 VDT Block 的层归一化中,近似于咱们奈何将时分消息整合到扩散进程中。
Copyright © 2022 广东K8天生赢家一触发,k8凯发国际官方入口,凯发官网入口首页电气有限公司 版权所有 粤 ICP 备 2021129116 号 XML地图