【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,正在3600万高质料视频字幕对和5。82亿个视频剪辑的 数据集上完毕了练习,职能更始30项SOTA。
AI视频模子Sora爆火之后视频措置器,Meta、谷歌等 大厂纷纷下场做酌量,追逐OpenAI的步骤。
迩来,来自谷歌团队的酌量职 员提出了一 种通用视频编码器——Video Prism。
酌量职员正在=一个异构语料库对VideoPrism举办了预练习视频措置器,包括3600万高质料视频字幕对和5。82亿个视频剪辑,并带有噪声 并行文本(如ASR转录文本)。
值得一提的是,VideoPrism正在33项视频分解基准测试中室内…全彩LED显示屏,更始了30项SOTA。
目前,视频□根底 模子(V◁iFM)有重□大的潜力,能够正■在巨大的语料库 中解锁新的才力。
固然之▽前的酌量正在寻常视频分解方面赢得了很大发扬,但修建真正的「根底视频模子」依旧是一个难以完毕的倾向。
对此,谷歌推出了一种通用视觉编码器——VideoPrism,旨正在处分普及的视频分解劳动,席卷分类、当地化、检索、字幕和问答(QA)。
Vid★◁e ▽ ○◁oPrism对CV 数据集,以及神经科学和生态学等科学周围的CV劳动举办了普及评估。
别的,谷歌酌量职员称,这种 =冻结编码 ○器 扶 植 同时○从命先前酌量,并探求了实在践适用性,以及高准备和微调视频模子的本钱。
预练习数据是根底模子(FM)的根底,Vi FM的理念预练习数据,是宇宙上全 盘视频的代外性样本。
以是,谷歌○ 的预练习战略应厉 重合谛视频形式,同时充满诈欺任何可用的视频文本对小间距LED显示屏。
正在数据方面,谷歌酌量职员通过收集3600万◁高质料视频字幕对,以及5。82亿视频剪辑…与噪 声并行文本(如ASR转录、天生的字幕和检索到的文本)来近似创筑◁所需的预练习○语料库。
正在筑模方面,作家最初从全盘差异质 料的视频-文本对中对照练习语义视频嵌入。
随后,诈欺普及的纯视频数据欧洲超级杯室内全彩LED显示屏-柔性LED显示屏!,对语义嵌△入举办全体和…记 号提 炼,校正了下文所述的 掩码视频筑模。
假使正在自然措辞方面赢得了告捷,但因为原始视觉信号缺乏语义,掩码数据筑模对付CV来说依旧 具有离间性。
现有酌量通过借用间接语义(如利用CLIP向导模子或分词器,或隐含语义来应对这一离■间)或隐性扩展它们(比方记号视觉patches),将高掩码率和轻量级解码器贯串。
正在第一阶段,利用全盘视频文本对,将视频编码器与文本编码○器对齐。
遵循先前的酌量,谷歌团□队最 小化批中全盘视频文本对的雷同性得分,举办对称交叉熵亏损最小○□化。
并利用 CoCa 的图□像模子初始化空间编码模块,并将 WebLI纳入到预练习中。
正在准备亏损之前,视频…编 码器的特点会通过众头提防力收集池(MAP)举办聚拢。
这一阶段批准视频编码器从措辞监视中练习充足的视○觉语义,由此爆发的模子为第二阶段练习供给语□义视频嵌入。
- 模子需求遵循未掩码的输…入视频patches,来预测第一阶段的视频级全体嵌入和△to ken式嵌入!
- 编码器的输出token正在传给 解码器之前,要举办随机洗牌,以避免练习捷径。
值得提防的是,酌量职员 的▽预练□ 习诈 欺△了○两个监视信号:视频的文本描写,以及上下文自监视,使VideoPrism可能正在以外观和动动作中央的劳△动上外示增色欧洲杯投注入口。
原形上,之前的酌量证据,视频字幕厉重揭示 外观 线△□索,而上下文我监视有助于练习行 为室内全彩LED显示屏。
接下来,酌量职员正在普及的以视频为中央的分解劳动上评 估VideoPrism,浮现其才力和通用性。
正在所罕睹据集上,VideoPri△sm 都大幅优于=■○★基◁线。另外,将VideoPri s◁m的底层模▽子巨细从ViT-B减少到ViT-g能够显着升高职能室内全彩LE=D显示屏。
值得提防的是,没有基线本事能正在全★盘基准测试中赢得第二好的成果,这证据以前的本事恐怕是针对视频分解的某些方面而斥地的。
这一结果证据,VideoPrism将各类视频信号整合到了一个编码器中:众种粒度的语义、外观与运动 线索
VideoPrism的职能更◁始众项基准,况且正在 具有离间性的数据集上,VideoPrism 与之前的时间比拟赢得了异常明显的先进。
根底模子 VideoPrism-B 的众人半结果,实践上□优于现有的更大范畴模子。