Twelve Labs使视频内部搜索变得简单而强大
随着视频在我们日常互动和创造的媒体中占的比重越来越大,跟踪和索引这些内容的需求也越来越大。Twelve实验室有一个总结和搜索视频的机器学习解决方案,可以使消费者和创作者更快、更容易。
这家初创公司提供的能力是能够输入一个复杂但模糊的查询,如"Courtney唱国歌的办公室聚会",并立即得到不仅是视频,而且是视频中发生的时刻。在YouTube或大学档案馆里,你经常可以找到你想要的视频。但接下来会发生什么?你翻阅视频,寻找你要找的部分,或者翻阅文字记录,试图想出他们措辞的确切方式。
这是因为当你搜索视频时,你实际上是在搜索标签、描述和其他基本元素,这些元素很容易被大规模地添加。在浮现你想要的视频方面,有一些算法的魔力,但系统并没有真正理解视频本身。业界已经将问题过度简化,认为标签可以解决搜索问题。而现在许多解决方案确实依赖于,例如,识别出视频的某些帧包含猫,所以它添加了标签#cats。但是视频不仅仅是一系列的图像,而是复杂的数据。
Twelve实验室建立一个新的神经网络,它可以同时接受视觉和音频,并围绕它制定上下文;这被称为多模态理解。这是目前人工智能领域的一个热词,因为当人工智能系统狭隘地专注于一种"感觉",如音频或静态图像时,我们似乎已经达到了理解世界的极限。例如,Facebook最近发现,它需要一个人工智能同时关注一个帖子中的图像和文字,以检测错误信息和仇恨言论。
对于视频,如果你看的是单个帧,并试图用带有时间戳的文字记录来进行联想,你的理解就会受到限制。当人们观看视频时,他们会自然地将视频和音频信息融合到角色、行动、意图、因果关系、互动和其他更复杂的概念中。
Twelve实验室声称其视频理解系统已经建立了类似的东西。人工智能被训练成从多模态的角度来处理视频,从一开始就将音频和视频联系起来,并创造他们所说的更丰富的理解,其中包括更复杂的信息,比如画面中项目之间的关系,连接过去和现在,就比如说,如果有一个YouTuber搜索“Beast先生挑战Joey Chestnut吃汉堡”,它就会理解挑战某人,以及谈论挑战的概念。
Twelve实验室将其工具构建成一个简单的API,可以被调用来索引一个视频(或一千个),生成一个丰富的摘要,并将其连接到一个选定的图表。因此,如果你记录了所有的手拉手会议或技能分享研讨会或每周的头脑风暴会议,那些变得可搜索,不仅仅是按时间或与会者,而是按谁说话,什么时候,关于什么,并包括其他行动,如画图或展示幻灯片等等信息。