扎克伯格与黄仁勋共同展示Meta最新版的视觉AI模型Segment Anything 2

Meta 公司去年推出的机器学习模型Segment Anything 一炮打响，该模型可以快速、可靠地识别并勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格（Mark Zuckerberg）周一在 SIGGRAPH 大会上首次公布了新版，将该模型应用到了视频领域。

分割是一个专业术语，是指视觉模型观察图片并找出其中的部分：希望是"这是一只狗，狗后面是一棵树"，而不是"这是一棵从狗身上长出来的树"。这一过程已经持续了几十年，但最近变得更好更快了，其中"Segment Anything"是一大进步。

Segment Anything 2（SA2）是一个后续模型，因为它不仅适用于静态图像，还适用于视频。"科学家们用这些东西来研究珊瑚礁和自然栖息地之类的东西。"扎克伯格在与 NVIDIA 首席执行官黄仁勋（Jensen Huang）的对话中说："但是，能够在视频中做到这一点，而且是零拍摄，并告诉它你想要什么，这就很酷了。"

处理视频对计算要求更高，SA2 仍然是一个需要大量硬件才能运行的庞大模型，但快速、灵活的分割在一年前几乎是不可能的。

这种模式将和第一种模式一样，是开放和免费使用的，目前还没有托管版本的消息，而这些人工智能公司有时会提供托管版本。但有一个免费的演示版。

当然，这样的模型需要大量数据来训练，Meta 还发布了一个包含 50000 个视频的大型注释数据库，它就是为此目的而创建的。在描述 SA2 的论文中，另一个包含 10 万多个"内部可用"视频的数据库也被用于训练，但这个数据库并没有公开--我已经要求 Meta 提供更多信息，说明这是什么，以及为什么没有公开。(我们猜测这些视频来自 Instagram 和 Facebook 的公开资料）。

标注训练数据示例

几年来，Meta 一直是"开放"人工智能领域的领军者，尽管事实上（正如扎克伯格在对话中所说），它很早就开始这样做了，并推出了 PyTorch 等工具。但最近，LLaMa、Segment Anything 和它免费发布的其他一些模型，已经成为这些领域人工智能性能的一个相对可及的标准，尽管它们的"开放性"还有待商榷。

扎克伯格还提到了Meta 公司开放技术的意义："这不仅仅是一个软件，你需要一个围绕它的生态系统。如果我们不开放源代码，它甚至都不会运行得那么好，对吗？我们这么做并不是因为我们是利他主义者，尽管我认为这对生态系统会有帮助，我们这么做是因为我们认为这会让我们正在构建的东西变得最好。"

点击此处查看 GitHub