Google的文本到图像的人工智能模型Imagen有限公开亮相
Google在发布其文本到图像的人工智能系统方面极为谨慎。尽管该公司的Imagen模型产生的输出质量与OpenAI的DALL-E 2或Stability AI的Stable Diffusion相当,但Google还没有向公众提供该系统。不过今天,这家搜索巨头宣布它将把Imagen--以非常有限的形式--添加到其AI Test Kitchen应用中,作为收集对该技术早期反馈的一种方式。
AI Test Kitchen是在今年早些时候推出的,是Google对各种AI系统进行测试的一种方式。目前,该应用程序提供了一些不同的方式与Google的文本模型LAMDA(是的,就是那个工程师认为有知觉的模型,然后他被开除了)进行互动,该公司很快将增加类似的限制性Imagen请求,作为其所谓的应用程序"第二季"更新的一部分。简而言之,将有两种方式与Imagen互动,Google在今天的公告前演示了这一点。演示项目分别是:"城市梦想家"和"摇摆不定"。
在"城市梦想家"中,用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如,南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块(城市广场、公寓楼、机场等等),所有的设计都以类似于《模拟城市》中看到的等距模型出现。
城市梦想家"任务让用户要求以等距设计为主题的城市建筑
与其他文本到图像的模式相比,这些互动是非常受限制的,用户不能随便要求他们喜欢的东西。不过,这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德(Josh Woodward)向The Verge解释的那样,AI Test Kitchen的全部意义在于:a)获得公众对这些AI系统的反馈;b)找出更多关于人们将如何打破它们的信息。
伍德沃德不愿意讨论任何关于AI Test Kitchen用户如何破坏其LaMDA功能的具体例子,但他指出,当模型被要求描述具体地点时,就出现了一个弱点。
伍德沃德说:"在历史上的不同时期,一个地点对不同的人意味着不同的东西,所以我们看到了一些相当有创意的方式,人们试图把某个地方放到系统中,看看它产生了什么,"。当被问及哪些地方可能产生有争议的描述时,伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代,塔尔萨发生了一系列种族骚乱,"他说。"如果有人输入'塔尔萨',模型甚至可能不参考这个......你可以想象世界各地的复杂情况。"
"摇摆"功能让用户设计一个怪物并让它跳舞
想象一下,如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营?你怎么知道用户是否在寻找这些信息?在任何情况下省略它都是可以接受的吗?在许多方面,设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似:需要以一种让用户满意的方式解释用户的请求。
Google不会分享关于有多少人在实际使用AI Test Kitchen的数据("我们并没有打算把它变成一个10亿用户的Google应用,"伍德沃德说),但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出,该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用,他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。
不过,最大的问题是,Google是否会想把这些模型推向更广泛的公众,如果是这样,会采取什么形式?目前,该公司的竞争对手OpenAI和Stability AI正急于将文本-图像模型商业化。
Google是否会觉得自己的系统足够安全,可以走出人工智能测试阶段,从而直接提供给用户?