来源:"量子位"(id:qbitai),作者:于恒
图片来源:由无界版图AI工具生成
最近的Google就像一个大漏勺。它';这不,AIGC的核心成员已经联手逃跑了!
量子比特独家了解到,这次与Googlesaybyebye的,是文圣图核心团队——AI绘画模型Imagen论文的四位核心作者。离开的目的是搞自己的AI公司。虽然公司名字还没公布,但是新公司的一贯路线很明确:
基于Imagen,我们会继续做原来的项目,不仅继续做文化地图,还会做视频方向。
核心人才创业,自然少不了VC插钱。——已经按照惊人的1亿美元天使估值完成了首轮融资,更多的风投想给钱却又不能';不要追赶和投资。
这是文圣地图、文圣视频、AIGC电路最著名的研究团队之一。
文胜图骨干成员创建新AIGC公司
新公司4人共同创建。、奇万萨哈利亚、陈伟霆、乔纳森何和穆罕默德诺鲁齐,他们都来自谷歌。
他们之前的工作重点是AIGC的文圣地图板块。,是关于Imagen的论文的合著者,Google's对抗DALLE-2的大杀器,地位非常重要。
我来介绍一下ChitwanSaharia,也是Imagen的合作作品。
Chitwan毕业于孟买理工学院,获得学士学位';他在孟买理工学院和蒙特利尔大学担任程序和算法方面的研究助理。2019年加入谷歌,基地多伦多从二级软件工程师成为高级研究科学家用了三年时间,并于去年12月离开谷歌。
Chitwan拥有语音识别和机器翻译方面的经验。他在谷歌工作时,主要负责领导图像到图像扩散模型的工作。
第二个陈伟霆也是Imagen'的论文。他也是计算机工程出身,先后就读于加拿大滑铁卢大学和卡内基梅隆大学,并在新加坡国立大学做了一年的交换生。
在卡内基梅隆大学拿下博士学位后威廉也在乔治布朗学院,加拿大';美国最大的社区学院,主修烘焙和烹饪。),学了3年。
William于2012年加入谷歌,成为谷歌的一部分';2016年的大脑。去年五月他离开的时候,他已经是多伦多谷歌大脑的研究科学家。
那我';我想介绍一下乔纳森何,他毕业于加州大学伯克利分校。
他不仅是Imagen'的论文。,或扩散模型《DenoisingDiffusionProbabilisticModels》的基础工作。
乔纳森博士毕业于加州大学伯克利分校,主修计算机科学。他在OpenAI做了一年的研究科学家,然后在2019年加入谷歌,一起工作了两年零八个月,去年11月以研究科学家的身份离开谷歌。新公司的最后一位联合创始人是穆罕默德诺鲁齐,这也是Imagen'的论文。
△
在多伦多大学攻读计算机科学博士期间,他获得了GoogleML的博士奖学金。毕业后,他加入了谷歌大脑,在那里工作了7年。在谷歌末期,他是一名高级研究科学家,工作重点是生成模型。
同时穆罕默德也是谷歌的创始成员。的神经机器翻译团队和SimCLR的共同发明人。他透露了自己在GitHub上的最新进展。s首页:
目前在一家创业公司工作。公司的使命是推动人工智能的发展水平,帮助人类提高创造力。我们在招人!
除了这句话,四人并没有在任何社交平台透露新公司的更多信息。
这是最近谷歌泄露的第n波人了。
以过去两个月为例。首先,至少有四名谷歌大脑成员,包括谢恩古';让';一步一步思考';加入OpenAI。瓦伦丁';s日最早的作品HyungWonChung和CoTJasonWei联手组团叛逃OpenAI。
这个周三,你猜怎么着?嘿,那里';另一个是:
OpenAI狂喜才诞生了谷歌漏勺这个受伤的世界。什么是
Imagen?
了解了谷歌漏掉的这四个人之后,让';让我们谈谈为他们的事业赢得掌声的Imagen项目。
Imagen是Google发布的文圣地图的模型,在DALL-E2新鲜出炉一个月后发布。
本文开头的熊猫震惊表情包也就是输入"一只非常快乐的毛茸茸的熊猫打扮成一个正在厨房里和面的厨师的高对比度肖像,他身后的墙上有一幅画着花的画"到Imagen,得到一个元素完整的图片。AI生成绘画。(抱歉,请自行断句)
在Imagen出现之前都共用一个套路,就是CLIP负责从文本特征到图像特征的映射,然后引导一个GAN或者扩散模型生成图像。
Imagen没有';不走寻常路。,开辟了文字转图像的新范式:
纯语言模型只负责对文字特征进行编码,文字转图像的具体工作由Imagen抛给图像生成模型。具体来说,Imagen包含一个冻结的语言模型T5-XXL(由谷歌自己生产)作为文本编码器。T5-XXL的C4训练集包含800GB纯文本语料库,在文本理解上比CLIP好很多,因为后者只使用有限的图片和文本对进行训练。
图像生成部分使用一系列扩散模型,用于生成低分辨率图像,然后逐步过采样。
依赖于新的采样技术Imagen允许使用较大的导向砝码,因此不会像原作一样降低样品质量。这样图像保真度更高,能更好的完成图文对齐。
的概念说起来很简单。但是Imagen的效果还是很震撼。
生成的赛狗技术一流:
比起爆火的DALLE-2Imagen可以更准确的理解两种色彩需求同时出现的情况:
一边绘画一边写字这种要求Imagen也顺利完成,不仅写对了,还加了光影魔术师(不是)之类的烟火特效。
以及对后来研究更有帮助的是谷歌通过Imagen'的研究。
首先,增加无分类器引导的权重可以提高图文对齐,但同时会损害图像保真度。
为了解决这个bug,在每个采样步骤都引入了动态阈值这种新的扩散采样技术,以防止过饱和。
第二扩散模型多样性不足的问题可以通过在使用高引导权重的同时向低分辨率图像添加噪声来改善。
第三,改进了扩散模型的经典结构U网,成为有效U网。。后者提高了内存使用效率、收敛速度和推理时间。
后来在Imagen上做了微调,Google也推出了一个版本的DreamBooth,可以"指向哪里"。只需上传指定对象的3-5张照片即可。然后用文字描述你要生成的背景、动作或表情,这样指定的对象就可以"flash"变成你想要的场景。
例如,it'姜阿姨的s
[xy001';南又或者酱婶儿的:
大概是Imagen效果太过出色后来柴柴哥亲自宣布的GoogleAI生成视频播放器将军,被称为"Imagen视频"并且可以生成分辨率为1280*768、每秒24帧的视频剪辑。啊,等等,谷歌有图像视频。不是';新公司有四个人,这不是错误的方向吗?
仔细看了论文,Imagen和Imagen视频都有很大篇幅是关于风险和社会影响的。
为了安全、AI伦理和公平,Imagen和ImagenVedio都没有直接开源或开放API,甚至没有演示。
哪怕市面上出现开源复刻版本不是最正宗的味道。
之前在Google中已经曝光过';的年度内部员工调查"谷歌精神",员工对谷歌表示怀疑';执行能力差。或许,这四个人跑了,继续做Imagen,做Imagen的视频版。或许是为了把项目放在更开放的AI环境中。
而这种出走创业,也是热钱、大钱涌向AIGC的结果。所以自从AIGC的风险投资热潮从太平洋开始,它应该在太平洋的这一边,它赢了';不要安静。
也许你听说过一些同样的大工厂已经离开去创业了。欢迎告诉我们~~