大家还记得 Stable Diffusion嘛,就是那个曾经和 DALL·E 、 Midjourney 齐名的图像生成 AI 。
经历了老板跑路,核心开发成员离职,昔日搅动图像 AI 市场的 Stability AI ,内部已经乱成一锅粥了。
近几个月来,关于它资金链断裂、寻求卖身的消息,是没怎么断过。
而在前东家身陷狼狈处境,正想法子自救时,年初离开的那批成员,就正正好对标Stable Diffusion 成立了一家新公司Black Forest Lab ( 黑森林实验室 )。
就在这个月月初,他们宣布成立新公司的时候,也一口气放出了三个不同体量的文生图模型 FLUX.1 。
有主打图片质量的大杯 pro ;兼顾速度和图片质量的中杯 dev ;还有人称 “ 速度旋风 ” 的小杯 schnell 。
按照他们官网的说法,大中杯的 FLUX ,已经成了所有图片 AI 里最厉害的存在。
拆分出来的各项能力,像是视觉质量、尺寸可变性、输出多样性等等,也都要比其他模型强不少。
不光官方这么说,在不少网友和媒体的嘴里,刚发布的这个 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL·E 的程度。
看网上的评论,倒是把世超的兴趣给勾起来了。FLUX 是不是真像大伙们说得那么厉害,这次我们拉来了 Midjourney ,把它和大杯的 FLUX 放一块一起测了测。
开局我们先来一个常规的测试题热热身,分别让它们俩画一幅中国的水墨画。
结果表现都还不错,像渔夫、群山、芦苇等提示词里的内容,全都有画出来。不过 Midjourney 这边画得太阳,着实有点太大了,也没啥夕阳的感觉。
提示词:
中国水墨画风格,一个孤独的渔夫在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流,中国水墨画风格,温暖的蓝色调映照着平静的水面,柔和的笔触捕捉着傍晚的宁静,远处的群山在渐渐的灯光下剪影,岸边的传统小屋,芦苇在微风中摇曳, 8K 分辨率,电影般的感觉,怀旧而宁静的氛围
FLUX ( 左 ), Midjourney ( 右 )
关注图片 AI 这块的朋友应该都知道, “ 文字生成太差 ” 几乎是所有 AI 都再过跟头的地方。之前 DALL·E 也曾专门针对这个弱项优化过一次,但偶尔也还是会出错。
而这次,据说 FLUX 在这块的能力已经是炉火纯青了,于是我专门选了几个要生成文字的提示词丢给它和 Midjorney 。
先让它们各自生成一个带有 Prada 商标的包包,最后给出的答案都还算不错,文字都没出现错误。
看图片整体的效果也是各有千秋, FLUX 不仅把文字写对了,甚至连 Prada 那个倒三角 LOGO 都给画了出来,而 Midjourney 的看起来则更时尚点儿。
提示词:一个大的白色 “ Prada ” 手提包,小人物用冰块搭建而成,被冰雪包围,风格像时尚广告,灵感来源于 prouce 杂志广告、高分辨率摄影、广告灵感的印刷设计风格
FLUX ( 左 ), Midjourney ( 右 )
接下来再上点难度,让它们给短袖设计一个复古的图片,而且还要加上两个英文单词。
这次它俩也都没出啥大错,但要论整体效果的话,世超个人觉得,还是 Midjourney 的更好一些。
提示词:复古风格的 T 恤设计以一辆带有方格旗的老式飙车为特色,并附有文字 “Lagertha” 和 “Semper Fi” ,以单色背景为背景。举着旗帜的拉格萨身上有纹身。这幅艺术作品的风格捕捉到了她的动作姿势,展示了车速和维京力量的力量。这是一个高对比度的插图,突出了他们的运动装和大胆的文字排版。
FLUX ( 左 ), Midjourney ( 右 )
看一个图像模型能力,经典问题 “ 画手 ” 肯定也绕不过。
Midjourney 这边呢,依旧是有点不太稳定,生成的手时好时坏,像右边这张图,比个耶就莫名多出一个小指。
两张均由 Midjourney 生成
而 FLUX 的效果,说实话还是挺让人意外的,无论是剪贴画风格,还是写实风格,手部几乎都看不出啥破绽来。
两张均由 FLUX 生成
到这为止, FLUX 在一些图片细节和小问题上,处理得还不错。
当然了,在一定程度上,图像 AI 也是个帮大伙实现想象力的工具,于是世超又丢了一些脑洞大的提示词。
提示词:一个穿着红色连衣裙的年轻女孩,坐在一条长着巨大牙齿和眼睛的巨龙旁边。她正面对它,好像他们是朋友或好警察。这个场景发生在山里的雪石里。以詹姆斯 · 卡梅隆的风格拍摄的《 狼的秘密生活 》, 70 年代的电影。
FLUX ( 左 ), Midjourney ( 右 )
emmm 。。。谁好谁坏就不用世超帮大伙下结论了吧, FLUX 基本上就是一眼 AI 的程度,反观 Midjourney ,到真有点真人特效的味儿。
之后,世超又给 FLUX 为了个简单点的提示词: “ 现代文明的毁灭 ” ,看看它自个儿的想象力咋样。
结果这次,它和 Midjourney 都栽跟头了。
单看图片效果, Midjourney 会更胜一筹,确实是把史诗感拿捏了,但这建筑前看后看,跟现代文明也半毛钱关系啊。。。
FLUX ( 左 ), Midjourney ( 右 )
有趣的是, FLUX 在生成夸张漫画版本的名人肖像时,还挺在行。像是马斯克和乔布斯,它在生成时,五官特色抓得都挺精准。
两张均由 FLUX 生成
整体体验下来,世超觉得 FLUX 的真实水平,还谈不上一骑绝尘,但也差不到哪里去。
毕竟还是 Stable Diffusion 的原班人马搞出来的,差不多就和 Midjourney 一个梯队。
而且新公司黑森林在月初推出 FLUX 的时候,还官宣了自家的融资进度,到现在已经完成了3100 万美元的融资。
更重要的是,虽然黑森林的各位都离开 Stability AI 了,但还是继承了它开源的传统美德,中杯、小杯的 FLUX 都开源。
这还没完,推出图片 AI ,似乎也只是他们赶进度的一环。官网上,他们也挑明了下一步的计划,要做视频 AI 里的 SOTA 。
但话说回来,图片 AI 的商业化都是快被讨论烂的一个话题了。
黑森林的前东家 Stability AI 就是因为商业化的问题,烂摊子一堆。而它自个儿,现在搞得开源,还有付费模型那套,和之前的 Stability AI 基本没啥差别。
后续在商业化上,会不会有啥其他新动作,咱只能再观望观望,毕竟也才刚出来。
可别照搬 Stability AI 的老路,又重走一遍。。。