遇见Auraflow:一个真正的开源AI图像生成器,旨在击败稳定的扩散3

时间:2024-09-30 编辑: 浏览:(166)

开源AI图像生成器之王的头衔有一个新的竞争者:Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭借其标准Apache 2.0许可证获得了越来越多的关注,与Stability AI用于发布Stable Diffusion 3(SD3)的限制性许可相比,这感觉就像一股新鲜空气。

支持者认为,开源项目可以快速加快竞争行业的开发周期,因为它使开发人员摆脱了许可和其他法律限制。在没有许可费的情况下,社区经常围绕有能力的开源项目形成,开发人员可以调整、修改、培训甚至从他们的工作中获利。

FAL AI在一篇博客文章中表示:“我们很高兴向您展示我们Auraflow模型系列的第一个版本,这是最大但完全开源的基于流的生成模型,能够生成文本到图像。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊工作的Burkay Gur和Gorkem Yurtsevenginers共同创立,该公司警告称,开源人工智能正处于危险之中。”他们说:“有些人甚至大胆地宣布开源人工智能已经死了。”别那么快!”

在四周多的密集计算时间里,Auraflow接受了严格的训练,包括对不同大小、分辨率(256x256、512x512和1024x1024)和纵横比(方形图像、风景、肖像等)的图像进行预训练。结果如何?GenEval得分为0.64,使用类似于DALL-E 3的快速增强管道后,得分提高到0.703。

用Auraflow创造的世代。图片由Fal AI分享

换句话说,当使用合成基准测试时,该模型提供了高质量的结果。然而,尽管Auraflow很好,但它仍然只是一个测试版,因为Fal认为它是0.1版,而不是稳定版。

不过,该模型是VRAM吞噬者。它需要一个具有大约12GB VRAM的强大GPU来运行其fp16版本——Stable Diffusion 3仅在6GB VRAM上运行良好,仅供参考。然而,该公司声称正在开发一种更易于管理的模型。Fal AI表示:“对于计算能力有限的消费级GPU卡来说,较小的型号或MoE可能更高效,因此请密切关注这款型号的迷你版,它仍然强大,但运行速度要快得多。”。

Auraflow可以在Huggingface上下载,也可以在ComfyUI中运行,ComfyUI管理器中也有一个自定义节点。

Auraflow代表了SD3的强大替代品,但它足够好吗?我们比较了两种基本模型,并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察结果时,你可以判断谁最有可能赢得世界各地人工智能艺术家的心。

艺术风格和创造力

提示:“一幅宁静湖面上日落的详细画作,天空充满了橙色、粉色和紫色的色调,一个延伸到水中的木码头,一个人坐在码头尽头,手里拿着鱼竿,周围是高大的草和野花,整体风格是印象派的,笔触大胆,色彩鲜艳。”

听觉流:

优点:大胆的笔触和鲜艳的色彩很好地捕捉了印象派风格。天空的色调表现得很好,营造出宁静的氛围。缺点:人和周围自然的细节可能更精确。木制码头和钓鱼可能缺乏明确的定义。钓竿没有处于自然位置。

SD3介质:

优点:表现出对细节的高度关注,尤其是在人物和码头的刻画方面。整个场景更有条理,元素清晰,轮廓精致。缺点:印象派风格不太明显,笔触看起来比预期的更平滑、更逼真。

胜者:平局。Auraflow更接近印象派风格,但SD3更为详细和结构化。

现实主义

提示:“一张高分辨率的夜间繁华城市街道照片,霓虹灯照亮了现场,人们沿着人行道行走,汽车驶过,一个卖热狗的街头小贩,湿漉漉的人行道上的灯光反射,整体风格非常逼真,注重细节和照明,霓虹灯上写着‘解密’。”

听觉流:

优势:用霓虹灯和湿路面上的倒影捕捉充满活力的夜生活。现场热闹非凡,灯光效果也做得很好。缺点:一些细节,比如街头小贩和行人,不够清晰,看起来很卡通,影响了超现实的质量。霓虹灯的标志不够清晰。它具有一定程度的文本理解能力,但不足以令人信任。(热狗标志旁边写着“解密”,但几乎看不清。)

SD3介质:

优点:提供高水平的细节和清晰度,特别是在人物和物体的描绘方面。通过精确的照明和反射,可以很好地实现超现实主义风格。霓虹灯标志清晰,文字易读。缺点:场景可能看起来太乏味,缺乏繁华城市街道的自然混乱。没有街头小贩,只有热狗摊

获胜者:SD3 Medium提供了一个更详细、更逼真的图像,使其成为这个提示的更好模型。

插图

提示:“一只巨大的蜘蛛在丛林中追逐一个女人的手绘插图,极其可怕、痛苦、黑暗和令人毛骨悚然的风景,恐怖,模拟摄影影响的暗示,素描。”

听觉流:

优点:成功营造出一种黑暗而令人毛骨悚然的氛围。带有草图元素的手绘风格很明显。缺点:蜘蛛和女人的细节可能不足,使场景不那么可怕和激烈。

SD3介质:

优点:对蜘蛛和女人进行了非常详细和可怕的描绘。痛苦和恐怖元素更为明显。缺点:模拟摄影的影响不太明显,草图风格可能会被高水平的细节所掩盖。蜘蛛的一些肢体是不自然的

获胜者:SD3 Medium提供了一个更可怕、更详细的插图,使其成为这个提示的更好模型。

迅速遵守

提示:“一个超现实的数字艺术作品,描绘了一个漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的植被,瀑布倾泻到下面的云层中,岛中心有一座小城堡,连接其他漂浮岛屿的光桥,天空中满是五颜六色的热气球和神话般的生物,整体风格梦幻般,有梦幻元素和发光效果。”

听觉流:

优势:通过发光效果和鲜艳的色彩,很好地捕捉到奇幻和梦幻的元素。浮岛和瀑布被描绘得很漂亮。这些桥是由光组成的,神话生物在场景中得到了体现。缺点:一些元素,如光之桥和神话生物,可能缺乏细节和清晰度。

SD3介质:

优点:提供了一个非常详细和复杂的场景,具有更卡通的外观。弱点:这一代人的即时坚持较弱,它没有创造出光之桥,这些桥没有连接到其他岛屿,也没有神话生物。

获胜者:Auraflow捕获了提示中的所有元素,使其成为该提示的更好模型。

空间意识

提示:“一只狗站在电视上,屏幕上显示着‘解密’这个词。左边是一个穿着西装的女人,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景超现实。”

听觉流:

优点:创造超现实和富有想象力的场景。构图和空间布局很有趣。缺点:狗、机器人和女人的细节可能不够精细,影响整体效果。急救箱的十字架漏进了第二个盒子和机器人本身。文本生成很差。

SD3介质:

优点:对所有元素进行了非常详细和清晰的描述。通过精确的空间布局,超现实的氛围得到了很好的保持。整体场景不太现实。缺点:这个场景可能看起来不那么富有想象力,更直白。

获胜者:平局。SD3 Medium提供了更好的清晰度,使其成为此提示的更好模型。Auraflow也提供了这一代人的所有元素,并在空间理解方面表现出了良好的理解水平。

动漫和漫画

提示:“一位女忍者在日本古代与一位强大的武士作战,动漫、漫画,非常详细、丰富多彩、充满活力。”

听觉流:

优势:很好地捕捉到动漫和漫画的动态和丰富多彩的元素。动作场面充满活力,引人入胜。它的风格非常详细,更像是封面插图。缺点:它缺乏附着力,只产生女忍者,而不注意武士对手。

SD3介质:

优点:采用简单的二维漫画风格,使场景生动动态。缺点:颜色可能不那么鲜艳,影响整体活力。它未能捕捉到古代日本的风景。

获胜者:SD3 Medium提供了更详细和动态的描述,使其成为此提示的更好模型。两者都缺乏迅速遵守的关键要素。

结论

Auraflow擅长捕捉印象派、奇幻和异想天开的风格,而SD3 Medium更擅长提供细节、超现实和动态的场景。

这两个弱点都可以通过微调来调整,这就是法律战胜技术的地方。Auraflow的Apache 2.0开源许可证使其对微调者具有吸引力,允许在许可条款下免费使用、复制和分发,这与SD3不同,SD3在这方面更具限制性。因此,开始使用Auraflow可能更容易。但在此之前,这只是一个尚未实现的战略优势。

然而,Auraflow需要大量的VRAM才能运行,一些报告显示高达35 GB,远高于SD3,SD3只需要6 GB的VRAM。作为参考,亚马逊上24GB RTX 4090的价格高达1700美元,而能够运行SD3的6GB RTX3050的价格不到200美元。这是SD3目前相对于Auraflow的明显优势。

考虑到这一点,SD3 Medium目前是比较中更好的型号,由于其较低的硬件要求和可比的质量结果,服务于更广泛的用户群。

尽管如此,Auraflow仍展现出巨大的潜力。如果将来开发一个修剪(更小)或量化(更不精确)的版本来降低其硬件需求,Auraflow可能会成为一个强有力的竞争者,并可能通过其稳定扩散模型挑战Stability长期以来的主导地位。

最新 更多 >
  • 1 提高加密资产安全意识

    这两天,网上疯传了5月份发生的一起令人瞠目结舌的加密资产被盗案---其作案手段恐怕已经超过了目前绝大多数加密资产交易所(CEX)的防护能力。据受害者自己表述,他存放在某CEX的资产是5月3日被盗的。受害者原以为这起案件和过往发生的案件一样是交易所的内部问题、系统问题、熟人作案等。但在调查的过程中,大家发现作案者竟然是通过AI合成短视频的方式伪造了被害者的个人信息骗过了CEX的认证,盗走了其账户中的

  • 2 @FoxWallet 很高兴宣布与 @FBBank_cc 合作赠送奖品!

    完成任务即可在 #FoxWallet 中赚取 #FoxCredits ,并$FB @XLayerOfficial 链。1️⃣下载FoxWallet并应用邀请码(链接见于官方媒体)2️⃣推荐你的朋友3️⃣兑换任意代币4️⃣使用 FBPAY 购买任何代币5️⃣在你的钱包中添加$FB代币?时间:6月4日-6月12日?您收集的积分越多,您分享的奖励就越大。您的 #FoxCredits 还可用于在 Fox

  • 3 DOG•GO•TO•THE•MOON价格预测,DOG以26%的涨幅位居榜首,这只DOG衍生品Meme Coin ICO爆炸

    狗狗•去•去•月亮的价格在过去24小时内飙升了26%,截至美国东部时间上午7:35,交易价格为0.009579美元,投资者争相购买表情包硬币。 顶级加密货币(来源:CoinMarketCap) DOG价格在过去24小时内的涨幅是市值排名前100的加密货币中最大的。Kaspa(KAS)是表现第二好的altcoin,仅次于其超过15%的抽成率。 狗•去•去•月亮价格正试图打破阻力

  • 4 Onchain Gaias详解:为什么说它是6个月内最有前景的NFT

    作者:William M. Peaster,Bankless;编译:邓通,Base NFT 场景仍然很开放。现在是 NFT 收藏品崛起并成为 L2 主导个人资料图片 (PFP) 项目的最佳时机。未来六个月内最有前景的收藏品是什么?在我看来,是 Onchain Gaias。Onchain Gaias 不仅仅是一个普通的 PFP 项目——它已经拥有了狂热追随者,并且它正在以加密领域前所未有的方式在 A

  • 5 GameStop GME价格预测:2024年6月

    自5月初Roaring Kitty回归以来,GameStop GME代币一直飙升至新高,而且该资产并未放缓。Roaring Kitty本名Keith Gill,周一他的GME投资达到85460000美元的未实现利润,持有人预计2024年6月会有更多收益。 GME代币受益于正在进行的GameStop股票传奇。这家电子游戏零售店在周一早些时候的盘前交易中几乎翻了一番。根据CoinMarketCap的数

  • 6 Solana Price关注180美元的重新测试,公牛队赚了1.5亿美元

    索拉纳的价格在2024年6月4日突破165美元,在过去3天里上涨了4%;然而,不断攀升的多头头寸表明,接下来可能会有更多上行空间。 索拉纳价格逆转上周的跌幅 在5月的最后一周,由于5月23日ETH现货ETF的批准吸引了投资者的注意力和资本流向以太坊DeFi和现货市场,索拉纳的价格难以吸引眼球。然而,随着围绕这一具有里程碑意义的批准的喜悦情绪降温,自6月初以来,对索拉纳的需求出现了积极的转变。

  • 7 MoonBag加密货币预售飙升,ChainGPT和十亿美元头奖处理问题

    如何实现财务自由?许多人都在问这个问题,通常会在加密货币中找到解决方案。这个市场的激增可能是由于投资者的乐观情绪和对获得数字资产的更多兴趣。毫无疑问,由于全球经济环境,加密货币市场在2023年确实经历了困难;然而,市场表现出了韧性,并有效反弹。由于投资者需求的增加,MoonBag加密货币等新的加密货币正在进入市场,该货币拥有最好的模因币预售。 加密货币团队的精心规划才能使加密货币取得成功。目前重

  • 8 埃隆·马斯克命令英伟达将为特斯拉保留的数千块人工智能芯片运送给X和xAI

    在这篇文章NVDA TSLA关注你最喜欢的股票REATE FREE ACCOUNT 2024年5月6日,SpaceX和特斯拉首席执行官、X的所有者埃隆·马斯克在美国加利福尼亚州比佛利山庄的比佛利希尔顿酒店举行的米尔肯会议2024全球会议上发表讲话。David Swanson |路透社 埃隆·马斯克声称,他可以将特斯拉发展成为“人工智能和机器人领域的领导者”,他表示,这一雄心需要英伟达提供大量昂

  • 9 Brett价格预测:Brett是Meme Coin的头号赢家,拥有27%的抽运率,这款DOGE P2E ICO可能是下一个爆炸的加密货币

    截至美国东部时间凌晨4点,布雷特价格在过去24小时内飙升27%,至0.121美元,交易量下降36%,至8660万美元。 尽管许多表情包硬币都出现了亏损,但BRETT在6月2日创下了0.1278美元的历史新高。该代币随后略有回调,但再次飙升至0.12美元。 这是一个强大的阻力,BRETT在过去七天里抽了70%的油后,截至撰写本文时仍在试图打破这一阻力。自在BingX上市以来,Brett的价格已经上涨

  • 10 分析师表示,自美国证券交易委员会批准ETH ETF上市以来,价值300000000美元的以太坊已离开加密货币交易所

    一位链上分析师和交易员表示,自现货ETH交易所交易基金上市以来,加密货币交易所一直在见证以太坊的大规模外流。 Ali Martinez告诉他在社交媒体平台X上的63500名粉丝,自美国证券交易委员会(SEC)上月批准现货ETH ETF以来,市场参与者已从加密货币交易所取出777000 ETH,价值30亿美元。 资料来源:Ali Martinez/X 在撰写本文时,以太坊的交易价格为3776美元,