遇见Auraflow:一个真正的开源AI图像生成器,旨在击败稳定的扩散3

时间:2024-10-01 编辑: 浏览:(90)

开源AI图像生成器之王的头衔有一个新的竞争者:Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭借其标准Apache 2.0许可证获得了越来越多的关注,与Stability AI用于发布Stable Diffusion 3(SD3)的限制性许可相比,这感觉就像一股新鲜空气。

支持者认为,开源项目可以快速加快竞争行业的开发周期,因为它使开发人员摆脱了许可和其他法律限制。在没有许可费的情况下,社区经常围绕有能力的开源项目形成,开发人员可以调整、修改、培训甚至从他们的工作中获利。

FAL AI在一篇博客文章中表示:“我们很高兴向您展示我们Auraflow模型系列的第一个版本,这是最大但完全开源的基于流的生成模型,能够生成文本到图像。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊工作的Burkay Gur和Gorkem Yurtsevenginers共同创立,该公司警告称,开源人工智能正处于危险之中。”他们说:“有些人甚至大胆地宣布开源人工智能已经死了。”别那么快!”

在四周多的密集计算时间里,Auraflow接受了严格的训练,包括对不同大小、分辨率(256x256、512x512和1024x1024)和纵横比(方形图像、风景、肖像等)的图像进行预训练。结果如何?GenEval得分为0.64,使用类似于DALL-E 3的快速增强管道后,得分提高到0.703。

用Auraflow创造的世代。图片由Fal AI分享

换句话说,当使用合成基准测试时,该模型提供了高质量的结果。然而,尽管Auraflow很好,但它仍然只是一个测试版,因为Fal认为它是0.1版,而不是稳定版。

不过,该模型是VRAM吞噬者。它需要一个具有大约12GB VRAM的强大GPU来运行其fp16版本——Stable Diffusion 3仅在6GB VRAM上运行良好,仅供参考。然而,该公司声称正在开发一种更易于管理的模型。Fal AI表示:“对于计算能力有限的消费级GPU卡来说,较小的型号或MoE可能更高效,因此请密切关注这款型号的迷你版,它仍然强大,但运行速度要快得多。”。

Auraflow可以在Huggingface上下载,也可以在ComfyUI中运行,ComfyUI管理器中也有一个自定义节点。

Auraflow代表了SD3的强大替代品,但它足够好吗?我们比较了两种基本模型,并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察结果时,你可以判断谁最有可能赢得世界各地人工智能艺术家的心。

艺术风格和创造力

提示:“一幅宁静湖面上日落的详细画作,天空充满了橙色、粉色和紫色的色调,一个延伸到水中的木码头,一个人坐在码头尽头,手里拿着鱼竿,周围是高大的草和野花,整体风格是印象派的,笔触大胆,色彩鲜艳。”

听觉流:

优点:大胆的笔触和鲜艳的色彩很好地捕捉了印象派风格。天空的色调表现得很好,营造出宁静的氛围。缺点:人和周围自然的细节可能更精确。木制码头和钓鱼可能缺乏明确的定义。钓竿没有处于自然位置。

SD3介质:

优点:表现出对细节的高度关注,尤其是在人物和码头的刻画方面。整个场景更有条理,元素清晰,轮廓精致。缺点:印象派风格不太明显,笔触看起来比预期的更平滑、更逼真。

胜者:平局。Auraflow更接近印象派风格,但SD3更为详细和结构化。

现实主义

提示:“一张高分辨率的夜间繁华城市街道照片,霓虹灯照亮了现场,人们沿着人行道行走,汽车驶过,一个卖热狗的街头小贩,湿漉漉的人行道上的灯光反射,整体风格非常逼真,注重细节和照明,霓虹灯上写着‘解密’。”

听觉流:

优势:用霓虹灯和湿路面上的倒影捕捉充满活力的夜生活。现场热闹非凡,灯光效果也做得很好。缺点:一些细节,比如街头小贩和行人,不够清晰,看起来很卡通,影响了超现实的质量。霓虹灯的标志不够清晰。它具有一定程度的文本理解能力,但不足以令人信任。(热狗标志旁边写着“解密”,但几乎看不清。)

SD3介质:

优点:提供高水平的细节和清晰度,特别是在人物和物体的描绘方面。通过精确的照明和反射,可以很好地实现超现实主义风格。霓虹灯标志清晰,文字易读。缺点:场景可能看起来太乏味,缺乏繁华城市街道的自然混乱。没有街头小贩,只有热狗摊

获胜者:SD3 Medium提供了一个更详细、更逼真的图像,使其成为这个提示的更好模型。

插图

提示:“一只巨大的蜘蛛在丛林中追逐一个女人的手绘插图,极其可怕、痛苦、黑暗和令人毛骨悚然的风景,恐怖,模拟摄影影响的暗示,素描。”

听觉流:

优点:成功营造出一种黑暗而令人毛骨悚然的氛围。带有草图元素的手绘风格很明显。缺点:蜘蛛和女人的细节可能不足,使场景不那么可怕和激烈。

SD3介质:

优点:对蜘蛛和女人进行了非常详细和可怕的描绘。痛苦和恐怖元素更为明显。缺点:模拟摄影的影响不太明显,草图风格可能会被高水平的细节所掩盖。蜘蛛的一些肢体是不自然的

获胜者:SD3 Medium提供了一个更可怕、更详细的插图,使其成为这个提示的更好模型。

迅速遵守

提示:“一个超现实的数字艺术作品,描绘了一个漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的植被,瀑布倾泻到下面的云层中,岛中心有一座小城堡,连接其他漂浮岛屿的光桥,天空中满是五颜六色的热气球和神话般的生物,整体风格梦幻般,有梦幻元素和发光效果。”

听觉流:

优势:通过发光效果和鲜艳的色彩,很好地捕捉到奇幻和梦幻的元素。浮岛和瀑布被描绘得很漂亮。这些桥是由光组成的,神话生物在场景中得到了体现。缺点:一些元素,如光之桥和神话生物,可能缺乏细节和清晰度。

SD3介质:

优点:提供了一个非常详细和复杂的场景,具有更卡通的外观。弱点:这一代人的即时坚持较弱,它没有创造出光之桥,这些桥没有连接到其他岛屿,也没有神话生物。

获胜者:Auraflow捕获了提示中的所有元素,使其成为该提示的更好模型。

空间意识

提示:“一只狗站在电视上,屏幕上显示着‘解密’这个词。左边是一个穿着西装的女人,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景超现实。”

听觉流:

优点:创造超现实和富有想象力的场景。构图和空间布局很有趣。缺点:狗、机器人和女人的细节可能不够精细,影响整体效果。急救箱的十字架漏进了第二个盒子和机器人本身。文本生成很差。

SD3介质:

优点:对所有元素进行了非常详细和清晰的描述。通过精确的空间布局,超现实的氛围得到了很好的保持。整体场景不太现实。缺点:这个场景可能看起来不那么富有想象力,更直白。

获胜者:平局。SD3 Medium提供了更好的清晰度,使其成为此提示的更好模型。Auraflow也提供了这一代人的所有元素,并在空间理解方面表现出了良好的理解水平。

动漫和漫画

提示:“一位女忍者在日本古代与一位强大的武士作战,动漫、漫画,非常详细、丰富多彩、充满活力。”

听觉流:

优势:很好地捕捉到动漫和漫画的动态和丰富多彩的元素。动作场面充满活力,引人入胜。它的风格非常详细,更像是封面插图。缺点:它缺乏附着力,只产生女忍者,而不注意武士对手。

SD3介质:

优点:采用简单的二维漫画风格,使场景生动动态。缺点:颜色可能不那么鲜艳,影响整体活力。它未能捕捉到古代日本的风景。

获胜者:SD3 Medium提供了更详细和动态的描述,使其成为此提示的更好模型。两者都缺乏迅速遵守的关键要素。

结论

Auraflow擅长捕捉印象派、奇幻和异想天开的风格,而SD3 Medium更擅长提供细节、超现实和动态的场景。

这两个弱点都可以通过微调来调整,这就是法律战胜技术的地方。Auraflow的Apache 2.0开源许可证使其对微调者具有吸引力,允许在许可条款下免费使用、复制和分发,这与SD3不同,SD3在这方面更具限制性。因此,开始使用Auraflow可能更容易。但在此之前,这只是一个尚未实现的战略优势。

然而,Auraflow需要大量的VRAM才能运行,一些报告显示高达35 GB,远高于SD3,SD3只需要6 GB的VRAM。作为参考,亚马逊上24GB RTX 4090的价格高达1700美元,而能够运行SD3的6GB RTX3050的价格不到200美元。这是SD3目前相对于Auraflow的明显优势。

考虑到这一点,SD3 Medium目前是比较中更好的型号,由于其较低的硬件要求和可比的质量结果,服务于更广泛的用户群。

尽管如此,Auraflow仍展现出巨大的潜力。如果将来开发一个修剪(更小)或量化(更不精确)的版本来降低其硬件需求,Auraflow可能会成为一个强有力的竞争者,并可能通过其稳定扩散模型挑战Stability长期以来的主导地位。

最新 更多 >
  • 1 ACA币如何购买与销售

    ACA币是一种虚拟货币,它基于区块链技术和智能合约系统构建而成。ACA币的目标是通过去中心化和匿名性实现更安全、更透明和更便捷的交易体验。由于区块链的去中心化特点,ACA币的交易不依赖于任何中央机构,这意味着没有中心化的控制和监管机构,使得其交易更加自由和隐私。在购买和销售ACA币时,选择安全可靠的交易所是非常重要的。以下是三个著名的交易所,它们为用户提供了便捷、稳定和安全的ACA币交易平台。首先

  • 2 ADEL币哪个市场有

    ADEL币是一种新型的加密货币,它构建在区块链技术之上,旨在为用户提供高效、安全的数字交易方式。作为一个具有巨大潜力和增值空间的数字资产,ADEL币已经引起了许多投资者和交易者的兴趣。在本文中,我们将介绍三个著名的交易所,分别是欧易交易所、币安交易所和火必交易所。首先是欧易交易所。欧易交易所是一个备受瞩目的数字资产交易平台,提供全球用户进行ADEL币交易的便捷渠道。它以其高度安全、便捷的交易环境而

  • 3 GME币的创始人是谁

    GME币的创始人是谁?在加密货币市场中,GME币是一种备受关注的数字货币,它的全称是GameStop Coin,是由Reddit用户在2021年年初发起的一次投机行为而被推到了市场风口浪尖。那么,GME币的创始人是谁呢?Reddit用户创建GME币事实上,GME币的创始人并不是任何一家公司或者组织。相反,它是由一群Reddit用户共同发起的,他们的目的是在GameStop(GME)短线爆升后,制造

  • 4 ADCO币哪个市场有

    ADCO币是一种基于区块链技术的数字货币,它的全称是ADCO Coin。ADCO币具有安全、去中心化、匿名等特点,旨在为用户提供便捷高效的交易方式,并推动数字货币技术的发展。欧易交易所是一家知名的数字货币交易平台,成立于2014年。该交易所在全球范围内拥有广泛的用户群体,并提供多种加密货币的交易对。欧易交易所以稳定性和高流动性而闻名,为用户提供安全可靠的交易环境。币安交易所是全球最大的加密货币交易

  • 5 GALEON币的创始人是谁

    GALEON币的创始人是谁?GALEON币是一种新兴的数字货币,其创新和发展得到了众多数字货币爱好者的关注和支持。那么,GALEON币的创始人是谁呢?下面让我们一起来了解一下。创始人介绍GALEON币的创始人是林先生,他是一位年轻而富有创新精神的数字货币爱好者,也是一位技术大牛。林先生从事数字货币行业的时间已经很长了,对数字货币的发展和变化有着深入而全面的了解。他一直致力于探索数字货币应用在现实生

  • 6 ADK币去哪里买

    ADK币是一种基于区块链技术的加密货币,它采用了先进的技术,具有快速、安全和匿名的特点。ADK币的发行总量有限,这使得它成为了投资者和加密货币爱好者们青睐的对象之一。对于想要购买ADK币的投资者们来说,有几个著名的交易所是值得一提的。这些交易所具有良好的声誉和可靠的交易服务,为用户提供了便捷的购买和交易ADK币的途径。首先是欧易交易所。作为全球知名的加密货币交易所之一,欧易交易所提供了广泛的加密货

  • 7 ACORE币如何购买与销售

    ACORE币是一种基于区块链技术的数字货币,旨在创建一个去中心化的金融体系。它提供了快速、安全和低成本的交易方式,同时提供了强大的隐私和防护功能。ACORE币的目标是革新传统金融行业,使其更加透明、高效和可靠。对于希望在ACORE币上投资的人们来说,了解可靠的交易所是至关重要的。下面介绍了三个相对著名的交易所,它们已经证明了自己在数字货币行业的信誉和可靠性,这些交易所分别是欧易交易所、币安交易所和

  • 8 GOETH币最高的时候是多少钱?

    GOETH币最高的时候是多少钱?GOETH币是一个去中心化的数字货币,它是在Ethereum网络上运行的,是Ethereum区块链上的代币之一。GOETH币在不同时间段内的价格波动很大,有时价格上涨到了非常高的水平,也有时价格大幅下跌。那GOETH币的价格曾经达到过多高呢?在2017年末及2018年初的加密货币行业繁荣时期,因为市场情绪过热,很多数字货币的价格都达到了历史高点。 GOETH币也未能

  • 9 ADAO币去哪里买

    ADAO币是一种基于区块链技术的加密货币,它的目标是实现去中心化应用平台的发展和应用。ADAO币是Cardano区块链平台的原生代币,Cardano是一个开源的智能合约平台,旨在提供更安全、可持续和可扩展的数字金融基础设施。在购买ADAO币之前,您可以考虑以下几个知名的交易所:1. 欧易交易所:欧易交易所是一个全球领先的数字资产交易平台,提供安全、稳定和高效的交易服务。该交易所提供多种交易对,包括

  • 10 ADT币哪个交易所可以买到

    ADT币,全称为“ADToken”,是一种基于区块链技术的数字货币。ADToken旨在通过区块链的去中心化特点,为数字广告行业提供更加透明、高效和安全的解决方案。ADT币的发行总量有限,随着时间的推移,市场上流通的ADT币数量将逐渐减少,可能会引起价格的上涨。作为一种新兴的数字货币,ADT币在全球范围内已经受到了不少投资者的关注。以下是一些著名的交易所,您可以在这些交易所中购买ADT币:1. 欧易