配件商：

代理商：

制造商：

您的位置：首页 > 资讯 > 企业动态 > 正文

MIT：人工智能图像生成器如何帮助机器人

2022-11-04 09:10 性质：原创作者：Hu yangbo 来源：AGV网

免责声明：中叉网（www.chinaforklift.com)尊重合法版权，反对侵权盗版。（凡是我网所转载之文章，文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点，与本网无关。如有需要删除，敬请来电商榷！）

作者为美国麻省理工学院的Rachel Gordon美国麻省理工学院博士生Yilun Du一直致力于将稳定扩散模型（生成艺术的技术支柱）扩展到机器人等其他领域。人工智能图像生成器，在梦想和现实的交汇处创造...

作者为美国麻省理工学院的Rachel Gordon

美国麻省理工学院博士生Yilun Du一直致力于将稳定扩散模型（生成艺术的技术支柱）扩展到机器人等其他领域。

人工智能图像生成器，在梦想和现实的交汇处创造出奇幻的景象，在网络的每个角落涌现。它们的娱乐价值体现在不断扩大的异想天开和随机图像的宝库中，作为人类设计师大脑的间接门户。一个简单的文字提示就能产生一个几乎即时的图像，满足了我们的原始大脑，它是硬性规定的即时满足。

虽然看起来是新生事物，但人工智能生成的艺术领域最早可以追溯到20世纪60年代，早期尝试使用基于符号规则的方法来制作技术图像。虽然解读和解析文字的模型进展越来越成熟，但生成艺术的爆发引发了围绕版权、虚假信息和偏见的辩论，这些都陷入了炒作和争议之中。

电子工程和计算机科学系的博士生、，美国麻省理工学院计算机科学和人工智能实验室（CSAIL）的附属机构Yilun Du最近开发了一种新方法，使像《DALL-E 2》这样的模型更具创造性，并有更好的场景理解。在这里，Du描述了这些模型是如何工作的，这种技术基础设施是否可以应用于其他领域，以及我们如何在人工智能和人类创造力之间划清界限。

问：人工智能生成的图像使用一种叫做 "稳定扩散 "的模型，在短短几秒钟内将文字变成令人震惊的图像。但每张图片的背后通常都有一个人。那么，人工智能和人类创造力之间的界限是什么？这些模型到底是如何工作的？

答：想象一下你在谷歌搜索上能得到的所有图片以及它们的相关模式。这就是这些模型的食物。它们在所有这些图片和它们的标题上接受训练，以生成与它在互联网上看到的数十亿张图片相似的图片。

比方说，一个模型已经看到了很多狗的照片。它经过训练，所以当它得到类似 "狗 "这样的文字输入提示时，它能够生成一张看起来与已经看到的许多狗的照片非常相似的照片。现在，从方法论上讲，这一切的工作可以追溯到非常古老的一类模型，称为 "基于能量的模型"，起源于70年代或80年代。

在基于能量的模型中，在图像上构建了一个能量景观，用来模拟物理耗散以生成图像。当你把一个墨水点滴到水中，它消散了，例如，在最后，你只是得到这种均匀的纹理。但如果你试图扭转这个消散的过程，你又会逐渐得到水里原来的墨点。

或者说，你有这个非常复杂的积木塔，如果你用球砸它，它就会坍塌成一堆积木。这堆积木就非常无序了，而且没有什么结构。为了使塔复活，你可以尝试逆转这个折叠过程，生成你原来的那堆积木。

这些生成模型生成图像的方式非常类似，最初，你有这个非常好的图像，你从这个随机的噪声开始，你基本上学会了如何模拟这个从噪声回到你的原始图像的过程，你试图迭代地完善这个图像，使它越来越真实。

就人工智能和人类创造力之间的界限而言，你可以说，这些模型确实是在人们的创造力上训练出来的。互联网上有各种类型的绘画和图像，都是人们过去已经创造过的。这些模型被训练来复述和生成互联网上已经出现的图像。因此，这些模型更像是人们几百年来花费创造力的结晶。

同时，由于这些模型是根据人类所设计的东西进行训练的，它们可以生成与人类过去所做的非常相似的艺术作品。他们可以在人们所做的艺术中找到模式，但这些模型要真正自己生成有创意的照片就难多了。

如果你试图输入 "抽象艺术 "或 "独特艺术 "之类的提示，它并不能真正理解人类艺术的创造力方面。可以说，这些模型是在复述人们过去所做的事情，而不是从根本上产生新的和创造性的艺术。

由于这些模型是在互联网上的大量图片上训练出来的，这些图片中很多都可能是有版权的。你并不确切知道模型在生成新图像时检索了什么，所以有一个很大的问题是，你甚至可以确定模型是否在使用受版权保护的图像。如果该模型在某种意义上依赖于一些受版权保护的图像，那么这些新图像是否受版权保护？这是另一个需要解决的问题。

美国麻省理工学院学生解释 AI 图像生成器解释 AI 图像生成器

问：你是否认为由扩散模型生成的图像编码了对自然或物理世界的某种理解，无论是动态的还是几何的？是否有努力 "教导 "图像生成器了解婴儿很早就学会的宇宙的基本知识？

答：在代码中，他们是否理解了对自然和物理世界的一些把握？我想肯定是的。如果你要求一个模型生成一个稳定的块状配置，它肯定会生成一个稳定的块状配置。如果你告诉它，生成一个不稳定的块状配置，它确实看起来非常不稳定。或者，如果你说 "湖边的一棵树"，它大致上能够生成。

从某种意义上说，似乎这些模型已经抓住了常识的很大一个方面。但是，使我们离真正理解自然和物理世界仍然非常遥远的问题是，当你试图生成你或我在工作中我们的头脑可以非常容易地想象的不经常出现的词语组合时，这些模型不能。

例如，如果你说，"把叉子放在盘子上面"，这种情况一直在发生。如果你要求模型产生这个，它很容易就能做到。如果你说，"把盘子放在叉子上面"，同样，我们很容易想象这将是什么样子的。但是，如果你把它放到任何这些大型模型中，你永远不会得到一个放在叉子上面的盘子。相反，你会得到一个盘子上面的叉子，因为这些模型正在学习重述它所训练的所有图像。它不能很好地归纳出它没有见过的词语的组合。

一个相当知名的例子是宇航员骑着马，模型可以轻松做到这一点。但是如果你说一匹马骑着一个宇航员，它仍然会生成一个人骑着一匹马。看起来这些模型在它们所训练的数据集中捕捉到了很多相关性，但它们实际上并没有捕捉到世界的基本因果机制。

另一个常用的例子是，如果你得到非常复杂的文本描述，比如一个物体在另一个物体的右边，第三个物体在前面，还有第三个或第四个物体在飞。它真的只能满足也许是其中的一个或两个物体。这可能部分是由于训练数据的原因，因为很少有非常复杂的标题但它也可能表明，这些模型不是很有结构。

你可以想象，如果你得到非常复杂的自然语言提示，模型没有办法准确地表示所有的组成部分的细节。

问：你最近提出了一种新的方法，使用多个模型来创造更复杂的图像，对生成艺术有更好的理解。这个框架在图像或文本领域之外是否有潜在的应用？

答：我们真正受到了这些模型的一个限制的启发。当你给这些模型非常复杂的场景描述时，它们实际上并不能正确地生成与之匹配的图像。

一个想法是，由于它是一个具有固定计算图的单一模型，意味着你只能使用固定的计算量来生成图像，如果你得到一个极其复杂的提示，你就没有办法使用更多的计算能力来生成这个图像。

如果我给人类一个场景的描述，比如说，100行，和一个只有一行的场景，人类艺术家可以在前者上花费更多的时间。这些模型并没有真正的感性来做到这一点。那么，我们建议，给定非常复杂的提示，你实际上可以把许多不同的独立模型组成在一起，让每个单独的模型代表你想要描述的场景的一部分。

我们发现，这使我们的模型能够生成更复杂的场景，或者更准确地一起生成场景的不同方面。此外，这种方法可以普遍应用于各种不同的领域。虽然图像生成可能是目前最成功的应用，但生成式模型实际上已经在各种领域中看到了各种类型的应用。

你可以用它们来生成不同的不同的机器人行为，合成3D形状，使人们更好地理解场景，或设计新材料。你可以潜在地组成多个所需的因素，以产生你在特定应用中需要的确切材料。

我们一直非常感兴趣的一件事是机器人技术。就像你可以生成不同的图像一样，你也可以生成不同的机器人轨迹（路径和时间表），通过将不同的模型组合在一起，你能够生成具有不同技能组合的轨迹。如果我有跳跃与避开障碍物的自然语言规范，你也可以将这些模型合成在一起，然后生成既能跳跃又能避开障碍物的机器人轨迹.

以类似的方式，如果我们想设计蛋白质，我们可以指定不同的功能或方面--类似于我们用语言来指定图像的内容--用类似语言的描述，如蛋白质的类型或功能。然后，我们可以将这些组合在一起，生成有可能满足所有这些给定功能的新蛋白质。

我们还探索了在三维形状生成上使用扩散模型，你可以使用这种方法来生成和设计三维资产。通常情况下，3D资产设计是一个非常复杂和费力的过程。通过将不同的模型组合在一起，生成形状就会变得容易得多，例如，"我想要一个有四条腿的3D形状，有这样的风格和高度"，可能会使3D资产设计的一部分自动化。

0赞 0踩

下一篇天能与华铁应急强强联合，助力城市绿色更新

上一篇 Fusion 和Bradshaw联合开发无GPS的AGV物流牵引车

网友评论
文明上网，理性发言，拒绝广告
0条评论

相关资讯
更多>>

广州双展启幕，合肥搬易通MiMA硬核实力诠释行业标杆风范！

5月21日，物流与医药行业的两大盛会——中国（广州）国际物流装备与技术展览会以及第90届全国药品交易会于广州盛大开幕。合肥搬易通（MiMA米玛）作为物料搬运领...

2025-05-21 20:55
丰田叉车助力巴斯夫湛江一体化基地优化物流作业

湛江，作为全国综合性交通枢纽海湾城市，是中国西南各省与东南亚、非洲、欧洲和大洋洲的重要纽带。2019年11月，巴斯夫湛江一体化基地在这里正式启动，总投资额约...

2025-05-21 20:53
高空作业新选择，林德剪刀叉系列高空作业平台实力登场

高空作业难题多空间狭窄难施展设备笨重转场低效？维护成本居高不下？林德剪刀叉系列高空作业平台来袭一机搞定室内外场景轻松助您解决高空作业难题！4-14米自由伸...

2025-05-21 20:52
CHINA PRINT 2025落幕，回顾蓝芯科技精彩瞬间

5月19日，为期五天的第十一届北京国际印刷技术展览会（CHINA PRINT 2025）落下帷幕，一起来回顾本次展会的精彩内容。本次展会，蓝芯科技携“包装生产全栈式机...

2025-05-21 20:47
佛朗斯股份番禺分公司温国成荣膺国内事业4月销售冠军

在当今竞争激烈的销售领域，脱颖而出并非易事。然而，佛朗斯股份番禺分公司的温国成却凭借着出色的专业能力和卓越的销售技巧，斩获4月份销冠殊荣。温国成说:销...

2025-05-21 20:45
展会邀请函|镭神智能与您相约第七届中国西部国际投资贸易洽谈会

2025-05-21 20:43
喜报丨小个子也能撑起大梦想--诺力张振东喜获浙江省自强模范

5月20日，全国、浙江省级自强模范暨助残先进接见活动在浙江省人民大会堂举行。我公司工艺技术中心高级工艺工程师张振东荣获“浙江省自强模范”称号，并作为湖州...

2025-05-21 19:55
卓一智能叉车VNA窄巷道产品技术交流会（南部广州站）圆满收官！

云山高，珠江水长。2025年5月20日，广州，在这座有着“千年商都”美誉的粤港澳大湾区核心枢纽城市，卓一智能叉车隆重举办了VNA窄巷道产品技术交流会（南部广州站...

2025-05-21 19:54
融合与发展：江淮重工构建合力叉车产品家族新势力

在“合力改变物料搬运方式--合力・中叉网|2025中国叉车和移动机器人高质量发展万里行”活动中，万里行小组走进安徽江淮重型工程机械有限公司（简称“江淮重工”...

2025-05-20 22:17
数据合规有保障！爱动超越携手亚马逊加速工业车辆智能出海

近年，中国企业正从传统的生产、制造、出口向高端技术研发与服务进行转型。工业车辆作为仓储、物流、港口等行业的核心生产力，在世界各地均有着强大需求。中国工...

2025-05-20 20:06