米乐m6官网登录入口-官方app下载 在线留言 联系我们
全国服务热线:

16113937082

您的位置:主页 > 新闻资讯 > 行业资讯 >

行业资讯

米乐m6官网登录入口-官方app下载—画家要失业了?OpenAI可以从文字直接生成图像

来源:m6米乐官方登录入口点击: 发布时间:2023-05-21 23:39
本文摘要:看图说话,是人类具备的一项重要技术。随着图像识别技术的生长,AI系统也逐渐具备了这一能力。好比下面这一幅图,可以形貌成“山顶上的老鹰”。 但如果反过来,依据“山顶上的老鹰”这一段文字,该如何获得一幅图片呢?近期,机械学习公司 OpenAI 通过其AI系统 DALL-E,实现了这一能力。向系统输入“山顶上的老鹰”这段文字,可以生成一系列的图像。

m6米乐官方登录入口

看图说话,是人类具备的一项重要技术。随着图像识别技术的生长,AI系统也逐渐具备了这一能力。好比下面这一幅图,可以形貌成“山顶上的老鹰”。

但如果反过来,依据“山顶上的老鹰”这一段文字,该如何获得一幅图片呢?近期,机械学习公司 OpenAI 通过其AI系统 DALL-E,实现了这一能力。向系统输入“山顶上的老鹰”这段文字,可以生成一系列的图像。DALL-E+CLIP,将文本酿成图片DALL-E是OpenAI基于GPT-3开发的一种新型神经网络,可以看成是GPT-3的一个小版本。GPT-3是一个自然语言处置惩罚模型,能够完成与语言相关的种种任务,如答题、写文章、语言翻译、数据分析、图表制作等。

例如,该模型可用于UI页面设计,输入文字“一个彩虹色的按钮”,系统就能直接生成相应的UI页面;可以将自然语言直接转化为Python语言等。GPT-3的优异体现源于其在算法、数据、算力方面的投入:算法,GPT-3接纳Sparse Transfromer模型,该模型接纳自注意力机制,改善了RNN训练慢的缺点;数据,GPT-3建设庞大的数据集,涵盖新闻报道、诗歌、小说、宗教、科学、生活等种种内容,数据集巨细凌驾英语维基百科(涵盖约600万篇文章)的100倍。此外,该模型的参数量到达1750亿;算力,Microsoft和OpenAI协力开发了一款超级盘算机,专门用于GPT-3模型训练,这款超级盘算机拥有凌驾 285000 个 CPU 内核、10000 个 GPU 和 400Gbps 的网络毗连,其盘算能力位列全球超级盘算机Top 5。

与GPT-3的1750亿参数量相比,DALL-E只有120亿个参数。虽然参数量更少,但其训练数据集更有针对性,使用文本-图像对的数据集,经由专门训练,可以从文本形貌生成图像。针对一段文字,DALL-E会生成512个图像,其中大部门图像的质量不高。

为此,OpenAI推出了另一个AI模型CLIP,该模型可从每个文本生成的512个采样中,选出最好的32个图像。CLIP是通过图像和文本举行训练的多模态模型,CLIP神经网络可以从自然语言监视中有效学习视觉观点,只需提供要识此外视觉种别名称,即可使用CLIP将图像举行分类。DALL-E模型具备的五大能力能力总体上看,DALL-E模型具备的能力包罗:控制单个目的的属性依据文字形貌,模型可生成单个物体,并对该物体的各项属性举行修改和控制。

多目的绘图当一段文字形貌中涉及到多个目的时,绘图难度增大。不仅要要生成多个物体,更重要的是让AI系统明白多个物体之间的关系。DALL-E可以独立地控制少量目的的属性,并在有限的规模内控制目的的数量以及它们之间的排列方式。3D目的绘制一般图像是二维的,3D图像具有更富厚的信息,结构也越发庞大。

DALL-E模型不仅能绘制二维图像,还能渲染出3D图,为通过自然语言实现3D渲染引擎功效提供了一种途径。DALL-E可以控制渲染场景的位置和角度,并凭据角度和照明条件生成准确且规范的已知目的。例如,输入“坐在田野上的体素化模型水豚”,可以获得如下图像:举行图像缔造缔造力似乎是人类的专利,可是基于一定规则的AI法式,有时候也能体现出一定的缔造能力。

DALL-E可以将语言中的观点举行组合,“缔造出”现实世界没有或者人类很难想象的图像。好比输入文字“竖琴状的蜗牛”,可以获得一些新奇的效果。这些图像,人类一般是比力难以画出来的。

AI法式的合理使用,可以有效拓宽人类的认知界限。图像-语言-图像将DALL-E与图像识别模型相互联合,就能够实现“以图绘图”,即依据一幅图片让AI系统生成更多的图片。

其历程为,通过图像识别,AI系统明白图片中的基本元素,并将其转化为针对图像的文字形貌,再通过DALL-E将这段文字转化为一系列图像。例如,给一张猫的图片,系统可以生成种种千奇百怪的类似图片。更进一步,文字、语音、图片、视频、3D模型,都是信息的体现方式,如果通过构建多模态神经网络,让文本和图像在深度神经网络中实现张量统一,买通差别信息之间的壁垒,对于通用人工智能意义重大。

人类用同一个大脑,可以实现听说读写,明白文字、语音、图像、视频等各种信息。要实现通用人工智能,多模态AI系统是关键节点之一。

参考链接:https://github.com/elyase/awesome-gpt3#awesome-gpt-3https://openai.com/blog/dall-e/https://www.xianjichina.com/special/detail_469250.html。


本文关键词:画家,要,失业,了,OpenAI,米乐m6官网登录入口,可以,从,文字,直接

本文来源:米乐m6官网登录入口-www.lzzhsy.com