把文本变成画作,AI对艺术“下手”了
发稿时间:2021-02-02 09:53:00 作者:马爱平 来源: 科技日报
视觉中国供图
图为人工智能系统 DALL·E根据文本“穿着芭蕾舞裙遛狗的小萝卜”绘制的图像图片来源:OpenAI官网
自然语言处理与视觉处理,都重在对不同模态数据所包含的语义信息进行识别和理解,但是两种数据的语义表现形式和处理方法不同,导致存在所谓的“语义壁垒”,现在这种壁垒正在被AI打破。
1月初,美国人工智能公司OpenAI推出两个跨越文本与图像次元的模型:DALL·E和CLIP,前者可以基于文本生成图像,后者则可以基于文本对图片进行分类。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。自然语言处理和视觉处理的边界已经被打破,多模态AI系统正在逐步建立。
“数据的来源或者形式是多种多样的,每一种都可以称为一种模态。例如图像、视频、声音、文字、红外、深度等都是不同模态的数据。单模态AI系统只能处理单个模态的数据。例如对于人脸识别系统或者语音识别系统来说,它们各自只能处理图像和声音数据。”中国科学院自动化研究所副研究员黄岩在接受科技日报记者采访时表示。
相对而言,多模态AI系统可以同时处理不止一种模态的数据,而且能够结合多种模态数据进行综合分析。“例如服务机器人系统或者无人驾驶系统就是典型的多模态系统,它们在导航的过程中会实时采集视频、深度、红外等多种模态的数据,进行综合分析后选择合适的行驶路线。”黄岩说。
不同层次任务强行关联会产生“壁垒”
就像人类有视觉、嗅觉、听觉一样,AI也有自己的“眼鼻嘴”,而为了研究的针对性和深入,科学家们通常会将其分为计算机视觉、自然语言处理、语音识别等研究领域,分门别类地解决不同的实际问题。
自然语言处理与视觉处理分别是怎样的过程,二者之间为什么会有壁垒?
语义是指文字、图像或符号之间的构成关系及意义。“自然语言处理与视觉处理,都重在对不同模态数据所包含的语义信息进行识别和理解,但是两种数据的语义表现形式和处理方法不同,导致存在所谓的‘语义壁垒’。”黄岩说。
视觉处理中最常见的数据就是图像,每个图像是由不同像素点排列而成的二维结构。像素点本身不具有任何语义类别信息,即无法仅凭一个像素点将其定义为图像数据,因为像素点本身只包含0到255之间的一个像素值。
“例如对于一张人脸图像来说,如果我们只看其中某些像素点是无法识别人脸图像这一语义类别信息的。因此,目前计算机视觉领域的研究人员更多研究的是如何让人工智能整合像素点数据,判断这个数据集合的语义类别。”黄岩说。
“语言数据最常见的就是句子,是由不同的词语序列化构成的一维结构。不同于图像像素,文本中每个词语已经包含了非常明确的语义类别信息。而自然语言处理则是在词语的基础上,进行更加高级的语义理解。”黄岩说,例如相同词语排列的顺序不同将产生不同的语义、多个句子联合形成段落则可以推理出隐含语义信息。
可以说,自然语言处理主要研究实现人与计算机直接用自然语言进行有效信息交流,这个过程包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解人类语言的意义,读懂人类语言的潜在含义;自然语言生成则是指计算机能以自然语言文本来表达它想要达到的意图。
由此可以看出,自然语言处理要解决的问题的层次深度超过了计算机视觉,自然语言处理是以理解人类的世界为目标,而计算机视觉所完成的就是所见即所得。这是两个不同层次的任务。目前来说,自然语言处理在语义分析层面来说要高于视觉处理,二者是不对等的。如果强行将两者进行语义关联的话,则会产生“语义壁垒”。
AI打破自然语言处理和视觉处理的边界
此前,OpenAI斥巨资打造的自然语言处理模型GPT-3,拥有1750亿超大参数量,是自然语言处理领域最强AI模型。人们发现GPT-3不仅能够答题、写文章、做翻译,还能生成代码、做数学推理、数据分析、画图表、制作简历。自2020年5月首次推出以来,GPT-3凭借惊人的文本生成能力受到广泛关注。
与GPT-3一样,DALL·E也是一个具有120亿参数的基于Transformer架构的语言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是图像。
在互联网上,OpenAI大秀了一把DALL·E的“超强想象力”,随意输入一句话,DALL·E就能生成相应图片,这个图片内容可能是现实世界已经存在的,也可能是根据自己的理解创造出来的。
此前,关于视觉领域的深度学习方法一直存在三大挑战——训练所需大量数据集的采集和标注,会导致成本攀升;训练好的视觉模型一般只擅长一类任务,迁移到其他任务需要花费巨大成本;即使在基准测试中表现良好,在实际应用中可能也不如人意。
对此,OpenAI联合创始人曾发文声称,语言模型或是一种解决方案,可以尝试通过文本来修改和生成图像。基于这一愿景,CLIP应运而生。只需要提供图像类别的文本描述,CLIP就能将图像进行分类。
至此,AI已经打破了自然语言处理和视觉处理的边界。“这主要得益于计算机视觉领域中语义类别分析方面的飞速发展,使得AI已经能够进一步进行更高层次的视觉语义理解。”黄岩说。
具体来说,随着深度学习的兴起,计算机视觉领域从2012年至今已经接连攻克一般自然场景下的目标识别、检测、分割等语义类别分析任务。2015年至今,越来越多的视觉研究者们开始提出和研究更加高层的语义理解任务,包括基于图像生成语言描述、用语言搜索图片、面向图像的语言问答等。
“这些语义理解任务通常都需要联合视觉模型和语言模型才能够解决,因此出现了第一批横跨视觉领域和语言领域的研究者。”黄岩说,在他们推动下,两个领域开始相互借鉴优秀模型和解决问题的思路,并进一步影响到更多传统视觉和语言处理任务。
多模态交互方式会带来全新的应用
随着人工智能技术发展,科学家也正在不断突破不同研究领域之间的界限,自然语言处理和视觉处理的交叉融合并不是个例。
“语音识别事实上已经加入其中,最近业内出现很多研究视觉+语音的新任务,例如基于一段语音生成人脸图像或者跳舞视频。”黄岩说,但是要注意到,语音其实与语言本身在内容上可能具有较大的重合性。在现在语音识别技术非常成熟的前提下,完全可以先对语音进行识别将其转换为语言,进而把任务转换为语言与图像交互的常规问题。
无论是DALL·E还是CLIP,都采用不同的方法在多模态学习领域跨出了令人惊喜的一步。今后,文本和图像的界限是否会被进一步打破,能否顺畅地用文字“控制”图像的分类和生成,将会给现实生活带来怎样的改变,都值得期待。
对于多模态交互方式可能会带来哪些全新应用?黄岩举了两个具有代表性的例子。
第一个是手机的多模态语音助手。该技术可以丰富目前手机语音智能助手的功能和应用范围。目前的手机助手只能进行语音单模态交互,未来可以结合手机相册等视觉数据、以及网络空间中的语言数据来进行更加多样化的推荐、查询、问答等操作。
第二个是机器人的多模态导航。该技术可以提升服务机器人与人在视觉和语音(或语言)方面的交互能力,例如未来可以告诉机器人“去会议室看看有没有电脑”,机器人在理解语言指令的情况下,就能够结合视觉、深度等信息进行导航和查找。
陕西举全省之力打造内陆营商环境高地,密集出台了一系列“高含金量”的亲商护商政策。而在该...
2021-02-02 09:55:00经最高人民法院核准并下达执行死刑命令,河北省邯郸市中级人民法院今日对犯故意杀人罪、强奸...
2021-02-02 09:47:002月1日0—24时,江苏省新增境外输入新冠肺炎确诊病例3例(均为印度尼西亚输入,在常州市定点...
2021-02-02 09:41:00今天(2月2日)春运进入第6天。与往年有很大不同的是,铁路、公路、水路、民航已连续多日“低...
2021-02-02 09:27:00香港特区政府表示,将引用《预防及控制疾病(对若干人士强制检测)规例》(《规例》)(第599...
2021-02-02 09:19:00今天(2月2日)冷空气继续南下影响我国,黄淮、江淮等地气温还将下降。
2021-02-02 09:02:00我国首条民营资本控股高铁——杭绍台铁路施工昨天转入全线铺轨阶段。杭绍台铁路是国内首批八...
2021-02-02 09:01:002010年1月30日,当天全国进入春运的第一天。新华社记者周科在南昌火车站广场拍下了这样一张照...
2021-02-02 08:47:00清华大学结构生物学高精尖创新中心PI生命科学学院研究员李赛正目不转睛地盯着电脑屏幕。突然...
2021-02-02 08:33:00教育部近日印发通知,要求中小学生原则上不得将个人手机带入校园。有些人对此持不同看法,但...
2021-02-02 08:27:00伪造藏族身份证,录制所谓“坐床仪式”,把自己PS成端坐莲花台、头顶佛光的形象……与藏传佛...
2021-02-02 08:24:00据吉林省卫健委官方微博消息,2月1日0—24时,吉林全省新发现确诊病例1例(通化市1例),无症...
2021-02-02 08:25:00宋亮是今年被打下的第3只“老虎”。上个月22日与25日,“首虎”、中国政法大学原副校长于志刚...
2021-02-02 08:24:002月1日0时至24时,北京无新增本地确诊病例、疑似病例和无症状感染者;新增1例境外输入确诊病...
2021-02-02 08:17:002021年2月1日0—24时,河北省无新增新型冠状病毒肺炎确诊病例。无新增死亡病例,无新增疑似病...
2021-02-02 08:15:00北京海淀区防治重大动物疫病指挥部办公室1日发布《关于圆明园遗址公园野生黑天鹅感染H5N8亚型...
2021-02-02 07:53:00强化对“一把手”的监督,是确保党中央重大决策部署和全面从严治党战略部署落到实处的关键环...
2021-02-02 07:46:00瞭望|特斯拉恶意甩锅是对中国消费者的无理傲慢:特斯拉汽车(北京)有限公司日前根据《缺陷汽...
2021-02-02 07:42:002021年2月2日,总台央视记者从黑龙江省卫健委获悉,2021年2月1日0—24时,黑龙江省新增新冠肺...
2021-02-02 07:31:00据黎巴嫩国家通讯社消息,黎巴嫩总统府当地时间1日发表声明,强调奥恩总统从未要求在新政府中...
2021-02-02 07:26:00当地时间2021年2月1日,缅甸执政党全国民主联盟(民盟)发言人苗纽表示,缅甸国务资政昂山素...
2021-02-02 07:11:00当地时间2月1日,联合国安理会轮值主席国英国将在美东时间2月2日上午就缅甸当前局势举行闭门...
2021-02-02 07:05:002月1日,黑龙江省佳木斯市应对新型冠状病毒感染肺炎疫情工作领导小组指挥部发布消息,向阳区...
2021-02-02 07:00:00在近日相继召开的各地两会中,科技创新不约而同被列为2021年工作重点,各地围绕基础研究、创...
2021-02-02 06:58:00来源:中国青年报(2021年02月02日11版)2021年1月读者投票最喜欢读的5本好书:《藏家》(许...
2021-02-02 06:07:00郑萍萍来源:中国青年报(2021年02月02日11版)给这3万张被遗弃的照片一个归宿。------------...
2021-02-02 06:07:00冯玥来源:中国青年报(2021年02月02日11版)我们依然站在同一条河中,彼时,彼地,此时,此...
2021-02-02 06:06:00徐冰来源:中国青年报(2021年02月02日11版)视觉中国供图保罗·索鲁的“毒舌”当然让人不舒...
2021-02-02 06:06:00程遂营来源:中国青年报(2021年02月02日10版)洛阳龙门石窟视觉中国供图宋代史学家司马光曾...
2021-02-02 06:06:00沈杰群来源:中国青年报(2021年02月02日10版)《岁时广记》时代在进步,可古今之人盼望新的...
2021-02-02 06:06:00吴鹏来源:中国青年报(2021年02月02日10版)视觉中国供图华夏民族对星空的热望、对未知的求...
2021-02-02 06:05:00韩浩月来源:中国青年报(2021年02月02日09版)1月27日,北京朝阳路观华国际影城。春节档多种...
2021-02-02 06:05:00