新创意设计网

当前位置:新创意设计网 > 正文

AI图像辨别指南,从技术原理到识别技巧解析

在科技飞速发展的今天,人工智能(AI)正悄然渗透到我们生活的方方面面,以前所未有的方式重塑着我们的世界

在科技飞速发展的今天,人工智能(AI)正悄然渗透到我们生活的方方面面,以前所未有的方式重塑着我们的世界。但这也带来了新的挑战,区分AI生成内容和人类创造变得日益困难。最近,“生活黑客”(Lifehacker)网站推出了“AI大揭秘系列”,尝试解决这一问题。该系列通过分析AI生成的文本、对话、音乐、语音、视频以及图像的特点,帮助人们识别AI作品,强调在数字时代保持警惕和辨识能力的重要性。本期“看世界”将聚焦AI图像生成技术,帮助人们辨别在日常生活中看到的图像的真实性。

AI图像辨别指南,从技术原理到识别技巧解析

Credit: Stacey Zhu

在数字化时代,AI艺术作品已悄然渗透到我们生活的方方面面。从获得各种奖项(尽管备受争议),到被用于Netflix电影,再到Facebook上那些可以以假乱真的婴儿、耶稣与蔬菜图像,AI艺术的影响力正在以前所未有的速度扩大,且这一趋势似乎没有放缓的迹象。

AI图像辨别指南,从技术原理到识别技巧解析

杰森·艾伦 (Jason Allen) 的AI作品《空间歌剧院》(Théâtre D’opéra Spatial) 在美国科罗拉多州博览会的数字艺术类别中荣获第一名

AI图像辨别指南,从技术原理到识别技巧解析

Netflix动画《狗与男孩》(Dog and Boy)因融入AI技术引发争议

AI图像辨别指南,从技术原理到识别技巧解析

Facebook中的AI图像

随着图像生成技术的飞速发展,掌握辨别AI图像的能力变得愈发重要。这不仅能够帮助个人免受虚假照片欺骗,而且在不法之徒利用AI图像技术散布虚假信息时,也能够及时识破,避免严重后果。尽管开发AI图像生成器的企业正致力于研发为AI图像添加水印的技术,以期在源头上标明图像的非真实性,但这一目标尚未实现。目前,大多数在线传播的AI艺术作品仍缺乏明确的标签来提醒用户其真实性。因此,在虚假图片日益泛滥的网络环境中,非常有必要掌握一套行之有效的AI图像辨别技巧。

AI图像辨别指南,从技术原理到识别技巧解析

脱离现实的虚假AI图像(NBC News / Getty Images)

AI图像辨别指南,从技术原理到识别技巧解析

在社媒上标记AI生成的图像

AI艺术生成工具的工作原理

当我们面对一件由AI艺术生成工具创作的作品时,很容易误以为这些工具只是简单地将数据库中的各种图像拼凑在一起,但实际上其背后的技术远比这复杂。

AI艺术生成器确实是通过大量的图像数据集进行训练的,这些数据集内容广泛,包括艺术作品和日常照片等。但关键在于,AI并不像人类那样“看”这些图像,它将图像分解成像素,分析每个像素的具体数值。例如,AI不会直接“看到”一个苹果,而是识别构成苹果形状和颜色的一组特定像素值。大量的训练帮助AI积累了足够的知识,使其能逐渐识别出这些像素值组合通常代表的物体。通过这样的方式,AI学会了如何渲染水果、动物、人物、以及不同的艺术风格、色彩搭配和情绪表达。

一些AI图像生成器,比如DALL-E,采用了“扩散”(diffusion)技术来学习和生成图像。生成训练从一张真实的图像开始,过程中逐步向图像中添加视觉噪声(静态噪声),直到整张图片变得毫无意义。这样做的目的是让AI理解每一步添加的噪声对图像结构的影响。接下来,AI会尝试逆向操作,即从纯粹的噪声出发,逐步还原出原始图像的近似版本。通过这种方式,AI训练出了从零开始创造图像的能力。

AI图像辨别指南,从技术原理到识别技巧解析

当然,以上解释是对AI艺术生成器工作原理的一个高度简化。我们需要认识到这些生成器是建立在庞大的关系数据库基础之上的,这使得AI能够在短时间内渲染出复杂的场景,但这种技术生成的图像也不免有些许古怪之处,正是这些古怪之处能够帮助我们区分AI生成的图像和真实的图像。

☛ 异常的身体结构

AI艺术作品日益精进,但并不完美。这些工具虽然能够创作出具有逼真光影效果的高质量图像,但在处理细微之处时仍显得力不从心。

最明显的一个例子是,AI艺术作品中的“人物”角色常常出现手指数量不对的情况。或许图像乍一看颇为逼真,但仔细观察手部,便会发现每只手可能有六、七或八根手指,又或是相反,只有三根手指,其中两根又似乎要合并成一根。总之,手指及手掌部位常常显得混乱。

AI图像辨别指南,从技术原理到识别技巧解析

手指明显异常的图像

虽然手指是AI最容易出错误的地方,但其他身体部位的问题也并不少见。任何涉及到人类身体细节的重复模式,都可能在AI艺术作品中出错。比如图像中人物的牙齿:有时牙齿数量过多,有时又扭曲得异常。虽然并非每个人都有完美的笑容,但AI所创作的牙齿往往过于夸张。甚至可能看到人物有多余肢体的情况比如衣服中隐藏着第三只手臂。

Vox曾发布过一期精彩的视频(Why AI art struggles with hands),探讨了为何AI难以处理这些重复性元素,归根结底,这是由于AI缺乏经验。这些工具虽然是在海量数据上训练的,但一旦遇到复杂的结构,比如手部,其现有的数据便无法为AI提供足够的背景信息,使其能够正确且真实地生成相关元素。AI不能真正理解手部的实际运作方式,只能依据其所见的手部信息进行模仿,从而导致了错误图像的产生。

AI图像辨别指南,从技术原理到识别技巧解析

扭曲的手部结构

☛ 多元素的混合

观察众多的AI艺术作品,可以发现一个奇特的现象:各种元素仿佛都交织在了一起且发生了变形。比如手指的扭曲、牙齿的变形、衣物与身体融合、眼睛处于头部非正常区域等。这种混合现象并不仅限于图像中的主体,图像中的其他元素也经常会产生不同程度的混合。以下面这张DALL-E生成的图片为例,棋盘呈现出波浪状,部分区域变形,棋子与棋盘融为一体看不清边界。画面右侧的女性牙齿紧紧挤在一起,而另一位女性的毛衣袖口则呈折叠状,她的手指也连在了一起。

AI图像辨别指南,从技术原理到识别技巧解析

根据提示语“生成一张一群朋友在玩棋盘游戏时互相微笑的图像” 生成的AI图像

图片来源:Jake Peterson/OpenAI

☛ 古怪的文字呈现

AI能够轻松生成文本内容,但在图像中呈现文字时往往表现欠佳。多数情况下,融入了文字元素的AI艺术作品显得颇为突兀。它似乎在努力模仿现实世界中的标识,却未能精准复制,比如在试图表达“可口可乐”时所有字母却杂乱无章地交织在一起。另一些时候,文字的呈现给人一种杜撰了一种新语言或是在梦中辨识某种文字的超现实感。

不过,AI在这一领域的进步也非常迅速。DALL-E与Meta AI均能创作出带有“祝凯伦生日快乐”(HAPPY BIRTHDAY KAREN)字样的蛋糕图像,且整体效果并无明显瑕疵。但仔细看的话仍会发现Meta生成的图像中的“HAPPY”一词中的第二个“P”更像是个“Y”,而“KAREN”中的“A”则多了一条线。若我们明确指示AI按要求进行书写,这些图像中的文字效果会更好。但当AI自由发挥时,文字的呈现往往显得怪异,因此,如果图像的创作者没有意识到这一点并加以修正,那么图片中的文字呈现问题就会显现出来。

☛ 内容中的知识漏洞

AI并不具备真正的理解能力,它只是在已学习的数据关系中进行拼凑和创作。它不理解建筑,不会打网球,也不了解人类手部动作的自然规律。它只是从海量训练中提取信息,并尽力模仿和复制所提出的要求。如果仔细观察,便会发现AI艺术作品中存在的知识漏洞,这在内容复杂的图像中更为明显。

以下面这张图片为例,给AI的指令是“请DALL-E生成一张地下室派对的图片:大家在玩投杯球游戏(beer pong),用红色solo杯喝酒聊天”。结果生成的图像问题层出不穷:画面中很多人的眼睛位置不对;玩投杯球男子的手部姿势十分古怪;桌子表面凹凸不平,一侧不合理地摆着两套杯子。画面背景愈发离奇,一名男子似乎跪着,端着红杯子在豪饮一瓶酒,他身后男子的红杯子里又似乎塞了个蓝色的罐子,就像是杯子变成了瓶套。再往后看,男子身后的人脸仿佛被Photoshop处理过,模糊不清。

AI图像辨别指南,从技术原理到识别技巧解析

根据提示语“生成一张地下室派对的图片:大家玩着投杯球游戏,用红色solo杯喝酒聊天”生成的图像

图片来源:Jake Peterson/OpenAI

即便是AI公司自己发布的官方示例,也存在逻辑上的矛盾。OpenAI在展示 DALL-E 3时,用了一张颇为有趣的牛油果图片。图片中,一个被挖去果核的牛油果正向一位“治疗师”(一把勺子)抱怨自己腹中空空如也。这个创意颇为新颖,但当我们留意到“治疗师”手中的记录单时,问题就显现出来了:记录单带字迹的页面是向外的,这与人类在纸上书写的习惯不符。显然,DALL-E 3学习了不少治疗师的图片,知道他们通常会在什么工具上做记录,但它未能理解人类习惯在纸上写字,而不是硬板上。

AI图像辨别指南,从技术原理到识别技巧解析

在Facebook等社交媒体上广泛传播的AI图像往往令人费解。比如,谁会想到用奥利奥饼干来制作猫雕塑呢?又为何有那么多悲观的艺术家会选择用耶稣的形象来堆砌沙堡?艺术当然可以天马行空,但AI生成的艺术作品,无论是细节还是主题,都显得有些荒谬。

☛ 不自然的光泽感

观察了大量由AI生成的图像后,我们可以察觉到一些微妙的不同寻常之处,尤其是在那些追求照片般效果的图像中:所有物体似乎都笼罩着一层不自然的光泽。这种现象被称为“AI光泽”(AI sheen),一旦掌握了辨识它的方法,便能轻易判断图片是否由AI生成。这类图像往往过度曝光,或是采用戏剧化的光影效果,使得画面中的主体异常夺目,即使其(比如人物的手)并无明显的瑕疵。

AI图像辨别指南,从技术原理到识别技巧解析

根据提示语“生成一张女人用双手握着棒球的逼真图像”生成的图像

图片来源:Jake Peterson/OpenAI

☛ 保持理性的怀疑精神

随着AI技术的不断进步,目前尚能发挥作用的这些技巧或许不久的将来便会过时。AI的文字呈现能力已经显著提升,谁能断言它将来不会找到方法来生成逼真的手部图像,或者避免图像元素间的突兀融合,以及不再在背景中添加怪异元素呢?虽然上述技巧对于识别照片类的AI图像仍然有效,但识别AI创作的艺术品可能会更加棘手:这些作品可能同样存在上述瑕疵,但更容易利用“绘画”的特性来掩盖这些不一致之处,因为绘画本身就倾向于混合、非完全逼真,且更容易被赋予多重解读。

在这个科技高速发展的时代,浏览互联网时保持高度警觉比以往任何时候都更为重要。在我们被复杂的艺术作品深深打动,或是被令人反感的图片激怒之前,请先冷静下来思考:这张图片是真的吗?

热点排行