自从 AI 产物“泛滥”,我最爱干的一件事就是帮网友打假、鉴伪。
比如有次我看到小红书上有人发帖求助,疑似买家用 AI 做张产品损坏的假图骗取“仅退款”。我正帮网友一板一眼地分析,“断裂处有点模糊,对不上”,然后看到有其他帖子直接甩出国家反诈中心 App 的鉴定截图。
好家伙,国家终于出手了!不久前,国家反诈中心 App 新增了对疑似 AI 图像、视频、文本、人声音频内容的检测功能。
如今几乎每一天都有新迭代的生成式技术出现。AI 凭空生成极具现实感的长视频,连人物瞳孔里的光影折射和微表情下的皮肤纹理,都已经做到了符合人直觉的以假乱真。
对于互联网的不信任,在今天绝不是什么被迫害妄想症。AI 伪造确实引发了一场关于真实的信任危机。
往往对付一项技术的最好办法,是用技术打败技术。今天,我们就来聊聊生成式内容时代的新护城河:隐形水印。
道高一丈
顾名思义,这是一种看不见的水印。相比浮在图片上的传统的水印,极容易被简单修图手段抹掉,逃过人眼,隐形水印是通过算法,将标识信息直接写在内容的数据底层。
以当今被应用最广的隐形水印技术 SynthID( DeepMind 团队推出的)为例。SynthID 的背后并不是一个简单的加密公式,训练 SynthID 的方式是两个深度学习模型左右互搏。一个“嵌入模型”负责把水印藏进去,一个“提取模型”负责把水印找出来。这两个模型经历了成千上万次的对抗训练,嵌入模型试图把信号藏得更深,提取模型则在被压缩、被涂改的残破数据中寻找嵌入痕迹。
针对不同媒介的数字内容,嵌入水印的方式也不同。
· 图片
数字图像的本质是几百万个发光像素点的集合。当 AI 绘图时,它就是在计算并决定像素的颜色分布。嵌入模型的做法是,在生成瞬间做人眼根本无法察觉的极其微小的调整。比如,让画面中特定区域的几千个红色像素,在亮度上集体暗了 0.01%,并在空间排列上形成某种特定的规律。即使你是专业调色师,肉眼也未必看出“正红”和“偏暗 0.01% 的红”的区别,但计算机能。
肉眼没有观感差异,但机器会看到水印
提取模型通常需要很高的鲁棒性,即使图片经历严重压缩和裁剪,附加多层滤镜,只要残留像素数量足够多,提取模型就能发现统计学规律,检测到 AI 水印。
我做了一个测试,用 Gemini 生成了两个真人小女孩的合照。然后对着屏幕翻拍,拿到 PS 里加滤镜调色,把图片发微信后再下载,压缩一遍。经历了一连串“洗稿式”处理后,Gemini 依然能一眼看穿。
· 视频
视频比图片多了一个关键的维度,时间。
视频由一帧一帧的画面构成,因此最为简单粗暴的嵌入方式,就是给每一帧单独打上隐形水印。
就跟人类身上每一个细胞都能提取出 DNA 一样。提取模型具备“抗剪辑”能力,即便是被抽帧,提取模型也能从哪怕只保留1秒钟的视频画面里将水印信号提取出来。
· 音频
给音频加隐形水印的逻辑参照了人的生理规律。
人类的听觉只能听到 20Hz - 20000Hz 的声音,我们不仅听不到超声波或次声波,而且当一个极其响亮的声音和一个微弱的声音同时出现时,由于"听觉掩蔽效应",微弱的声音会被大脑自动忽略。但这是传统的音频水印法。
比如 Meta 的开源方案 AudioSeal 用的就是这种方法,模型会在原始音频中嵌入一段不在听觉范围内的“隐形频段”。
SynthID 做法是把声音波形转换成二维的频谱图,像处理图片一样在频谱图上加密,再把加了密的频谱图重新转换回音频波形。
嵌入水印后丝毫不影响人类的听觉体验,这些微小的加密特征完美融入了正常的声纹纹理中,看不出任何人为篡改的痕迹。
这种做法也让音频水印极其"抗造"。无论是被强行压缩成劣质的 MP3 格式,还是人为倍速播放,水印都极难被抹除。
· 文本
最后是文本。不得不说,给文字加隐形水印最难。
因为文本是离散的——一个词就是一个词,不能像像素那样做 0.01% 的微调。如果只是简单地把"漂亮"替换成"美丽",很容易被别人用另一个 AI 翻译一遍就洗掉了。
目前文本水印的主流解法,是“黑幕操纵” AI 生成词汇的概率分布。
大语言模型本质上是一个“词汇接龙”机器。比如输入“今天天气很”,它预测下一个词是“好”的概率是 80%,是“晴朗”的概率是 15%。
SynthID-Text 用一种新颖的采样算法(Tournament Sampling)。模型要生成下一个词的时候,SynthID 不直接选概率最高的那个,它会给所有候选词分配特定分数(基于前文和密钥计算得来的)。这些词两两“PK”,最终得分最高的词作为最终输出。当解码器拿到一段文本,它会用同样的密钥计算一遍。就像掷骰子,表面上是随机的,如果我知道骰子的物理参数和投骰子的手法,也许就能预测结果。
结果是:人类读起来通顺流畅,但解码器一算这些词汇的出现概率和排列组合,就能断定,"这种用词规律,自然人写不出来。"
但是,生成质量和水印性能的平衡需要把握。想让水印越坚固、越抗造,就必须把它嵌得越深、对原始数据的修改阈值就得拉得越大,那势必会影响生成质量。
没有攻不破的盾
在黑客帝国里,没有绝对安全的盾。
如果像我似的,对着电脑屏幕“翻拍”呢?信号经历了一次“数字-模拟-数字”的跨媒介转换,原有的像素级编码有可能被物理洗掉。
或者“魔法打败魔法“,资深的AI绘图玩家将带有水印的 AI 图像放进绘图软件作为底图,开到极高的重绘幅度重新跑图,原有的水印很可能被洗掉。
有论文讨论了“重水印攻击”,攻击者使用自己的水印模型在已有的水印图片上再嵌入一层水印,干扰或覆盖原始信号。
以目前的技术环境,隐形水印更像是“君子协定”,尤其在开源的真空地带。如果模型的结构和权重完全公开,开发者可以修改推理流程、关闭相关模块,甚至直接训练不包含水印机制的模型版本。只要技术环境足够开放,“绕过”水印在理论上始终可行。也许“破解 AI 水印”会成为信息安全又一个常态问题,就像植入病毒和杀毒,一直在“共同进步”。
业界迫切需要一个“车同轨、书同文”的统一标准,目的是让 A 平台也能识别出这是由 B 模型生成的 AI,别都“各自为战”。
比如目前正在推进的 C2PA 技术标准。比如 OpenAI 已经在 DALL·E 3 生成内容中添加 C2PA 元数据。以及 Meta 将识别 C2PA、IPTC 标准的元数据,并在旗下社交平台比如 Facebook、Instagram 和 Threads 上标注出“AI 生成”,减少 AI 内容对用户的迷惑。
不过元数据(在后面也会提到),本质上是一种附加的数字签名,不如写进原数据里的水印那样深刻。
一种“确权”手段
其实早在 2024 年,OpenAI 就开发出了文本隐形水印,但迟迟不愿大规模部署。因为他们评估后发现,一旦强制给 ChatGPT 加上水印,那些依赖 AI 辅助写作、翻译或润色的真实用户,会因为极度反感被判定为“AI 代写”而大规模弃用产品。
但是作为“坚持手搓”的内容创作者,我为什么力挺这类信息追踪技术?隐形水印能给 AIGC 加上标签,就也能给人类创作者加,作为保护人类版权的一种方式。
以前保护版权最常用的手段是元数据(Metadata)嵌入,数码图像常见的元数据类型有 EXIF(相机型号、曝光等信息)、IPTC(作者、版权、图片关键字等)、XMP(后期创作软件写入的工作流程信息,Lightroom / Photoshop 做的颜色、裁剪等)。
元数据标签虽然藏在文件属性里,本质上只是一段附加的文本代码。目的是为了“展示”,而不是“加密”,且都可以删改。比如大多数社交媒体平台,为了节省空间,会将你上传的图片自动压缩,顺手剥离大部分元数据。
从生产源头,有人主张把水印直接刻进相机底层(比如徕卡、索尼已经在高端相机里做这事了)。按下快门那一刻,照片就自动生成无法篡改的加密证明。他们的逻辑是,未来不用费力鉴定什么是 AI 内容,只要文件没有这种物理级别的硬件水印,平台就直接默认它是机器生成的。
徕卡 M11-P是全球首款内置“内容凭证”的高端相机。是元数据,但又具备隐形水印特性,写入不可伪造的加密签名|来源:徕卡
还有一些创作者认为,水印最好记录人类特有的生物特征,比如歌手具体的声带振动频率。然后把生物水印和结算系统打通。一旦 AI 公司抓取这些素材训练,底层代码就会强制触发合同,让 AI 平台自动向原作者付钱。所以“携带可验证的数字标识”一旦在各行业普及,就极有可能衍生出版权上的自动溯源与微支付机制。
比如 SynthID 技术文档表示目前超过真伪(AI与否)检测,技术已经进化到了出处溯源。
一个很有意思的应用例子。YouTuber 想把杂乱的家换成 ApplePark,可以用 YouTube 提供的 Dream Screen 功能,其内置 Veo 模型一键生成绿幕背景。发布视频时,平台底层的 SynthID 检测器就会并自动打上“合成内容”的合规标签。在 YouTube 平台上,创作者如果没有手动标记 AI 会被平台限流甚至封号。
图源 TechCrunch
隐形水印技术既可以被用来保护“人类成果”,也可以规范创作流程。
AIGC 爆发的几年间,彻底摧毁了人类长久建立起来的“眼见为实”的人生信条。真真假假混在一起,假的让人迷惑,真的让人难以置信。最终,我们不得不妥协,依赖技术对抗技术制造的虚假和迷茫。
作者:糕级冻雾
编辑:沈知涵
图片来源:没有特殊标明都来自Google
点个“小爱心”吧