如何识别AI制品？2026版,ai在线鉴别报告

自从 AI 产物“泛滥”，我最爱干的一件事就是帮网友打假、鉴伪。

比如有次我看到小红书上有人发帖求助，疑似买家用 AI 做张产品损坏的假图骗取“仅退款”。我正帮网友一板一眼地分析，“断裂处有点模糊，对不上”，然后看到有其他帖子直接甩出国家反诈中心 App 的鉴定截图。

好家伙，国家终于出手了！不久前，国家反诈中心 App 新增了对疑似 AI 图像、视频、文本、人声音频内容的检测功能。

如今几乎每一天都有新迭代的生成式技术出现。AI 凭空生成极具现实感的长视频，连人物瞳孔里的光影折射和微表情下的皮肤纹理，都已经做到了符合人直觉的以假乱真。

对于互联网的不信任，在今天绝不是什么被迫害妄想症。AI 伪造确实引发了一场关于真实的信任危机。

往往对付一项技术的最好办法，是用技术打败技术。今天，我们就来聊聊生成式内容时代的新护城河：隐形水印。

道高一丈

顾名思义，这是一种看不见的水印。相比浮在图片上的传统的水印，极容易被简单修图手段抹掉，逃过人眼，隐形水印是通过算法，将标识信息直接写在内容的数据底层。

以当今被应用最广的隐形水印技术 SynthID（ DeepMind 团队推出的）为例。SynthID 的背后并不是一个简单的加密公式，训练 SynthID 的方式是两个深度学习模型左右互搏。一个“嵌入模型”负责把水印藏进去，一个“提取模型”负责把水印找出来。这两个模型经历了成千上万次的对抗训练，嵌入模型试图把信号藏得更深，提取模型则在被压缩、被涂改的残破数据中寻找嵌入痕迹。

针对不同媒介的数字内容，嵌入水印的方式也不同。

· 图片

数字图像的本质是几百万个发光像素点的集合。当 AI 绘图时，它就是在计算并决定像素的颜色分布。嵌入模型的做法是，在生成瞬间做人眼根本无法察觉的极其微小的调整。比如，让画面中特定区域的几千个红色像素，在亮度上集体暗了 0.01%，并在空间排列上形成某种特定的规律。即使你是专业调色师，肉眼也未必看出“正红”和“偏暗 0.01% 的红”的区别，但计算机能。

肉眼没有观感差异，但机器会看到水印

提取模型通常需要很高的鲁棒性，即使图片经历严重压缩和裁剪，附加多层滤镜，只要残留像素数量足够多，提取模型就能发现统计学规律，检测到 AI 水印。

我做了一个测试，用 Gemini 生成了两个真人小女孩的合照。然后对着屏幕翻拍，拿到 PS 里加滤镜调色，把图片发微信后再下载，压缩一遍。经历了一连串“洗稿式”处理后，Gemini 依然能一眼看穿。

· 视频

视频比图片多了一个关键的维度，时间。

视频由一帧一帧的画面构成，因此最为简单粗暴的嵌入方式，就是给每一帧单独打上隐形水印。

就跟人类身上每一个细胞都能提取出 DNA 一样。提取模型具备“抗剪辑”能力，即便是被抽帧，提取模型也能从哪怕只保留1秒钟的视频画面里将水印信号提取出来。

· 音频

给音频加隐形水印的逻辑参照了人的生理规律。

人类的听觉只能听到 20Hz - 20000Hz 的声音，我们不仅听不到超声波或次声波，而且当一个极其响亮的声音和一个微弱的声音同时出现时，由于"听觉掩蔽效应"，微弱的声音会被大脑自动忽略。但这是传统的音频水印法。

比如 Meta 的开源方案 AudioSeal 用的就是这种方法，模型会在原始音频中嵌入一段不在听觉范围内的“隐形频段”。

SynthID 做法是把声音波形转换成二维的频谱图，像处理图片一样在频谱图上加密，再把加了密的频谱图重新转换回音频波形。

嵌入水印后丝毫不影响人类的听觉体验，这些微小的加密特征完美融入了正常的声纹纹理中，看不出任何人为篡改的痕迹。

这种做法也让音频水印极其"抗造"。无论是被强行压缩成劣质的 MP3 格式，还是人为倍速播放，水印都极难被抹除。

· 文本

最后是文本。不得不说，给文字加隐形水印最难。

因为文本是离散的——一个词就是一个词，不能像像素那样做 0.01% 的微调。如果只是简单地把"漂亮"替换成"美丽"，很容易被别人用另一个 AI 翻译一遍就洗掉了。

目前文本水印的主流解法，是“黑幕操纵” AI 生成词汇的概率分布。

大语言模型本质上是一个“词汇接龙”机器。比如输入“今天天气很”，它预测下一个词是“好”的概率是 80%，是“晴朗”的概率是 15%。

SynthID-Text 用一种新颖的采样算法（Tournament Sampling）。模型要生成下一个词的时候，SynthID 不直接选概率最高的那个，它会给所有候选词分配特定分数（基于前文和密钥计算得来的）。这些词两两“PK”，最终得分最高的词作为最终输出。当解码器拿到一段文本，它会用同样的密钥计算一遍。就像掷骰子，表面上是随机的，如果我知道骰子的物理参数和投骰子的手法，也许就能预测结果。

结果是：人类读起来通顺流畅，但解码器一算这些词汇的出现概率和排列组合，就能断定，"这种用词规律，自然人写不出来。"

但是，生成质量和水印性能的平衡需要把握。想让水印越坚固、越抗造，就必须把它嵌得越深、对原始数据的修改阈值就得拉得越大，那势必会影响生成质量。

没有攻不破的盾

在黑客帝国里，没有绝对安全的盾。

如果像我似的，对着电脑屏幕“翻拍”呢？信号经历了一次“数字-模拟-数字”的跨媒介转换，原有的像素级编码有可能被物理洗掉。

或者“魔法打败魔法“，资深的AI绘图玩家将带有水印的 AI 图像放进绘图软件作为底图，开到极高的重绘幅度重新跑图，原有的水印很可能被洗掉。

有论文讨论了“重水印攻击”，攻击者使用自己的水印模型在已有的水印图片上再嵌入一层水印，干扰或覆盖原始信号。

以目前的技术环境，隐形水印更像是“君子协定”，尤其在开源的真空地带。如果模型的结构和权重完全公开，开发者可以修改推理流程、关闭相关模块，甚至直接训练不包含水印机制的模型版本。只要技术环境足够开放，“绕过”水印在理论上始终可行。也许“破解 AI 水印”会成为信息安全又一个常态问题，就像植入病毒和杀毒，一直在“共同进步”。

业界迫切需要一个“车同轨、书同文”的统一标准，目的是让 A 平台也能识别出这是由 B 模型生成的 AI，别都“各自为战”。

比如目前正在推进的 C2PA 技术标准。比如 OpenAI 已经在 DALL·E 3 生成内容中添加 C2PA 元数据。以及 Meta 将识别 C2PA、IPTC 标准的元数据，并在旗下社交平台比如 Facebook、Instagram 和 Threads 上标注出“AI 生成”，减少 AI 内容对用户的迷惑。

不过元数据（在后面也会提到），本质上是一种附加的数字签名，不如写进原数据里的水印那样深刻。

一种“确权”手段

其实早在 2024 年，OpenAI 就开发出了文本隐形水印，但迟迟不愿大规模部署。因为他们评估后发现，一旦强制给 ChatGPT 加上水印，那些依赖 AI 辅助写作、翻译或润色的真实用户，会因为极度反感被判定为“AI 代写”而大规模弃用产品。

但是作为“坚持手搓”的内容创作者，我为什么力挺这类信息追踪技术？隐形水印能给 AIGC 加上标签，就也能给人类创作者加，作为保护人类版权的一种方式。

以前保护版权最常用的手段是元数据（Metadata）嵌入，数码图像常见的元数据类型有 EXIF（相机型号、曝光等信息）、IPTC（作者、版权、图片关键字等）、XMP（后期创作软件写入的工作流程信息，Lightroom / Photoshop 做的颜色、裁剪等）。

元数据标签虽然藏在文件属性里，本质上只是一段附加的文本代码。目的是为了“展示”，而不是“加密”，且都可以删改。比如大多数社交媒体平台，为了节省空间，会将你上传的图片自动压缩，顺手剥离大部分元数据。

从生产源头，有人主张把水印直接刻进相机底层（比如徕卡、索尼已经在高端相机里做这事了）。按下快门那一刻，照片就自动生成无法篡改的加密证明。他们的逻辑是，未来不用费力鉴定什么是 AI 内容，只要文件没有这种物理级别的硬件水印，平台就直接默认它是机器生成的。

徕卡 M11-P是全球首款内置“内容凭证”的高端相机。是元数据，但又具备隐形水印特性，写入不可伪造的加密签名｜来源：徕卡

还有一些创作者认为，水印最好记录人类特有的生物特征，比如歌手具体的声带振动频率。然后把生物水印和结算系统打通。一旦 AI 公司抓取这些素材训练，底层代码就会强制触发合同，让 AI 平台自动向原作者付钱。所以“携带可验证的数字标识”一旦在各行业普及，就极有可能衍生出版权上的自动溯源与微支付机制。

比如 SynthID 技术文档表示目前超过真伪（AI与否）检测，技术已经进化到了出处溯源。

一个很有意思的应用例子。YouTuber 想把杂乱的家换成 ApplePark，可以用 YouTube 提供的 Dream Screen 功能，其内置 Veo 模型一键生成绿幕背景。发布视频时，平台底层的 SynthID 检测器就会并自动打上“合成内容”的合规标签。在 YouTube 平台上，创作者如果没有手动标记 AI 会被平台限流甚至封号。

图源 TechCrunch

隐形水印技术既可以被用来保护“人类成果”，也可以规范创作流程。

AIGC 爆发的几年间，彻底摧毁了人类长久建立起来的“眼见为实”的人生信条。真真假假混在一起，假的让人迷惑，真的让人难以置信。最终，我们不得不妥协，依赖技术对抗技术制造的虚假和迷茫。

作者：糕级冻雾

编辑：沈知涵

图片来源：没有特殊标明都来自Google

点个“小爱心”吧