一场百人动捕过后，行业巨头们又要小心了

2026年5月31日，上海宝山。100名舞者同时走进1000平米的动捕棚。

百人动捕活动现场

头顶上，76台相机阵列早已架好。

这场挑战的技术参数注定载入行业史册：5300个反光点，每帧6万组二维数据，每秒需要处理约720万个二维图像点，而系统端到端延迟被牢牢控制在12毫秒以内，这比人类眨一次眼还要快一个数量级。

几个小时后，全球公开可查的最大规模实时多人动作捕捉纪录，属于一家中国公司：青瞳视觉。

一、阿凡达，与动捕这门手艺

2009年，《阿凡达》让观众首次看到那些栩栩如生的蓝色纳威人。很多人并不知道，每一个数字角色的动作，都源于真实演员穿着贴满反光点的紧身服，在一个布满摄像头的棚里表演。

《阿凡达》系列相关镜头

这就是动作捕捉，是物理动作与数字信号之间的底层转换协议。

这门手艺被少数几家公司垄断了四十多年。如果你问一位好莱坞导演或顶尖生物力学教授，动捕系统在用谁家的?"，答案大概率是英国的Vicon和美国的OptiTrack。前者从1980年代起深耕好莱坞和全球顶级实验室，后者则在NASA航天仿真领域根基深厚。

它们的优势是漫长的品牌认知与由此形成的生态惯性。而青瞳视觉2015年才从中科院自动化所走出来。如今，其动捕相机累计出货量已突破10万台，覆盖国内90%以上的985和211高校，国内出货量位居第一。硬件实现100%国产化，同等配置价格比进口低四到六成。

Vicon和OptiTrack的强项，是服务于一部电影拍两年的好莱坞逻辑。但青瞳视觉从创业第一天起，面对的就是完全不同的需求土壤：国产年番要求周周更，虚拟偶像要求天天播，机器人要求日日练。

正是这些非标准的极限任务，让青瞳视觉长出了Vicon不具备的肌肉。

二、百人并发：一场玩笑催生的极限压榨

关于这场百人挑战的由来，有一个颇有意思的缘起。

去年在西安，AMD渠道行业解决方案经理李凯男看到青瞳视觉团队在调试设备，聊起技术瓶颈时发现，青瞳视觉的硬件已达顶级规格，但算力解算成为卡点。李凯男主动提出，可以试试我们（AMD）的机器，随后两人头脑风暴，李凯男撺掇说，能不能搞个100人试试，张海威当场拍板应下。

张海威后来笑着回忆，这是老板拍脑袋，CTO拍屁股，真正落地的压力全部落在技术团队身上。为什么100人比1个人难这么多?

捕捉100个人，难点的增长从线性变成指数级。100个身形相似的女舞者在同一场地交织。每人身上53个反光点，总计5300个点。系统必须在12毫秒内，完成从图像采集到骨骼解算的全链路处理。

更困难的是身份识别。100个身形相似的人在高速舞蹈中相互遮挡，标记点反复丢失重现。系统必须在毫秒级判断“这个光斑是A的左肘还是B的右膝”。

一旦ID错乱，骨骼就会漂移、扭曲。第一次内部测试时，系统刚加载到70人左右就卡住了。CPU占用率飙升到99%，内存调用异常。

张海威回忆，研发工程师在“揪头发”，“一堆人对着电脑，全程懵了。”

走道里站满了舞者，开销、场租、人力成本都在燃烧。团队不得不宣布中场休息，留下专家会诊小组现场极限拉通诊断。问题出在哪里？

当时的硬件配置已是顶级算力，理论上足以应对百人解算，但软件能否“吃透”这个硬件，是另一回事。

CTO张群在复盘会上说，底层算法没有充分利用这么多核心资源。很多线程在空转、争抢，核心越多，调度混乱反而越严重。 AMD渠道经理李凯男补充说，需要在动捕这种实时场景里做线程亲和性绑定，让核心解算线程固定在特定核心上，不被中断。否则线程频繁跳跃，累积的损耗在每一帧都是致命延迟。

为此，AMD团队做了两件事。一是从大约10款处理器中反复联调，锚定了一颗最平衡的芯片，并从总部调来可调BIOS版本。