2026年5月31日,上海宝山。100名舞者同时走进1000平米的动捕棚。
百人动捕活动现场
头顶上,76台相机阵列早已架好。
这场挑战的技术参数注定载入行业史册:5300个反光点,每帧6万组二维数据,每秒需要处理约720万个二维图像点,而系统端到端延迟被牢牢控制在12毫秒以内,这比人类眨一次眼还要快一个数量级。
几个小时后,全球公开可查的最大规模实时多人动作捕捉纪录,属于一家中国公司:青瞳视觉。
一、阿凡达,与动捕这门手艺
2009年,《阿凡达》让观众首次看到那些栩栩如生的蓝色纳威人。很多人并不知道,每一个数字角色的动作,都源于真实演员穿着贴满反光点的紧身服,在一个布满摄像头的棚里表演。
《阿凡达》系列相关镜头
这就是动作捕捉,是物理动作与数字信号之间的底层转换协议。
这门手艺被少数几家公司垄断了四十多年。如果你问一位好莱坞导演或顶尖生物力学教授,动捕系统在用谁家的?",答案大概率是英国的Vicon和美国的OptiTrack。前者从1980年代起深耕好莱坞和全球顶级实验室,后者则在NASA航天仿真领域根基深厚。
它们的优势是漫长的品牌认知与由此形成的生态惯性。 而青瞳视觉2015年才从中科院自动化所走出来。如今,其动捕相机累计出货量已突破10万台,覆盖国内90%以上的985和211高校,国内出货量位居第一。硬件实现100%国产化,同等配置价格比进口低四到六成。
Vicon和OptiTrack的强项,是服务于一部电影拍两年的好莱坞逻辑。但青瞳视觉从创业第一天起,面对的就是完全不同的需求土壤:国产年番要求周周更,虚拟偶像要求天天播,机器人要求日日练。
正是这些非标准的极限任务,让青瞳视觉长出了Vicon不具备的肌肉。
二、百人并发:一场玩笑催生的极限压榨
关于这场百人挑战的由来,有一个颇有意思的缘起。
去年在西安,AMD渠道行业解决方案经理李凯男看到青瞳视觉团队在调试设备,聊起技术瓶颈时发现,青瞳视觉的硬件已达顶级规格,但算力解算成为卡点。李凯男主动提出,可以试试我们(AMD)的机器,随后两人头脑风暴,李凯男撺掇说,能不能搞个100人试试,张海威当场拍板应下。
张海威后来笑着回忆,这是老板拍脑袋,CTO拍屁股,真正落地的压力全部落在技术团队身上。 为什么100人比1个人难这么多?
捕捉100个人,难点的增长从线性变成指数级。100个身形相似的女舞者在同一场地交织。每人身上53个反光点,总计5300个点。系统必须在12毫秒内,完成从图像采集到骨骼解算的全链路处理。
更困难的是身份识别。100个身形相似的人在高速舞蹈中相互遮挡,标记点反复丢失重现。系统必须在毫秒级判断“这个光斑是A的左肘还是B的右膝”。
一旦ID错乱,骨骼就会漂移、扭曲。 第一次内部测试时,系统刚加载到70人左右就卡住了。CPU占用率飙升到99%,内存调用异常。
张海威回忆,研发工程师在“揪头发”,“一堆人对着电脑,全程懵了。”
走道里站满了舞者,开销、场租、人力成本都在燃烧。团队不得不宣布中场休息,留下专家会诊小组现场极限拉通诊断。 问题出在哪里?
当时的硬件配置已是顶级算力,理论上足以应对百人解算,但软件能否“吃透”这个硬件,是另一回事。
CTO张群在复盘会上说,底层算法没有充分利用这么多核心资源。很多线程在空转、争抢,核心越多,调度混乱反而越严重。 AMD渠道经理李凯男补充说,需要在动捕这种实时场景里做线程亲和性绑定,让核心解算线程固定在特定核心上,不被中断。否则线程频繁跳跃,累积的损耗在每一帧都是致命延迟。
为此,AMD团队做了两件事。一是从大约10款处理器中反复联调,锚定了一颗最平衡的芯片,并从总部调来可调BIOS版本。