作为国内领先的芯片IP设计与服务提供商,安谋科技近日上海举办新品发布会,正式推出了新一代“周易”X3 NPU。这也是安谋科技打造Arm China“All in AI”产品战略之后,发布的第一款重磅产品,面向基础设施、智能汽车、移动终端、智能物联网四大领域。
它可为AI加速卡、智能座舱、ADAS高级辅助驾驶、具身智能机器人、AI PC笔记本、AI手机、智能网关、智能IPC网络摄像机等提供高效的端侧AI计算能力。
安谋科技旗下拥有一系列自研产品,除了“周易”NPU,还有“星辰”CPU、“山海”SPU、“玲珑”多媒体系列,全面覆盖核心领域,可匹配多场景AI计算需求。
“周易”NPU团队成立于2018年,是国内最早的NPU研发团队之一,可提供涵盖硬件、软件、工具的全栈式端到端方案,而且研发支持100%来自中国本土团队。
“周易”X3 NPU基于专为大模型而生的最新DSP+DSA通用架构,兼顾CNN与Transformer,有效解决端侧AI大模型运行难题。
它单个Cluster丛簇可配备最多4个核心,FP8算力8~80 TFlops(万亿次浮点计算),而且可灵活配置,单个核心的带宽高达256GB/s。
在架构层面,“周易”X3实现了多项创新,包括:
- 集成自研解压硬件WDC:
大模型Weight软件无损压缩后,通过硬件解压能获得额外15-20%的等效带宽提升。
- 新增端侧W4A8/W4A16计算加速模式:
均为大模型运行必备。同构对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。
- 集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调度器:
可实现超低至0.5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。
- 支持INT4/8/16/32、FP4/8/16/32、BF16多精度融合计算和强浮点计算:
可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。
相比上代“周易”X2,CNN模型性能提升30-50%,多核算力线性度达到70-80%。
在同算力规格下,AIGC大模型能力较上一代产品实现10倍增长,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽、超过10倍的Softmax和LayerNorm性能提升共同驱动。
基于上述优化,“周易”X3 NPU的端侧大模型推理更加高效。
Llama2 7B大模型实测中,“周易”X3 NPU IP在Prefill阶段算力利用率高达72%,而且在安谋科技Arm China自研解压硬件WDC的加持下,Decode阶段有效带宽利用率超过100%,远超行业平均水平,从而满足大模型解码阶段的高吞吐需求。
除了高性能硬件,“周易”X3 NPU IP还配套提供完善易用的“周易”Compass AI软件平台,通过软硬一体协同设计,大大提升开发部署效率。
Compass AI软件平台通过覆盖开发全流程的工具链、极致的易用性优化、开放的生态布局,解决了端侧AI开发“适配难、周期长、门槛高”等难题。
作为核心工具,平台中的NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)、AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化、部署配置生成。
它还具备以下核心能力:
- 广泛的框架与模型支持:
支持超过160种算子与270种模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供开箱即用的Model Zoo。
- 创新的Hugging Face模型“一键部署”:
通过AIPULLM工具链,直接支持Hugging Face格式模型,实现“一站式”转化与部署,极大降低开发门槛。
- 先进的模型推理优化:
业界领先的大模型动态shape支持,高效处理任意长度输入序列;
提供Tensor、Channel、Token Level多样量化方式,以及GPTQ等大模型主流量化方案,并增加对LLM/VLM/VLA及MoE等模型的高性能支持。
- 灵活的开发者赋能:
提供多种开放接口,支持用户模型与自定义算子的开发与调试;
配备丰富的调试工具与Bit精度软件仿真平台,支持多层次白盒开发与性能调优,简化算法移植与部署。
- 全面的系统与异构兼容:
支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算,高效调度CPU、GPU、NPU等计算资源。
发布会现场,安谋科技还全面展示了“周易”NPU产品方案与落地成果。
- “周易”Z1:
算力0.32~3.75 TOPS,适用于AIoT场景,广泛支持人脸识别、人脸及人体关键点检测、文字识别等,已进入AI智能音箱等多种产品。
- “周易”Z2/Z3:
算力1.25~5 TOPS,面向AIoT、入门级座舱等市场,支持前视辅助驾驶方案、舱泊一体方案及安全仪表盘方案、图像超分辨率优化等。
- “周易”X1:
算力10 TOPS,面向高端AIoT、汽车座舱等市场,支持驾驶员监控、乘客监控、自动泊车、AVM 360环视、AI图像降噪等。
- “周易”X2:
算力10-30 TOPS,面向高端AIoT、AI PC笔记本、AI平板机、AI手机等,现场展示了运行Stable Diffusion v1.5文生图、CLIP文搜图的能力,可实现端侧多模态AI流畅运行。
- “周易”X3:
算力8-80 FP8 TFLOPS,面向基础设施、智能汽车、移动终端、AIoT等市场,现场展示了基于“周易”X3的主流大模型效果,包括运行DeepSeek-R1-Distill-Qwen-1.5B模型的文生文AI流畅对话、运行Stable Diffusion v1.5的文生图效果、运行MiniCPM v2.6模型的图片识别及图生文多模态应用等,均展现出优异的端侧大模型推理性能。








