无问芯穹是什么?

无问芯穹(即北京无问芯穹科技有限公司)是一家由清华大学电子工程系教授汪玉发起的AI基础设施领域创业公司,成立于2023年5月,总部位于北京。公司定位为AI 2.0时代的“算力运营商”,专注于通过软硬件协同优化和异构算力整合技术,降低大模型落地成本并提升算力利用率。公司的核心技术并非聚焦于自研大模型,而是围绕**大模型的高效训练与推理优化**提供底层基础设施支持。其技术特色主要体现在**对现有大模型的性能提升、成本优化和多场景适配**上,具体亮点如下:

### 1. **全栈式推理加速技术**

– **FlashDecoding++加速引擎**:自研的推理加速技术,通过**动态树分解、异步数据搬运和异构资源并行**等创新,显著降低推理延迟。例如,在AMD MI210芯片上运行Llama-2模型时,**单芯片推理速度可达100+ token/s**,接近英伟达A100水平。

– **多芯片统一适配**:支持英伟达、AMD、昇腾等10余种芯片的混合部署,通过软硬件协同优化,**将不同厂商芯片的算力利用率提升至97%以上**,打破单一硬件依赖。

### 2. **端侧轻量化部署能力**

– **端模型优化技术**:针对边缘场景(如手机、IoT设备),开发轻量级模型压缩与编译工具链,可**将百亿参数模型压缩至1/10体积**,同时保持90%以上精度,降低端侧部署门槛。

– **自研LPU(Language Processing Unit)IP核**:设计专用AI加速芯片IP,通过算法-芯片联合优化,实现**端侧大模型推理能效比提升10倍**,未来计划向智能汽车、手机等场景开放授权。

### 3. **异构算力混合训练系统**

– **HETHUB混合训练框架**:支持千卡规模的**跨厂商芯片协同训练**(如英伟达与昇腾集群并行),通过动态任务调度和通信优化,解决异构芯片间的兼容性与效率问题,**训练成本降低40%**。

– **开源模型生态兼容**:适配Llama、GLM、ChatGLM等主流开源大模型,提供从训练到部署的**全流程自动化优化工具链**,缩短企业模型落地周期。

### 4. **行业场景深度适配**

– **低成本行业模型定制**:针对金融、招聘、教育等场景,通过算力调度优化和模型微调工具,帮助企业客户以**1/1000的算力成本**完成垂类模型训练。例如,为猎聘优化简历匹配模型,推理响应时间从秒级降至毫秒级。

– **实时增量学习支持**:结合在线数据流和异构算力弹性扩容,实现大模型**分钟级迭代更新**,适应高频业务需求(如电商推荐系统)。

### 技术壁垒与差异化

无问苍穹的独特价值在于**“以软定义硬”**,通过软件层创新弥补硬件差异,解决AI 2.0时代算力碎片化痛点。其技术路线类似云计算领域的“虚拟化”逻辑,但聚焦于大模型算力场景,目标是将异构算力转化为标准化服务,成为AI时代的“算力电网”。

目前,该公司技术已通过智谱AI、月之暗面等头部客户验证,在千亿参数模型训练中实现**1.2PFLOPS的集群有效算力**(行业领先水平)。随着AGI(通用人工智能)算力需求爆发,这类基础设施层技术或将成为大模型普惠化的关键推手。

More From Author

清华师徒AI创业,无问芯穹16个月融资近10亿

在模速空间向总书记汇报的无问芯穹:“两岁公司”志在树起国产算力新标杆

发表回复