跳到主要内容

内置模型库

模型库介绍

我们针对曦云C500算力集群内置热门的模型库,为用户提供便捷、高效的模型调用方式,省去下载模型的步骤。

提示

当前只有沐曦的曦云C500型号有内置模型库,而其他算力型号暂不支持。

功能特性

  • 预置模型,无需下载:基于曦云C500算力集群,模型库内置了多种主流AI模型。所有模型均为只读文件,存储于固定路径,用户可直接加载使用,无需手动下载。
  • 路径加载,即刻部署:用户在进行模型开发时,可通过指定内置模型库的绝对路径来加载所需模型,简化了环境配置与部署流程。

内置模型列表

图像与视觉生成模型

模型名称模型简介适用场景
black-forest-labs/FLUX.1-dev一款拥有120亿参数的文生图模型,采用流变换器(Flow Transformer)架构,能够根据复杂的文本描述生成高细节图像。图像生成、艺术创作、概念可视化。
black-forest-labs/FLUX.1-schnellFLUX.1的快速版本,经过蒸馏优化,可在1至4个推理步骤内快速生成高质量图像,适用于需要实时或近实时反馈的应用。快速原型设计、实时图像生成、个人创意项目。
Qwen/Qwen-Image由阿里巴巴通义千问团队开发的200亿参数文生图模型,在渲染中英文及复杂排版文字方面表现突出,并支持风格迁移、主体增删等多种图像编辑功能。广告海报、社交媒体内容、带有精确文字的图像设计。
Qwen/Qwen3-VL-8B-Instruct多模态视觉语言模型,能够理解和处理文本、图像和视频内容,具备视觉问答、文档分析、OCR及GUI代理等能力。视觉问答、文档理解、多模态对话系统、UI自动化。
Qwen/Qwen3-VL-4B-Instruct8B模型的轻量化版本,同样具备多模态理解与生成能力,适用于资源相对受限的部署环境。移动端多模态应用、智能相册管理、图文内容生成。

光学字符识别 (OCR) 模型

模型名称模型简介适用场景
deepseek-ai/DeepSeek-OCR采用光学2D映射技术对上下文进行高效压缩的OCR模型,能够以高精度处理包含长文本和复杂布局的文档。大规模文档数字化、票据识别、PDF内容提取。
PaddlePaddle/PaddleOCR-VL百度飞桨团队推出的轻量级视觉语言模型,针对文档解析进行优化,支持多种语言的文本、表格、公式和图表识别。多语言文档处理、财报分析、学术资料解析。

通用与对话语言模型

模型名称模型简介适用场景
MiniMaxAI/MiniMax-M2采用专家混合(MoE)架构的语言模型,总参数量2300亿,激活参数量100亿,专为编码和AI代理工作流设计,在工具调用和代码生成任务上表现突出。代码助手、AI代理开发、复杂任务自动化。
Qwen/Qwen3-8B通义千问3系列的82亿参数语言模型,支持“思考模式”与“非思考模式”的切换,兼顾复杂推理与高效对话,原生支持32K上下文长度。通用对话、内容创作、知识问答、代码生成。
Qwen/Qwen3-4B通义千问3系列的40亿参数版本,在保持较低资源占用的同时,提供了稳健的语言理解与生成能力。轻量级应用、教学与研究、端侧部署。
Qwen/Qwen3-0.6B6亿参数的轻量级语言模型,专为处理高频、特定的任务而设计,适用于需要低成本和低延迟的场景。文本分类、内容审核、实时聊天机器人。

视频与动画生成模型

模型名称模型简介适用场景
Wan-AI/Wan2.2-Animate-14B一款专注于角色动画生成的模型,能够根据输入的角色图片和动作视频,生成该角色模仿视频中动作和表情的动画视频。角色动画生成、虚拟人视频制作、动态表情包生成。

使用说明

用户可通过cd指令进入模型库目录,并使用ls指令查看当前所有可用的模型:

cd /mnt/moark-models/
ls

在使用 transformersdiffusers 等Python库加载模型时,将模型名称替换为模型库的绝对路径即可。

代码示例: 以加载 Qwen-Image 模型为例,标准的加载方式需要从网络下载模型。通过使用内置模型库,可跳过下载步骤。

from diffusers import DiffusionPipeline

model_name = "Qwen/Qwen-Image"
# 指定内置模型库中的模型绝对路径
model_path = "/mnt/moark-models/Qwen-Image"

# 直接从该路径加载模型
pipe = DiffusionPipeline.from_pretrained(model_path)