内置模型库

模型库介绍

我们针对曦云C500算力集群内置热门的模型库，为用户提供便捷、高效的模型调用方式，省去下载模型的步骤。

提示

当前只有沐曦的曦云C500型号有内置模型库，而其他算力型号暂不支持。

功能特性

预置模型，无需下载：基于曦云C500算力集群，模型库内置了多种主流AI模型。所有模型均为只读文件，存储于固定路径，用户可直接加载使用，无需手动下载。
路径加载，即刻部署：用户在进行模型开发时，可通过指定内置模型库的绝对路径来加载所需模型，简化了环境配置与部署流程。

内置模型列表

图像与视觉生成模型

模型名称	模型简介	适用场景
`black-forest-labs/FLUX.1-dev`	一款拥有120亿参数的文生图模型，采用流变换器（Flow Transformer）架构，能够根据复杂的文本描述生成高细节图像。	图像生成、艺术创作、概念可视化。
`black-forest-labs/FLUX.1-schnell`	`FLUX.1`的快速版本，经过蒸馏优化，可在1至4个推理步骤内快速生成高质量图像，适用于需要实时或近实时反馈的应用。	快速原型设计、实时图像生成、个人创意项目。
`Qwen/Qwen-Image`	由阿里巴巴通义千问团队开发的200亿参数文生图模型，在渲染中英文及复杂排版文字方面表现突出，并支持风格迁移、主体增删等多种图像编辑功能。	广告海报、社交媒体内容、带有精确文字的图像设计。
`Qwen/Qwen3-VL-8B-Instruct`	多模态视觉语言模型，能够理解和处理文本、图像和视频内容，具备视觉问答、文档分析、OCR及GUI代理等能力。	视觉问答、文档理解、多模态对话系统、UI自动化。
`Qwen/Qwen3-VL-4B-Instruct`	8B模型的轻量化版本，同样具备多模态理解与生成能力，适用于资源相对受限的部署环境。	移动端多模态应用、智能相册管理、图文内容生成。

光学字符识别 (OCR) 模型

模型名称	模型简介	适用场景
`deepseek-ai/DeepSeek-OCR`	采用光学2D映射技术对上下文进行高效压缩的OCR模型，能够以高精度处理包含长文本和复杂布局的文档。	大规模文档数字化、票据识别、PDF内容提取。
`PaddlePaddle/PaddleOCR-VL`	百度飞桨团队推出的轻量级视觉语言模型，针对文档解析进行优化，支持多种语言的文本、表格、公式和图表识别。	多语言文档处理、财报分析、学术资料解析。

通用与对话语言模型

模型名称	模型简介	适用场景
`MiniMaxAI/MiniMax-M2`	采用专家混合（MoE）架构的语言模型，总参数量2300亿，激活参数量100亿，专为编码和AI代理工作流设计，在工具调用和代码生成任务上表现突出。	代码助手、AI代理开发、复杂任务自动化。
`Qwen/Qwen3-8B`	通义千问3系列的82亿参数语言模型，支持“思考模式”与“非思考模式”的切换，兼顾复杂推理与高效对话，原生支持32K上下文长度。	通用对话、内容创作、知识问答、代码生成。
`Qwen/Qwen3-4B`	通义千问3系列的40亿参数版本，在保持较低资源占用的同时，提供了稳健的语言理解与生成能力。	轻量级应用、教学与研究、端侧部署。
`Qwen/Qwen3-0.6B`	6亿参数的轻量级语言模型，专为处理高频、特定的任务而设计，适用于需要低成本和低延迟的场景。	文本分类、内容审核、实时聊天机器人。

视频与动画生成模型

模型名称	模型简介	适用场景
`Wan-AI/Wan2.2-Animate-14B`	一款专注于角色动画生成的模型，能够根据输入的角色图片和动作视频，生成该角色模仿视频中动作和表情的动画视频。	角色动画生成、虚拟人视频制作、动态表情包生成。

使用说明

用户可通过cd指令进入模型库目录，并使用ls指令查看当前所有可用的模型：

cd /mnt/moark-models/
ls

在使用 transformers 或 diffusers 等Python库加载模型时，将模型名称替换为模型库的绝对路径即可。

代码示例： 以加载 Qwen-Image 模型为例，标准的加载方式需要从网络下载模型。通过使用内置模型库，可跳过下载步骤。

from diffusers import DiffusionPipeline

model_name = "Qwen/Qwen-Image"
# 指定内置模型库中的模型绝对路径
model_path = "/mnt/moark-models/Qwen-Image"

# 直接从该路径加载模型
pipe = DiffusionPipeline.from_pretrained(model_path)

模型库介绍​

功能特性​

内置模型列表​

图像与视觉生成模型​

光学字符识别 (OCR) 模型​

通用与对话语言模型​

视频与动画生成模型​

使用说明​