跳到主要内容

视觉模型

功能描述

视觉模型是一类专门用于处理和理解图像、视频等视觉信息的人工智能模型。这些模型通过深度学习技术,能够像人类一样"看懂"图像内容,并执行各种视觉相关的任务。

视觉模型的核心能力包括图像识别、内容理解、特征提取和模式匹配等。它们广泛应用于自动驾驶、医疗影像分析、安全监控、内容审核等领域,帮助人们更高效地处理和利用视觉数据。

视觉模型一览表

加载 Serverless API 服务列表...

使用方法

给定一张图,并输入相应的提示词,模型根据提示词的要求返回结果文本信息。

视觉模型体验

示例代码

python
from openai import OpenAI

client = OpenAI(
base_url="https://moark.com/v1",
api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 替换为您的访问令牌
)

response = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are a helpful and harmless assistant. You should think step-by-step."
},
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg" # 替换为您的图片URL
}
},
{
"type": "text",
"text": "Please describe this image" # 替换为您的提示词
}
]
}
],
model="InternVL3-78B",
stream=True,
max_tokens=512,
temperature=0.7,
top_p=1,
extra_body={
"top_k": 1,
},
frequency_penalty=0,
)

fullResponse = ""
print("Response:")
# Print streaming response
for chunk in response:
delta = chunk.choices[0].delta
# If is thinking content, print it in gray
if hasattr(delta, 'reasoning_content') and delta.reasoning_content:
fullResponse += delta.reasoning_content
print(f"\033[90m{delta.reasoning_content}\033[0m", end="", flush=True)
elif delta.content:
fullResponse += delta.content
print(delta.content, end="", flush=True)

使用场景

🛡️ 内容审核

  • 违规内容检测:识别不当或违规图像内容
  • 质量评估:评估图像的质量和适用性
  • 版权保护:检测图像的版权和来源信息

🏥 医疗诊断

  • 医学影像分析:分析X光、CT、MRI等医学图像
  • 病变检测:识别和定位病变区域
  • 辅助诊断:为医生提供诊断建议和参考

🚗 自动驾驶

  • 环境感知:识别道路、车辆、行人等交通元素
  • 障碍物检测:实时检测道路上的障碍物
  • 交通标识识别:识别交通信号灯、标志牌等

🛒 电商零售

  • 商品识别:自动识别和分类商品
  • 相似商品推荐:基于视觉相似性推荐商品
  • 库存管理:通过图像识别进行库存盘点

🏭 工业检测

  • 质量控制:检测产品的缺陷和质量问题
  • 安全监控:监控工业环境的安全状况
  • 设备维护:通过视觉检测进行设备状态评估