视觉模型
功能描述
视觉模型是一类专门用于处理和理解图像、视频等视觉信息的人工智能模型。这些模型通过深度学习技术,能够像人类一样"看 懂"图像内容,并执行各种视觉相关的任务。
视觉模型的核心能力包括图像识别、内容理解、特征提取和模式匹配等。它们广泛应用于自动驾驶、医疗影像分析、安全监控、内容审核等领域,帮助人们更高效地处理和利用视觉数据。
视觉模型一览表
加载 Serverless API 服务列表...
使用方法
给定一张图,并输入相应的提示词,模型根据提示词的要求返回结果文本信息。
示例代码
python
from openai import OpenAI
client = OpenAI(
base_url="https://moark.com/v1",
api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 替换为您的访问令牌
)
response = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are a helpful and harmless assistant. You should think step-by-step."
},
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg" # 替换为您的图片URL
}
},
{
"type": "text",
"text": "Please describe this image" # 替换 为您的提示词
}
]
}
],
model="InternVL3-78B",
stream=True,
max_tokens=512,
temperature=0.7,
top_p=1,
extra_body={
"top_k": 1,
},
frequency_penalty=0,
)
fullResponse = ""
print("Response:")
# Print streaming response
for chunk in response:
delta = chunk.choices[0].delta
# If is thinking content, print it in gray
if hasattr(delta, 'reasoning_content') and delta.reasoning_content:
fullResponse += delta.reasoning_content
print(f"\033[90m{delta.reasoning_content}\033[0m", end="", flush=True)
elif delta.content:
fullResponse += delta.content
print(delta.content, end="", flush=True)
使用场景
🛡️ 内容审核
- 违规内容检测:识别不当或违规图像内容
- 质量评估:评估图像的质量和适用性
- 版权保护:检测图像的版权和来源信息
🏥 医疗诊断
- 医学影像分析:分析X光、CT、MRI等医学图像
- 病变检测:识别和定位病变区域
- 辅助诊断:为医生提供诊断建议和参考