本地 ViT 编码器提取图像特征向量,仅上传压缩特征至云端 GLM-4.5V。
原始图片、像素数据永不离开你的设备。
图片在你的 Mac 上,通过 300M 参数的 ViT 视觉编码器提取高维特征向量。Metal GPU 加速,通常在 30–180 秒内完成。
经过 Gzip 压缩,仅将约 1MB 的特征向量上传至云端。原始图片像素数据始终保留在本地,不会上传。
智谱 GLM-4.5V 接收特征向量后完成视觉理解和文字生成,支持 OCR、文档分析、图片描述、多图对比等任务。
需要在本地运行推理服务 · 图片和数据全程不离开你的设备
出错了
双击 DMG 内的安装脚本,然后运行本地推理服务。
# 双击 .command 安装
./run_server.sh