简记vLLM部署bge-m3和bge-reranker

概述#

本配置用于部署一个基于 Docker 的多服务 API 系统，包含 New API 主服务、Redis 缓存、MySQL 数据库以及两个 GPU 加速的文本处理模型（bge-m3 和 bge-reranker-v2-m3）。主要用于提供文本嵌入和重排序功能，支持多语言处理，为开发者提供统一的 Jina AI 格式接口。

懒狗快捷指南#

1
services:
2
  new-api:
3
    image: calciumion/new-api:latest
4
    container_name: new-api
5
    restart: always
6
    command: --log-dir /app/logs
7
    networks:
8
      - vllm_network
9
#      - caddy_network
10
    ports:
11
      - "3443:3000"
12
    volumes:
13
      - ./new-api/data:/data
14
      - ./new-api/logs:/app/logs
15
    environment:
16
      - SQL_DSN=root:123456@tcp(mysql:3306)/new-api  # 指向mysql服务
17
      - REDIS_CONN_STRING=redis://redis
18
      - TZ=Asia/Shanghai
19
    #      - SESSION_SECRET=random_string  # 多机部署时设置，必须修改这个随机字符串！！！！！！！
20
    #      - NODE_TYPE=slave  # 多机部署的从节点取消注释
21
    #      - SYNC_FREQUENCY=60  # 如需定期同步数据库，取消注释
22
    #      - FRONTEND_BASE_URL=https://your-domain.com  # 多机部署带前端URL时取消注释
23

24
    depends_on:
25
      - redis
26
      - mysql
27
      - bge-m3
28
      - bge-reranker
29
    healthcheck:
30
      test: ["CMD-SHELL", "wget -q -O - http://localhost:3000/api/status | grep -o '\"success\":\\s*true' | awk -F: '{print $$2}'"]
31
      interval: 30s
32
      timeout: 10s
33
      retries: 3
34

35
  redis:
36
    image: redis:latest
37
    container_name: redis
38
    networks:
39
      - vllm_network
40
    restart: always
41

42
  mysql:
43
    image: mysql:8.2
44
    container_name: mysql
45
    networks:
46
      - vllm_network
47
    restart: always
48
    environment:
49
      MYSQL_ROOT_PASSWORD: 123456  # 确保与SQL_DSN中的密码一致
50
      MYSQL_DATABASE: new-api
51
    volumes:
52
      - ./new-api/mysql_data:/var/lib/mysql
53
    # ports:
54
    #   - "3306:3306"  # 如需从Docker外部访问MySQL，取消注释
55

56
#volumes:
57
#  mysql_data:
58

59
  # bge-m3 专用容器 - 使用 GPU 0
60
  bge-m3:
61
    image: vllm/vllm-openai:latest # 当前版本0.10.1
62
    container_name: bge-m3
63
    runtime: nvidia
64
    deploy:
65
      resources:
66
        reservations:
67
          devices:
68
            - driver: nvidia
69
#              count: 1
70
              capabilities: [gpu]
71
              device_ids: ['0']  # 明确指定使用 GPU 0
72
#    ports:
73
#      - "8000:8000"
74
    volumes:
75
      - ./vllm/bge-m3/.cache/huggingface:/root/.cache/huggingface
76
      - ./vllm/bge-m3/models:/app/models
77
    networks:
78
      - vllm_network
79
    environment:
80
      - http_proxy=http://localhost:xxxxx # 改成你的代理端口
81
      - https_proxy=http://localhost:xxxxx # 改成你的代理端口
82
      - HUGGING_FACE_HUB_TOKEN=hf_xxxxxx # 改成你的token
83
#      - CUDA_VISIBLE_DEVICES=0  # 明确指定使用 GPU 0
84
    ipc: host
85
    command: >
86
      --model BAAI/bge-m3
87
      --api-key sk-xxxxxx
88
      --host 0.0.0.0
89
      --port 8000
90
      --tensor-parallel-size 1
91
      --gpu-memory-utilization 0.8
92
      --max-model-len 8192
93
    # 上面command字段不能有注释，api-key随便生成一个就行
94
    restart: unless-stopped
95
    healthcheck:
96
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
97
      interval: 30s
98
      timeout: 10s
99
      retries: 3
100

101
  # bge-reranker-v2-m3 专用容器 - 使用 GPU 1
102
  bge-reranker:
103
    image: vllm/vllm-openai:latest # 当前版本0.10.1
104
    container_name: bge-reranker
105
    runtime: nvidia
106
    deploy:
107
      resources:
108
        reservations:
109
          devices:
110
            - driver: nvidia
111
#              count: 1
112
              capabilities: [gpu]
113
              device_ids: ['1']  # 明确指定使用 GPU 1
114
#    ports:
115
#      - "8001:8000"  # 使用不同外部端口
116
    volumes:
117
      - ./vllm/bge-reranker/.cache/huggingface:/root/.cache/huggingface
118
      - ./vllm/bge-reranker/models:/app/models
119
    networks:
120
      - vllm_network
121
    environment:
122
      - http_proxy=http://localhost:xxxxx # 改成你的代理端口
123
      - https_proxy=http://localhost:xxxxx # 改成你的代理端口
124
      - HUGGING_FACE_HUB_TOKEN=hf_xxxxxx # 改成你的token
125
#      - CUDA_VISIBLE_DEVICES=1  # 明确指定使用 GPU 1
126
    ipc: host
127
    command: >
128
      --model BAAI/bge-reranker-v2-m3
129
      --api-key sk-xxxxx
130
      --host 0.0.0.0
131
      --port 8000
132
      --tensor-parallel-size 1
133
      --gpu-memory-utilization 0.8
134
      --max-model-len 8192
135
    # 上面command字段不能有注释，api-key随便生成一个就行
136
    restart: unless-stopped
137
    healthcheck:
138
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
139
      interval: 30s
140
      timeout: 10s
141
      retries: 3
142

143
networks:
144
  vllm_network:
145
    external: true

Q&A#

1. 多卡部署为什么会报错？ vLLM 在多 GPU 环境下需要正确配置 tensor-parallel-size 参数。如果配置不当（如 tensor-parallel-size 与实际 GPU 数量不匹配），会导致模型加载失败或性能问题。建议单卡单模型部署，通过 device_ids 明确指定 GPU 设备。 ~~（其实你根本不需要多卡跑这种小模型，爱折腾请自便）~~

2. New API 的重排序接口采用什么格式？ New API 统一采用 Jina AI 的重排序格式作为标准响应格式。所有其他供应商（Xinference、Cohere 等）的响应都会被转换为 Jina AI 格式，确保开发者获得一致的接口体验。 所以Rerank模型配置时请使用Jina渠道

3. “Model does not support matryoshka representation” 错误是什么意思？

Matryoshka 表示法：一种允许嵌入模型输出可变维度向量的技术（如 OpenAI 的 text-embedding-3 系列）
bge-m3 限制：BAAI/bge-m3 是固定输出维度模型（1024 维），不支持 dimensions 参数
解决方案：移除客户端请求中的 dimensions 参数，使用模型默认的输出维度

4. 如何测试嵌入功能？ 使用以下 curl 命令测试（替换为实际地址和 API Key）：

1
curl https://your-server/v1/embeddings \
2
  -H "Content-Type: application/json" \
3
  -H "Authorization: Bearer YOUR_API_KEY" \
4
  -d '{
5
    "input": "The food was delicious and the waiter...",
6
    "model": "BAAI/bge-m3",
7
    "encoding_format": "float"
8
  }'

5. 如何测试重排序功能？ 使用以下 curl 命令测试（替换为实际地址和 API Key）：

1
curl https://your-server/v1/rerank \
2
  -H "Content-Type: application/json" \
3
  -H "Authorization: Bearer YOUR_API_KEY" \
4
  -d '{
5
    "model": "BAAI/bge-reranker-v2-m3",
6
    "query": "Organic skincare products",
7
    "top_n": 3,
8
    "documents": ["文档1", "文档2", "文档3"]
9
  }'

6. 健康检查失败怎么办？ 检查服务日志确认模型是否正常加载，确保：

GPU 驱动和 nvidia-container-runtime 已正确安装
模型文件已正确下载到指定目录
网络代理配置（如需要）正确无误

1
docker logs new-api
2
docker logs bge-m3
3
docker logs bge-reranker

本文内容由AI辅助编写、主要代码由人工完成、已人工测试可用性，部署平台是Epyc7532 和 Nvidia-Tesla-T10 16GB，内存实际占用3.8GB，显存实际占用2568MB，请确保资源充足