找回密碼
 註冊
搜索
查看: 39|回復: 0

[教學] WSL2 - UBUNTU 安裝 openclaw (本機模型 vLLM 部署) 完整教學!

[複製鏈接]
發表於 昨天 23:32 | 顯示全部樓層 |閱讀模式
Push to Facebook
筆者在使用過gemini 3 模型後,什麼都沒做好,token飛快的就把預算燒玩了
於是研究起本地端架vLLM,以下是說明

OpenClaw如何切換到本機模型?如果希望在執行自動化任務時保持流暢、不出現卡頓,同時避免頻繁觸發上下文長度限制,那麼選擇合適的開源模型就非常關鍵。
對OpenClaw來說,模型不僅需要具備良好的推理能力和語言理解能力,還需要有穩定的工具呼叫( Tool Calling)能力。因為在自動化任務中,模型需要頻繁地呼叫各種工具完成操作,因此工具呼叫能力往往是選擇模型時最重要的指標之一。

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM

很多人第一次嘗試本地部署模型時,往往會選擇Ollama 。它的優點確實很明顯:安裝簡單、設定方便,幾乎可以做到「傻瓜式」部署。


但在OpenClaw這種自動化任務場景下,Ollama的呼叫方式和推理速度並不理想。實際使用往往會遇到兩個問題:
  • 推理速度較慢
  • 上下文長度很容易被耗盡


在連續運行多個任務後,經常會出現上下文不夠用的情況。
因此,如果你希望獲得更穩定、更有效率的本地部署體驗,你需要選擇更合適的推理框架。
一般來說:
  • 遠端叢集/多Agent場景:建議使用SGLang
  • 單卡本地部署:強烈建議vLLM


目前來看,vLLM可以說是單機部署OpenClaw的最佳解決方案之一。

在開始之前,建議大家安裝下Windows Terminal,它是一款新式、快速、高效、強大且高效的Windows 的終端程序,適用於命令列工具和命令提示符,PowerShell和WSL 等Shell 用戶。可以方便我們切換不同的系統!

環境:
WIN 11 + POWER SHELL + WSL2

一、安裝WSL2
在PowerShell(管理員)執行:
  1. wsl --install
複製代碼

安裝Ubuntu, -d 指定img 是 Ubuntu
  1. wsl --install -d Ubuntu
複製代碼

檢查版本:
  1. wsl --version
複製代碼

確保輸出結果是: WSL2


二、WSL 安裝CUDA 驅動支援
先確認Windows已安裝NVIDIA驅動程式。
我的是RTX 3060 12G
  1. nvidia-smi
複製代碼

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM

三、安裝Python 環境
更新系統:
  1. sudo apt update
  2. sudo apt upgrade -y
複製代碼


安裝Python:
  1. sudo apt install python3-pip python3-venv -y
複製代碼

建立虛擬環境:
  1. cd ~
  2. python3 -m venv vllm-env
複製代碼

進入環境:
  1. source vllm-env/bin/activate
複製代碼


四、安裝vLLM
安裝命令:
  1. pip install --upgrade pip
  2. pip install vllm
複製代碼


安裝完成後測試:
  1. python -c "import vllm; print('vLLM installed')"
複製代碼

五、下載模型


推薦模型:
  1. Qwen2. 5 -7B-Instruct-AWQ
複製代碼

模型優點:
  • 中文強
  • Agent能力好
  • 支援更全面的工具呼叫能力


啟動vLLM時會自動下載模型。

顯存提示
本教學示範使用的是12GB 顯示卡。如果你的顯存較小,建議選擇參數規模較小的模型,否則在載入模型時可能會出現:顯存不足(Out of Memory)的問題。
如果顯存不夠大,那麼可以選擇:Qwen2.5-4B-Instruct-AWQ 或比 Qwen2.5-4B 等較小的模型

六、啟動vLLM 服務
運行命令:
  1. python -m vllm.entrypoints.openai.api_server \
  2.   --model Qwen/Qwen2.5-7B-Instruct-AWQ \
  3.   --quantization awq_marlin \
  4.   --gpu-memory-utilization 0.9 \
  5.   --max-model-len 32768 \
  6.   --enable-auto-tool-choice \
  7.   --tool-call-parser hermes
複製代碼

成功後會看到:

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM


說明API 已啟動成功。

七、測試模型
在Windows PowerShell 測試:
  1. curl http://127.0.0.1:8000/v1/models
複製代碼

返回模型資訊:
Qwen/Qwen2.5-7B-Instruct-AWQ
說明連接正常。

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM


八、安裝OpenClaw
在WSL 子系統裡執行安裝指令:

8.1 安裝Nodejs
  1. curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash
  2. sudo apt install -y nodejs
複製代碼
8.2 安裝nvm
使用nvm安裝不同版本的Node (包含npm)
更新相依套件
  1. apt-get update
  2. apt-get install build-essential libssl-dev
複製代碼

前往 https://github.com/nvm-sh/nvm/releases 確認目前nvm最新版本

根據最新版本資訊 使用curl抓取指行語法

  1. curl https://raw.githubusercontent.com/creationix/nvm/v0.25.0/install.sh | bash
複製代碼

上面的版本請依照github看到的最新版本進行調整


使用下列指令,自動重開連線

  1. source ~/.profile
複製代碼

驗證是否成功

  1. nvm --version
複製代碼

安裝node + npm (nodejs 22 and npm 10最低需求)

使用下列語法取得目前遠端所有node版本

  1. nvm ls-remote
複製代碼

安裝目標版本

  1. nvm install 22
複製代碼

安裝完後 指定使用該版本的node

  1. nvm use 22
複製代碼

設定預設使用該版本的node 避免下次重啟後又恢復預設

  1. nvm alias default 22
複製代碼
檢查版本
  1. node -v # Verify it says v22.x.x
複製代碼

8.3 安裝openclaw
  1. curl -fsSL https://openclaw.ai/install.sh | bash
複製代碼

過程都點YES

8.4 安裝及設定 openclaw
  1. sudo npm install -g openclaw@latest
複製代碼

  1. openclaw onboard
複製代碼

設定 provider模型 -> Custom Provider

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM


Base URL:http://127.0.0.1:8000/v1
API key: 123456 (隨便填寫)
模型名稱:Qwen2.5-7B-Instruct-AWQ
最後保存即可!

WSL2,UBUNTU,openclaw,本機模型,vLLM

WSL2,UBUNTU,openclaw,本機模型,vLLM


十、OpenClaw 推薦參數(優化)
為了避免卡頓:
Context length: 6000–8000
Temperature:0.7
Max tokens: 2048

十一、優化推理速度(強烈建議)
vLLM啟動參數建議:
注意:這是RTX3060顯示卡的配置,請根據你自己的顯示卡顯存來適當修改max-model-len 後面的參數
  1. python -m vllm.entrypoints.openai.api_server \
  2.   --model Qwen/Qwen2.5-7B-Instruct-AWQ \
  3.   --quantization awq_marlin \
  4.   --gpu-memory-utilization 0.9 \
  5.   --max-model-len 32768 \
  6.   --enable-auto-tool-choice \
  7.   --tool-call-parser hermes
複製代碼


效果:
  • prefix cache加速prompt
  • GPU利用率更高



十二、解決長對話卡頓
在OpenClaw System Prompt加:
When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.
這樣:
8000 token

200 token memory

速度不會下降。
十三、最終性能參考(RTX3060)
Qwen2.5-7B-Instruct-AWQ:

指標
數值
token生成速度90– 130 token/ s
首token延遲0.4 – 0.8秒
最大情境32K tokens(建議實際用8K– 16K)
顯存佔用10– 12GB


本地模型跑Openclaw 就完全夠用。

參考文章
https://www.freedidi.com/23445.html
https://bmhiamso1.medium.com/ubuntu-%E5%AE%89%E8%A3%9D-nvm-npm-3bf6bffa9152
https://www.youtube.com/watch?v=rHmdJjOytRk

您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|小黑屋|TShopping

GMT+8, 2026-4-3 05:05 , Processed in 0.026735 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回復 返回頂部 返回列表