目錄

如果你想在公司內部架設一套類似 ChatGPT 的私有 AI 系統,DeepSeek + Ollama + Open WebUI 是目前很適合入門的組合。
DeepSeek-R1 是開源推理模型家族,Ollama 可以讓你用簡單指令在本機或伺服器上執行模型,而 Open WebUI 則提供類似 ChatGPT 的網頁介面,讓非工程師也能透過瀏覽器使用本地 AI。Ollama 官方目前提供 DeepSeek-R1 的多種模型尺寸,例如 1.5B、7B、8B、14B、32B、70B 與 671B,適合從個人測試到企業 GPU 主機部署等不同場景。
對企業來說,本地部署 DeepSeek 最大價值不是「省 API 費用」而已,而是可以把資料、SOP、客服 FAQ、技術文件、產品規格與內部知識庫留在自己的主機環境中,降低資料外流風險,並建立可控、可擴充的私有 AI 架構。
一句話重點
DeepSeek 本地部署 就是把 DeepSeek 模型安裝在自己的電腦、工作站或 GPU 伺服器上,透過 Ollama 執行模型,再用 Open WebUI 提供瀏覽器聊天介面,讓企業可以在不依賴外部 API 的情況下建立私有 AI 助理。
DeepSeek、Ollama、Open WebUI 分別是什麼?
工具 | 角色 | 主要用途 |
|---|---|---|
DeepSeek | AI 模型 | 負責回答問題、推理、寫程式、摘要、分析文件 |
Ollama | 模型執行工具 | 負責下載、管理與執行本地 LLM |
Open WebUI | 網頁聊天介面 | 提供類似 ChatGPT 的操作畫面,方便一般使用者使用 |
GPU 主機 | 運算基礎設施 | 提供模型推論所需的 VRAM、算力與穩定性 |
Ollama 的官方安裝方式非常簡單,Linux 上可透過一行指令安裝;Open WebUI 官方則提供 Docker、Docker Compose、pip、uv 等多種部署方式,其中 Docker 是企業部署最容易標準化與維護的方式。
為什麼企業會想本地部署 DeepSeek?
很多企業一開始使用 ChatGPT、Gemini 或 Claude,是因為方便、快速、效果好。但當 AI 開始碰到內部資料時,問題就會出現:
- 公司的 SOP、報價邏輯、客服紀錄能不能丟到外部平台?
- 技術文件、合約、ERP 匯出資料是否涉及營業秘密?
- 使用量增加後,API 成本是否難以預估?
- 是否需要讓 AI 長期接內部系統,例如 RAG、ERP、CRM、NAS、文件庫?
- 是否需要控制模型版本、資料儲存位置、權限與使用者帳號?
本地部署 DeepSeek 的核心價值,就是把 AI 從「外部工具」變成「企業內部系統」。它不一定取代所有雲端 AI,但很適合用在資料敏感、需要固定成本、需要長期整合內部資料的場景。
DeepSeek 本地部署適合哪些應用?
應用場景 | 適合程度 | 說明 |
|---|---|---|
內部 SOP 查詢 | 高 | 員工可以直接問流程、規範、操作步驟 |
技術文件問答 | 高 | 適合 IT、工程、維運、客服團隊 |
客服 FAQ 助理 | 高 | 可先讓 AI 產生草稿,再由客服確認 |
程式碼輔助 | 高 | DeepSeek 對程式碼與推理任務表現不錯 |
文件摘要與翻譯 | 高 | 可處理合約、會議紀錄、產品文件 |
ERP / Excel 資料分析 | 中高 | 結構化資料建議搭配 SQL,不建議只丟向量資料庫 |
高併發商用 API | 視硬體而定 | 需要更高階 GPU、併發控管與推論框架 |
超大型模型正式服務 | 高成本 | 70B 以上模型通常需要多 GPU 或高 VRAM 主機 |
建議部署架構
企業正式部署時,不建議把 Ollama API 直接暴露在公網。比較安全的架構如下:

Open WebUI 官方文件也提醒,WebSocket 支援是必要條件;如果前面有 Nginx、Cloudflare、企業防火牆或 Load Balancer,需要確認 WebSocket 不會被阻擋。
部署前硬體建議
DeepSeek 模型尺寸越大,需要的 VRAM、RAM、磁碟空間與散熱能力就越高。以下是實務建議,不是絕對規格,正式部署仍需依照使用人數、上下文長度、併發量與模型量化格式評估。
模型 | 適合用途 | 建議硬體方向 |
|---|---|---|
deepseek-r1:1.5b | 測試、低階設備 | CPU 或小型 GPU 可嘗試 |
deepseek-r1:7b / 8b | 個人助理、小型內部測試 | 8GB~16GB VRAM 較理想 |
deepseek-r1:14b | 小團隊、文件摘要、一般問答 | 16GB~24GB VRAM 較穩 |
deepseek-r1:32b | 較好的推理與程式碼能力 | 24GB~48GB VRAM 建議 |
deepseek-r1:70b | 企業級推理、較高品質回答 | 建議 48GB 以上 VRAM 或多 GPU |
deepseek-r1:671b | 大型模型研究 / 高階部署 | 通常需要資料中心級多 GPU 架構 |
Ollama 官方頁面顯示,DeepSeek-R1 預設可直接用 ollama run deepseek-r1 執行,並提供 8B、14B、32B、70B 與 671B 等不同標籤版本;其中 8B 版本目前對入門部署最友善。
如果只是個人測試,可以先用 Windows 版 Ollama
如果你只是想在自己的 Windows 電腦上測試 DeepSeek,不一定一開始就要使用 Ubuntu、Docker 與 Open WebUI。你可以先安裝 Ollama Windows 版,再用指令執行 DeepSeek-R1 小模型,例如 deepseek-r1:7b 或 deepseek-r1:8b。
這種方式適合個人測試模型效果,例如:
- 測試 DeepSeek 回答品
- 測試繁體中文表現
- 測試程式碼生成能力
- 測試摘要、翻譯、客服 FAQ 草稿
- 評估公司是否值得進一步導入私有 AI
不過,Windows 桌機或筆電比較適合「個人測試」,不建議直接作為企業正式服務環境。原因包括:
- 權限控管較不適合多人共用
- 服務穩定性與自動重啟需要額外設定
- GPU Driver、CUDA 與背景程式容易互相干擾
- 不適合作為長期對內服務的 AI 主機
- 後續若要串接 RAG、API、HTTPS 與備份,維護成本會變高
簡單來說,如果只是想先看看 DeepSeek 能不能用,可以從 Windows 版 Ollama 開始;如果要讓公司內部多人穩定使用,建議改用 Linux GPU 主機部署。
企業部署建議:不要只看「能不能跑」
很多人測試本地 LLM 時,只看模型能不能啟動,但企業導入更重要的是:
評估項目 | 為什麼重要 |
|---|---|
VRAM 容量 | 模型是否能完整放入 GPU,會大幅影響速度 |
GPU 記憶體頻寬 | 影響推論吞吐量與回應速度 |
系統 RAM | 模型載入、RAG、向量資料庫、文件處理都會用到 |
NVMe SSD | 模型檔案、索引、文件庫需要高速讀寫 |
網路頻寬 | 多人使用、遠端操作、API 串接都會受影響 |
散熱與電力 | 長時間推論會讓 GPU 持續高負載 |
權限控管 | 企業內部一定要管理帳號、角色與資料存取 |
備份與更新 | Open WebUI 資料庫、模型、設定都需要維護 |
如果只是測試,可以用單卡 GPU 或工作站;如果要讓多位員工長期使用,建議直接規劃 GPU 實體主機或 GPU Cloud。
延伸服務導流:
如果你正在評估企業內部 DeepSeek、Ollama、RAG 或 Open WebUI 部署,可以參考 TAKI Cloud 的 GPU 實體主機、GPU Server 服務 與 GPU Cloud / GPU Server 價格方案,依照模型大小、使用人數與資料安全需求規劃合適架構。
安裝教學:Ubuntu + Docker + Ollama + Open WebUI
以下示範以 Ubuntu 22.04 / 24.04 + NVIDIA GPU 主機 為主。
Docker 官方文件列出 Ubuntu 22.04 LTS 與 24.04 LTS 都是 Docker Engine 支援的版本;如果要讓 Docker 容器使用 NVIDIA GPU,還需要安裝 NVIDIA Container Toolkit。
Step 1:確認 NVIDIA GPU 是否正常
先確認主機有偵測到 GPU:
nvidia-smi

正常情況會看到 GPU 型號、Driver Version、CUDA Version、顯存使用量等資訊。
如果出現:command not found 或看不到 GPU,代表 NVIDIA Driver 尚未安裝或安裝異常,應先處理驅動問題,再部署 Ollama 與 Open WebUI。
常見安裝卡關問題
nvidia-smi 找不到怎麼辦?
如果執行 nvidia-smi 出現 command not found,通常代表 NVIDIA Driver 尚未安裝,或系統沒有正確載入 GPU 驅動。
這時候不要急著安裝 Ollama 或 Open WebUI,應先確認以下項目:
- 主機是否真的有 NVIDIA GPU
- BIOS 是否有偵測到 GPU
- Linux 是否安裝正確版本的 NVIDIA Driver
- Secure Boot 是否影響驅動載入
- nvidia-smi 是否能正常顯示 GPU 型號、Driver Version 與 VRAM
只有 nvidia-smi 正常後,後面的 Docker GPU、NVIDIA Container Toolkit、Ollama GPU 推論才有意義。
Step 2:安裝 Docker 與 Docker Compose
先安裝必要套件:
sudo apt update
sudo apt install -y ca-certificates curl gnupg
建立 Docker GPG key 目錄:
sudo install -m 0755 -d /etc/apt/keyrings
加入 Docker 官方 GPG key:
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg \
-o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
加入 Docker repository:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] \
https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "${UBUNTU_CODENAME:-$VERSION_CODENAME}") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
安裝 Docker Engine 與 Compose plugin:
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
確認 Docker 版本:
docker --version
docker compose version
Step 3:安裝 NVIDIA Container Toolkit
如果你要讓 Docker 容器使用 GPU,需要 NVIDIA Container Toolkit。
安裝套件:
sudo apt update
sudo apt install -y nvidia-container-toolkit
設定 Docker runtime:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
測試 Docker 是否可讀到 GPU:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
如果容器內也能看到 GPU,代表 Docker GPU passthrough 正常。
Docker 容器內看不到 GPU 怎麼辦?
如果主機上的 nvidia-smi 正常,但 Docker 容器內看不到 GPU,通常是 NVIDIA Container Toolkit 尚未安裝完成,或 Docker runtime 沒有正確套用。
可以先檢查:
nvidia-smi
docker --version
docker compose version
sudo nvidia-ctk --version
接著重新設定 Docker runtime:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
再測試容器是否能讀到 GPU:
docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
如果這個指令可以正常顯示 GPU,代表 Docker GPU passthrough 已經正常。
Step 4:建立部署目錄
sudo mkdir -p /opt/deepseek-openwebui
cd /opt/deepseek-openwebui
Step 5:建立 docker-compose.yml
建立檔案:
sudo nano docker-compose.yml
貼上以下內容:
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: always
ports:
- "127.0.0.1:11434:11434"
volumes:
- ollama:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: always
depends_on:
- ollama
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
- WEBUI_SECRET_KEY=請改成一組隨機長密碼
volumes:
- open-webui:/app/backend/data
volumes:
ollama:
open-webui:
這個設定有幾個重點:
設定 | 說明 |
|---|---|
ollama/ollama:latest | Ollama 模型服務 |
ghcr.io/open-webui/open-webui:main | Open WebUI 主程式 |
OLLAMA_BASE_URL=http://ollama:11434 | 讓 Open WebUI 連到同一個 Docker Compose 裡的 Ollama |
127.0.0.1:11434:11434 | Ollama API 只綁定本機,不直接開到公網 |
open-webui:/app/backend/data | 保存帳號、設定、聊天資料 |
ollama:/root/.ollama | 保存模型檔案,避免重啟後重新下載 |
Open WebUI 官方也提供單容器 bundled Ollama 的方式,但企業正式環境建議把 Ollama 與 Open WebUI 分開,未來比較容易維護、升級與擴充。
Step 6:啟動服務
sudo docker compose up -d
查看容器狀態:
sudo docker ps
你應該會看到:
ollama
open-webui
Open WebUI 打不開怎麼辦?
如果容器都已經啟動,但瀏覽器打不開 Open WebUI,可以先檢查:
sudo docker ps
sudo docker logs -f open-webui
也要確認防火牆是否允許 3000 port,或是否已經透過 Nginx 反向代理到 443 HTTPS。
正式環境中,不建議長期直接開放 3000 port 給外部使用,建議透過 Nginx、HTTPS 與防火牆控管存取來源。
Step 7:下載 DeepSeek 模型
先進入 Ollama 容器:
sudo docker exec -it ollama bash
下載並執行 DeepSeek-R1 8B:
ollama run deepseek-r1:8b
如果你想測試較小模型:
ollama run deepseek-r1:7b
如果你有更高階 GPU,可以測試:
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b
Ollama 官方頁面也提醒,如果要從舊版模型更新,可以使用 ollama pull deepseek-r1。
Step 8:開啟 Open WebUI
瀏覽器輸入:
http://你的伺服器IP:3000
第一次進入時,Open WebUI 會要求建立帳號。官方文件說明,第一個建立的帳號會成為管理員帳號,後續新註冊帳號預設會進入 Pending 狀態,需要管理員核准。
登入後,到模型選單選擇:
deepseek-r1:8b
然後可以輸入測試問題:
請用繁體中文解釋什麼是 RAG,並舉一個企業內部 SOP 查詢的例子。
Nginx 反向代理設定範例
如果要正式提供給公司內部使用,建議不要讓使用者直接打 IP:3000,而是設定子網域,例如:
https://ai.example.com
Nginx 設定範例:
server {
listen 80;
server_name ai.example.com;
location / {
proxy_pass http://127.0.0.1:3000;
proxy_http_version 1.1;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header X-Forwarded-Proto $scheme;
}
}
設定完成後,建議再搭配 Let’s Encrypt SSL 憑證,把服務改成 HTTPS。
防火牆建議
企業部署時,至少建議這樣開:
Port | 用途 | 建議 |
|---|---|---|
22 | SSH | 僅允許管理者固定 IP |
80 | HTTP | 可開放,用於 SSL 驗證或轉址 |
443 | HTTPS | 開放給內部或指定來源 |
3000 | Open WebUI | 不建議直接對外,應由 Nginx 代理 |
11434 | Ollama API | 不應對外開放,只允許 localhost 或內網 |
重點是:Ollama 的 11434 不要直接暴露到公網。
如果被外部掃描到,可能被拿來濫用你的 GPU 資源,甚至造成模型資料或內部系統風險。
常用管理指令
查看容器狀態
sudo docker ps
查看 Open WebUI 日誌
sudo docker logs -f open-webui
查看 Ollama 日誌
sudo docker logs -f ollama
查看已下載模型
sudo docker exec -it ollama ollama list
移除模型
sudo docker exec -it ollama ollama rm deepseek-r1:8b
更新模型
sudo docker exec -it ollama ollama pull deepseek-r1:8b
停止服務
sudo docker compose down
重啟服務
sudo docker compose restart
企業正式部署要注意什麼?
1. 不要用單機測試心態做正式環境
一般我們部建測試環境主要想法是只要能跑就好,但正式要運營的環境要考慮:
- 使用者帳號管理
- 權限分級
- HTTPS
- 防火牆
- 備份
- 模型更新
- 磁碟容量
- GPU 溫度
- 使用紀錄
- 內部資料隔離
Open WebUI 官方文件也提到,資料預設儲存在本地,模型預設是私有的,並且第一個帳號會取得管理員權限。
2. DeepSeek 不等於完整企業知識庫
Ollama + DeepSeek + Open WebUI 只是「模型與聊天介面」。
如果你要讓 AI 查公司文件,還需要 RAG 架構,例如:

如果資料是產品價格、庫存、規格、訂單、會員資料,通常不建議只放向量資料庫,應該使用 SQL 或 API 查詢,再讓 LLM 負責解釋與生成自然語言回答。
3. 8B 很適合入門,但不一定適合正式商用
deepseek-r1:8b 很適合測試與小型內部應用,但如果你的需求是:
- 更複雜的推理
- 長文件分析
- 程式碼生成
- 多輪問答
- 多人同時使用
- 較高回答品質
就要考慮 14B、32B、70B,甚至更高階的模型與多 GPU 架構。
4. GPU VRAM 比 CPU 核心數更關鍵
LLM 推論最容易卡在 GPU VRAM。
如果模型無法完整放進 VRAM,就會部分回到 RAM / CPU,速度可能明顯下降。
所以企業在選主機時,不應只看:
CPU 幾核心、RAM 幾 GB
更要看:
GPU 型號、VRAM 容量、記憶體頻寬、多 GPU 互連、散熱與電力
這也是為什麼 AI 主機與一般網站主機完全不同。
DeepSeek 本地部署常見問題
如果你是透過 Ollama 在本地執行 DeepSeek 模型,通常不需要 DeepSeek API Key。模型下載到本機或伺服器後,推論會在自己的硬體上執行。
可以。模型下載完成後,只要不需要下載新模型或更新模型,Ollama 可以在本地環境執行。Ollama 官方也強調可以在任務關鍵環境中完全離線執行。
Open WebUI 是一套自架式 AI 網頁介面,可以連接 Ollama、本地模型或其他模型供應商,提供類似 ChatGPT 的聊天體驗。官方 Quick Start 提供 Docker 快速部署方式,預設可透過 3000:8080 對外提供網頁介面。
適合,但要看需求。
如果只是個人測試,可以用工作站或小型 GPU。
如果是公司內部知識庫、客服輔助、技術文件查詢、ERP 文件分析,就建議使用 GPU 主機,並搭配權限控管、HTTPS、備份與 RAG 架構。
可以,但 DeepSeek 只是模型本身。企業知識庫通常還需要文件處理、Embedding、向量資料庫、SQL 查詢、權限控管與資料更新流程。也就是說,DeepSeek 是大腦,RAG 與資料庫才是企業知識來源。
簡單來說:
| 需求 | 建議模型 |
|---|---|
| 入門測試 | 7B / 8B |
| 一般內部助理 | 8B / 14B |
| 較高品質推理 | 32B |
| 企業級複雜任務 | 70B |
| 大型研究或高階部署 | 671B 或其他資料中心級架構 |
如果不知道怎麼選,可以先用 8B 測試流程,再依照回答品質、速度與使用人數升級硬體與模型。
可以。個人測試可以先安裝 Ollama Windows 版,再執行 deepseek-r1:7b 或 deepseek-r1:8b 這類較小模型。不過 Windows 桌機或筆電比較適合測試模型效果,不建議直接作為企業正式服務環境。如果要提供多人穩定使用,建議使用 Linux GPU 主機部署。
會。如果 nvidia-smi 無法正常顯示 GPU,代表 NVIDIA Driver 或 GPU 偵測可能有問題。這時候即使安裝 Ollama、Open WebUI 或 Docker,也可能無法正常使用 GPU 加速。建議先確認 NVIDIA Driver、Secure Boot、BIOS 與 GPU 狀態,再繼續部署。
不確定該選 8B、32B 還是 70B?
DeepSeek 本地部署最容易誤判的地方,不是安裝指令,而是模型大小與硬體規格。
如果模型太小,回答品質可能不符合企業需求;如果一開始就選太大的模型,又可能造成 GPU 成本過高、部署複雜度增加。尤其是企業如果要同時處理多人使用、RAG 知識庫、PDF 文件、Excel 規格表、客服 FAQ 或內部 SOP,硬體規格就不能只用「能不能跑」來判斷。
TAKI Cloud 可協助企業依照以下條件評估合適的 GPU 主機:
- 預計同時使用人數
- 是否需要串接 RAG / 企業知識庫
- 是否需要處理 PDF、Excel、SOP 或客服資料
- 是否需要 8B、14B、32B、70B 等不同模型
- 是否需要私有化部署、內網部署或資料不出境
- 是否需要後續維運、備份、監控與安全設定
如果你不確定要從哪一種 GPU 主機開始,可以先讓工程師協助評估部署架構,避免買太小跑不順,也避免一開始就投入過高規格造成預算浪費。
推薦參考:
結論:DeepSeek 本地部署是企業私有 AI 的第一步
用 Ollama + Open WebUI 部署 DeepSeek,可以讓企業快速建立一套私有 AI 助理。
它的好處是部署門檻低、操作介面友善、模型可本地執行,也能進一步串接 RAG、內部文件、SOP、客服 FAQ 與 ERP 資料。
但如果要從「測試可用」走到「企業正式上線」,就不能只看安裝指令。你還需要考慮 GPU 規格、VRAM、併發量、權限控管、資料安全、備份、監控與長期維護。
對企業來說,DeepSeek 本地部署的真正價值不是裝好一個聊天機器人,而是建立一套能長期服務內部流程、知識管理與客服效率的私有 AI 基礎設施。
如果你正在規劃 DeepSeek、Ollama、Open WebUI、RAG 或企業內部 AI 知識庫部署,TAKI Cloud 可協助評估適合的 GPU 主機架構,包含模型大小、GPU VRAM、多人使用情境、資料安全與後續擴充需求。
推薦閱讀:
