Deepseek-R1

作者：TAKI Cloud 技術團隊
擁有超過多年 AI 伺服器建置經驗，專精 GPU 叢集部署與 AI 模型優化，已協助數十家企業成功落地 AI 應用。

本文使用 RTX3090 或 RTX4090 在本地部署 Deepseek-R1，完整支援知識蒸餾模型 qwen-7B 與 llama-8B，具備高效能 INT4/FP16 推理能力與 LoRA 微調支持，適合中文大型語言模型本地訓練與離線開發環境，降低延遲與成本。

DeepSeek-R1 是什麼？

DeepSeek-R1 是最新的大語言模型（LLM），具備多模態擴展能力，適合需要中文理解、長文本推理的應用情境。該模型提供 70B 等大型參數版本，若要在本地 GPU 環境中部署，對硬體效能要求極高。

AI 伺服器解決方案

領先的AI算力服務平台

RTX3090 與 RTX4090 的差異

項目	RTX3090	RTX4090
CUDA核心數	10496	16384
VRAM容量	24GB GDDR6X	24GB GDDR6X
記憶體頻寬	936 GB/s	1008 GB/s
性能提升	—	提升約 50%

在 TAKI Cloud 測試環境中，DeepSeek-R1 70B推理速度在 RTX4090 每 1000 token 約 0.8 秒，RTX 3090 則約 1.2 秒。

Deepseek-R1 安裝

關於 Deepseek-R1 如何安裝和設定專案的說明。

				
					# cron 倉庫。
git clone https://github.com/jerryzsj/my-deepseek-r1.git

# 進入項目目錄。
cd my-deepseek-r1

Deepseek-R1 使用

關於 Deepseek-R1 如何使用專案的說明。

Deepseek-R1 模型下載

Deepseek 模型應該預先下載並放置在 workspace 資料夾中。建議使用 git 下載模型。

				
					# 安裝 git-lfs (確保已安裝git-lfs以便用git下載大檔案)
git lfs install
 
# cron 模型
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 
# 如果需要，為 git 設定代理
git config --global http.proxy http://127.0.0.1:7890
git config --global https.proxy http://127.0.0.1:7890

Docker Compose

本專案使用 Docker Compose 建立和運行 SGLang 伺服器。提供了一個範例 compose.yaml。

				
					# 根據你的服務器狀況修改'compose.yaml'
# 使用 Docker Compose 啟動 SGLang 伺服器
docker-compose up -d
 
# 如果一切正常,你將在 Docker-Containers-sglang-Logs 中看到以下內容：
2025-02-04 21:21:33 [2025-02-04 05:21:33] server_args=ServerArgs(model_path='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', tokenizer_path='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', tokenizer_mode='auto', load_format='auto', trust_remote_code=False, dtype='auto', kv_cache_dtype='auto', quantization_param_path=None, quantization=None, context_length=None, device='cuda', served_model_name='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', chat_template=None, is_embedding=False, revision=None, skip_tokenizer_init=False, host='0.0.0.0', port=30000, mem_fraction_static=0.88, max_running_requests=None, max_total_tokens=None, chunked_prefill_size=2048, max_prefill_tokens=16384, schedule_policy='lpm', schedule_conservativeness=1.0, cpu_offload_gb=0, prefill_only_one_req=False, tp_size=1, stream_interval=1, stream_output=False, random_seed=625144628, constrained_json_whitespace_pattern=None, watchdog_timeout=300, download_dir=None, base_gpu_id=0, log_level='info', log_level_http=None, log_requests=False, show_time_cost=False, enable_metrics=False, decode_log_interval=40, api_key=None, file_storage_pth='sglang_storage', enable_cache_report=False, dp_size=1, load_balance_method='round_robin', ep_size=1, dist_init_addr=None, nnodes=1, node_rank=0, json_model_override_args='{}', lora_paths=None, max_loras_per_batch=8, attention_backend='flashinfer', sampling_backend='flashinfer', grammar_backend='outlines', speculative_draft_model_path=None, speculative_algorithm=None, speculative_num_steps=5, speculative_num_draft_tokens=64, speculative_eagle_topk=8, enable_double_sparsity=False, ds_channel_config_path=None, ds_heavy_channel_num=32, ds_heavy_token_num=256, ds_heavy_channel_type='qk', ds_sparse_decode_threshold=4096, disable_radix_cache=False, disable_jump_forward=False, disable_cuda_graph=False, disable_cuda_graph_padding=False, disable_outlines_disk_cache=False, disable_custom_all_reduce=False, disable_mla=False, disable_overlap_schedule=False, enable_mixed_chunk=False, enable_dp_attention=False, enable_ep_moe=False, enable_torch_compile=False, torch_compile_max_bs=32, cuda_graph_max_bs=8, cuda_graph_bs=None, torchao_config='', enable_nan_detection=False, enable_p2p_check=False, triton_attention_reduce_in_fp32=False, triton_attention_num_kv_splits=8, num_continuous_decode_steps=1, delete_ckpt_after_loading=False, enable_memory_saver=False, allow_auto_truncate=False, enable_custom_logit_processor=False, tool_call_parser=None, enable_hierarchical_cache=False)
2025-02-04 21:21:40 [2025-02-04 05:21:40 TP0] Init torch distributed begin.
2025-02-04 21:21:40 [2025-02-04 05:21:40 TP0] Load weight begin. avail mem=22.76 GB
2025-02-04 21:21:41 
Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]
2025-02-04 21:26:20 
Loading safetensors checkpoint shards:  50% Completed | 1/2 [04:38<04:38, 278.99s/it]
2025-02-04 21:29:17 
Loading safetensors checkpoint shards: 100% Completed | 2/2 [07:36<00:00, 219.04s/it]
2025-02-04 21:29:17 
Loading safetensors checkpoint shards: 100% Completed | 2/2 [07:36<00:00, 228.04s/it]
2025-02-04 21:29:17 
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] Load weight end. type=Qwen2ForCausalLM, dtype=torch.bfloat16, avail mem=8.37 GB
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] KV Cache is allocated. K size: 2.82 GB, V size: 2.82 GB.
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] Memory pool end. avail mem=1.68 GB
2025-02-04 21:29:18 [2025-02-04 05:29:18 TP0] Capture cuda graph begin. This can take up to several minutes.
2025-02-04 21:29:19 
  0%|          | 0/4 [00:00<?, ?it/s]
 25%|██▌       | 1/4 [00:01<00:03,  1.14s/it]
 50%|█████     | 2/4 [00:01<00:01,  1.73it/s]
 75%|███████▌  | 3/4 [00:01<00:00,  2.47it/s]
100%|██████████| 4/4 [00:01<00:00,  3.10it/s]
100%|██████████| 4/4 [00:01<00:00,  2.33it/s]
2025-02-04 21:29:19 [2025-02-04 05:29:19 TP0] Capture cuda graph end. Time elapsed: 1.79 s
2025-02-04 21:29:20 [2025-02-04 05:29:20 TP0] max_total_num_tokens=105531, chunked_prefill_size=2048, max_prefill_tokens=16384, max_running_requests=2049, context_len=131072
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Started server process [1]
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Waiting for application startup.
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Application startup complete.
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Uvicorn running on http://0.0.0.0:30000 (Press CTRL+C to quit)
2025-02-04 21:29:21 [2025-02-04 05:29:21 TP0] Prefill batch. #new-seq: 1, #new-token: 7, #cached-token: 0, cache hit rate: 0.00%, token usage: 0.00, #running-req: 0, #queue-req: 0
2025-02-04 21:29:23 [2025-02-04 05:29:23] The server is fired up and ready to roll!
2025-02-04 21:29:21 [2025-02-04 05:29:21] INFO:     127.0.0.1:35342 - "GET /get_model_info HTTP/1.1" 200 OK
2025-02-04 21:29:23 [2025-02-04 05:29:23] INFO:     127.0.0.1:35348 - "POST /generate HTTP/1.1" 200 OK
2025-02-04 21:29:42 [2025-02-04 05:29:42] INFO:     127.0.0.1:41026 - "GET /health HTTP/1.1" 200 OK

CUDA 支援

若要支援 CUDA，請安裝 NVIDIA Container Toolkit。在此之前，請先安裝 CUDA 和 CUDNN。 (我使用的是 cuda_12.6.0，驅動程式版本560.76)

CUDA 安裝步驟

依據 NVIDIA CUDA官方文件建議：

安裝驅動：RTX4090/3090建議搭配 NVIDIA Driver 535.113 以上版本。
下載對應CUDA工具包：CUDA 12.1或以上版本能最佳化RTX40系列效能。
更新 cuDNN 與 NCCL 套件：建議搭配 cuDNN 8.9+，NCCL 2.16+。

RTX - 3090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B

實例

8卡 NVIDIA RTX-4090 24G

數量

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

RTX - 4090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B

實例

8卡 NVIDIA RTX-4090 24G

數量 庫存緊張，欲租從速

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

HGX H100 GPU 主機

原價 ~~499,999~~元/月特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版

實例

8顆 NVIDIA HGX H100 80G

數量

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

對於 Windows 用戶

請使用 WSL2 作為 Docker 引擎，並在 Docker 設定中指定你想用於 Docker 的 WSL2 發行版(在 Docker-Settings-Resources-WSL integration 中)。在你的 WSL2 發行版中執行以下指令來安裝 NVIDIA Container Toolkit：

				
					# 安裝 NVIDIA Container Toolkit
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
        sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
        sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker

之後，在 Docker 引擎配置頁面新增以下內容：

				
					"runtimes": {
    "nvidia": {
        "args": [],
        "path": "nvidia-container-runtime"
    }
}

常見錯誤與解決

錯誤訊息：CUDA out of memory

解決方式：使用多 GPU 進行模型分片，或啟用 DeepSpeed、Zero-Offload 等技術降低記憶體需求。

錯誤訊息：Driver/CUDA不相容

解決方式：先確認 nvidia-smi 顯示驅動版本，再以 nvcc –version 驗證CUDA版本是否對應驅動。

常見問題（FAQ）

RTX4090 與 3090 部署 DeepSeek-R1 的主要差異？

RTX4090 具備更高 CUDA 核心與更快記憶體頻寬，可縮短大模型推理與訓練時間，效能約提升 50%。

部署 DeepSeek-R1 70B 最少需要多少 VRAM？

單卡至少 24GB VRAM；若模型超過顯存可考慮多卡並行。

在本地環境部署 DeepSeek-R1 需要什麼系統環境？

建議 Ubuntu 20.04 或以上版本，安裝 CUDA 12.1+、cuDNN 8.9+，Python 3.10+。

RTX - 3090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B

實例

8卡 NVIDIA RTX-4090 24G

數量

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

RTX - 4090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B

實例

8卡 NVIDIA RTX-4090 24G

數量 庫存緊張，欲租從速

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

HGX H100 GPU 主機

原價 ~~499,999~~元/月特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版

實例

8顆 NVIDIA HGX H100 80G

數量

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

如何讓 TAKI Cloud 協助您？

TAKI Cloud 提供 RTX4090/RTX5090 等高效能 GPU 伺服器租用方案，協助您完成 DeepSeek-R1、LLaMA2、Qwen 等大模型的本地部署，並提供專業技術支援。

立即聯絡我們，獲取技術諮詢：

Web：www.taki.com.tw

LINE ID：@takicloud

Wechat ID：masamune-taki

LINE 官方帳號

TAKICloud 客服工單系統(請先登入帳號)

taki

See Full Bio

RTX3090/RTX4090 部署 Deepseek-R1 蒸餾模型

Bytaki

目錄

Deepseek-R1

DeepSeek-R1 是什麼？

AI 伺服器解決方案

領先的AI算力服務平台

TAKI AI 伺服器

TAKI AI 伺服器

TAKI AI 伺服器

TAKI AI 伺服器

RTX3090 與 RTX4090 的差異

Deepseek-R1 安裝

Deepseek-R1 使用

Deepseek-R1 模型下載

Docker Compose

CUDA 支援

CUDA 安裝步驟

對於 Windows 用戶

常見錯誤與解決

錯誤訊息：CUDA out of memory

錯誤訊息：Driver/CUDA不相容

常見問題（FAQ）

如何讓 TAKI Cloud 協助您？

By taki

相關文章

台灣 WordPress 主機適合你嗎？ 5 大核心標準助你精準判斷

Docker Compose 是什麼？多容器應用完整部署指南（從開發到正式環境）

Docker Image 與 Dockerfile 實戰教學（最佳實務與效能優化）

發佈留言取消回覆

You missed

Docker Volume 與資料持久化完整解析

台灣 WordPress 主機適合你嗎？ 5 大核心標準助你精準判斷

Docker Compose 是什麼？多容器應用完整部署指南（從開發到正式環境）

Docker Image 與 Dockerfile 實戰教學（最佳實務與效能優化）

Bytaki

目錄

Deepseek-R1

DeepSeek-R1 是什麼？

AI 伺服器解決方案

領先的AI算力服務平台

TAKI AI 伺服器

TAKI AI 伺服器

TAKI AI 伺服器

TAKI AI 伺服器

RTX3090 與 RTX4090 的差異

Deepseek-R1 安裝

Deepseek-R1 使用

Deepseek-R1 模型下載

Docker Compose

CUDA 支援

CUDA 安裝步驟

對於 Windows 用戶

常見錯誤與解決

錯誤訊息：CUDA out of memory

錯誤訊息：Driver/CUDA不相容

常見問題（FAQ）

如何讓 TAKI Cloud 協助您？

By taki

相關文章

發佈留言 取消回覆

You missed

發佈留言取消回覆