目錄

Deepseek-R1

作者:TAKI Cloud 技術團隊
擁有超過多年 AI 伺服器建置經驗,專精 GPU 叢集部署與 AI 模型優化,已協助數十家企業成功落地 AI 應用。

本文使用 RTX3090 或 RTX4090 在本地部署 Deepseek-R1,完整支援知識蒸餾模型 qwen-7B 與 llama-8B,具備高效能 INT4/FP16 推理能力與 LoRA 微調支持,適合中文大型語言模型本地訓練與離線開發環境,降低延遲與成本。

DeepSeek-R1 是什麼?

DeepSeek-R1 是最新的大語言模型(LLM),具備多模態擴展能力,適合需要中文理解、長文本推理的應用情境。該模型提供 70B 等大型參數版本,若要在本地 GPU 環境中部署,對硬體效能要求極高。

AI 伺服器解決方案
領先的AI算力服務平台

RTX3090 與 RTX4090 的差異

項目
RTX3090
RTX4090
CUDA核心數
10496
16384
VRAM容量
24GB GDDR6X
24GB GDDR6X
記憶體頻寬
936 GB/s
1008 GB/s
性能提升
提升約 50%

TAKI Cloud 測試環境中,DeepSeek-R1 70B推理速度在 RTX4090 每 1000 token 約 0.8 秒,RTX 3090 則約 1.2 秒。

Deepseek-R1 安裝

關於 Deepseek-R1 如何安裝和設定專案的說明。

				
					# cron 倉庫。
git clone https://github.com/jerryzsj/my-deepseek-r1.git

# 進入項目目錄。
cd my-deepseek-r1
				
			

Deepseek-R1 使用

關於 Deepseek-R1 如何使用專案的說明。

Deepseek-R1 模型下載

Deepseek 模型應該預先下載並放置在 workspace 資料夾中。 建議使用 git 下載模型。

				
					# 安裝 git-lfs (確保已安裝git-lfs以便用git下載大檔案)
git lfs install
 
# cron 模型
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 
# 如果需要,為 git 設定代理
git config --global http.proxy http://127.0.0.1:7890
git config --global https.proxy http://127.0.0.1:7890
				
			

Docker Compose

本專案使用 Docker Compose 建立和運行 SGLang 伺服器。提供了一個範例 compose.yaml。

				
					# 根據你的服務器狀況修改'compose.yaml'
# 使用 Docker Compose 啟動 SGLang 伺服器
docker-compose up -d
 
# 如果一切正常,你將在 Docker-Containers-sglang-Logs 中看到以下內容:
2025-02-04 21:21:33 [2025-02-04 05:21:33] server_args=ServerArgs(model_path='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', tokenizer_path='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', tokenizer_mode='auto', load_format='auto', trust_remote_code=False, dtype='auto', kv_cache_dtype='auto', quantization_param_path=None, quantization=None, context_length=None, device='cuda', served_model_name='/sgl-workspace/models/DeepSeek-R1-Distill-Qwen-7B', chat_template=None, is_embedding=False, revision=None, skip_tokenizer_init=False, host='0.0.0.0', port=30000, mem_fraction_static=0.88, max_running_requests=None, max_total_tokens=None, chunked_prefill_size=2048, max_prefill_tokens=16384, schedule_policy='lpm', schedule_conservativeness=1.0, cpu_offload_gb=0, prefill_only_one_req=False, tp_size=1, stream_interval=1, stream_output=False, random_seed=625144628, constrained_json_whitespace_pattern=None, watchdog_timeout=300, download_dir=None, base_gpu_id=0, log_level='info', log_level_http=None, log_requests=False, show_time_cost=False, enable_metrics=False, decode_log_interval=40, api_key=None, file_storage_pth='sglang_storage', enable_cache_report=False, dp_size=1, load_balance_method='round_robin', ep_size=1, dist_init_addr=None, nnodes=1, node_rank=0, json_model_override_args='{}', lora_paths=None, max_loras_per_batch=8, attention_backend='flashinfer', sampling_backend='flashinfer', grammar_backend='outlines', speculative_draft_model_path=None, speculative_algorithm=None, speculative_num_steps=5, speculative_num_draft_tokens=64, speculative_eagle_topk=8, enable_double_sparsity=False, ds_channel_config_path=None, ds_heavy_channel_num=32, ds_heavy_token_num=256, ds_heavy_channel_type='qk', ds_sparse_decode_threshold=4096, disable_radix_cache=False, disable_jump_forward=False, disable_cuda_graph=False, disable_cuda_graph_padding=False, disable_outlines_disk_cache=False, disable_custom_all_reduce=False, disable_mla=False, disable_overlap_schedule=False, enable_mixed_chunk=False, enable_dp_attention=False, enable_ep_moe=False, enable_torch_compile=False, torch_compile_max_bs=32, cuda_graph_max_bs=8, cuda_graph_bs=None, torchao_config='', enable_nan_detection=False, enable_p2p_check=False, triton_attention_reduce_in_fp32=False, triton_attention_num_kv_splits=8, num_continuous_decode_steps=1, delete_ckpt_after_loading=False, enable_memory_saver=False, allow_auto_truncate=False, enable_custom_logit_processor=False, tool_call_parser=None, enable_hierarchical_cache=False)
2025-02-04 21:21:40 [2025-02-04 05:21:40 TP0] Init torch distributed begin.
2025-02-04 21:21:40 [2025-02-04 05:21:40 TP0] Load weight begin. avail mem=22.76 GB
2025-02-04 21:21:41 
Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]
2025-02-04 21:26:20 
Loading safetensors checkpoint shards:  50% Completed | 1/2 [04:38<04:38, 278.99s/it]
2025-02-04 21:29:17 
Loading safetensors checkpoint shards: 100% Completed | 2/2 [07:36<00:00, 219.04s/it]
2025-02-04 21:29:17 
Loading safetensors checkpoint shards: 100% Completed | 2/2 [07:36<00:00, 228.04s/it]
2025-02-04 21:29:17 
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] Load weight end. type=Qwen2ForCausalLM, dtype=torch.bfloat16, avail mem=8.37 GB
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] KV Cache is allocated. K size: 2.82 GB, V size: 2.82 GB.
2025-02-04 21:29:17 [2025-02-04 05:29:17 TP0] Memory pool end. avail mem=1.68 GB
2025-02-04 21:29:18 [2025-02-04 05:29:18 TP0] Capture cuda graph begin. This can take up to several minutes.
2025-02-04 21:29:19 
  0%|          | 0/4 [00:00<?, ?it/s]
 25%|██▌       | 1/4 [00:01<00:03,  1.14s/it]
 50%|█████     | 2/4 [00:01<00:01,  1.73it/s]
 75%|███████▌  | 3/4 [00:01<00:00,  2.47it/s]
100%|██████████| 4/4 [00:01<00:00,  3.10it/s]
100%|██████████| 4/4 [00:01<00:00,  2.33it/s]
2025-02-04 21:29:19 [2025-02-04 05:29:19 TP0] Capture cuda graph end. Time elapsed: 1.79 s
2025-02-04 21:29:20 [2025-02-04 05:29:20 TP0] max_total_num_tokens=105531, chunked_prefill_size=2048, max_prefill_tokens=16384, max_running_requests=2049, context_len=131072
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Started server process [1]
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Waiting for application startup.
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Application startup complete.
2025-02-04 21:29:20 [2025-02-04 05:29:20] INFO:     Uvicorn running on http://0.0.0.0:30000 (Press CTRL+C to quit)
2025-02-04 21:29:21 [2025-02-04 05:29:21 TP0] Prefill batch. #new-seq: 1, #new-token: 7, #cached-token: 0, cache hit rate: 0.00%, token usage: 0.00, #running-req: 0, #queue-req: 0
2025-02-04 21:29:23 [2025-02-04 05:29:23] The server is fired up and ready to roll!
2025-02-04 21:29:21 [2025-02-04 05:29:21] INFO:     127.0.0.1:35342 - "GET /get_model_info HTTP/1.1" 200 OK
2025-02-04 21:29:23 [2025-02-04 05:29:23] INFO:     127.0.0.1:35348 - "POST /generate HTTP/1.1" 200 OK
2025-02-04 21:29:42 [2025-02-04 05:29:42] INFO:     127.0.0.1:41026 - "GET /health HTTP/1.1" 200 OK
				
			

CUDA 支援

若要支援 CUDA,請安裝 NVIDIA Container Toolkit。 在此之前,請先安裝 CUDA 和 CUDNN。 (我使用的是 cuda_12.6.0,驅動程式版本560.76)

CUDA 安裝步驟

依據 NVIDIA CUDA官方文件 建議:

  1. 安裝驅動:RTX4090/3090建議搭配 NVIDIA Driver 535.113 以上版本。
  2. 下載對應CUDA工具包:CUDA 12.1或以上版本能最佳化RTX40系列效能。
  3. 更新 cuDNN 與 NCCL 套件:建議搭配 cuDNN 8.9+,NCCL 2.16+。

RTX - 3090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B

實例

8卡 NVIDIA RTX-4090 24G

數量

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

RTX - 4090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B

實例

8卡 NVIDIA RTX-4090 24G

數量 庫存緊張,欲租從速

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

HGX H100 GPU 主機

原價 499,999元/月 特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版

實例

8顆 NVIDIA HGX H100 80G

數量

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

對於 Windows 用戶

請使用 WSL2 作為 Docker 引擎,並在 Docker 設定中指定你想用於 Docker 的 WSL2 發行版(在 Docker-Settings-Resources-WSL integration 中)。 在你的 WSL2 發行版中執行以下指令來安裝 NVIDIA Container Toolkit:

				
					# 安裝 NVIDIA Container Toolkit
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
        sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
        sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker
				
			

之後,在 Docker 引擎配置頁面新增以下內容:

				
					"runtimes": {
    "nvidia": {
        "args": [],
        "path": "nvidia-container-runtime"
    }
}
				
			

常見錯誤與解決

錯誤訊息:CUDA out of memory

解決方式:使用多 GPU 進行模型分片,或啟用 DeepSpeed、Zero-Offload 等技術降低記憶體需求。

錯誤訊息:Driver/CUDA不相容

解決方式:先確認 nvidia-smi 顯示驅動版本,再以 nvcc –version 驗證CUDA版本是否對應驅動。

常見問題(FAQ)

RTX4090 具備更高 CUDA 核心與更快記憶體頻寬,可縮短大模型推理與訓練時間,效能約提升 50%。

單卡至少 24GB VRAM;若模型超過顯存可考慮多卡並行。

建議 Ubuntu 20.04 或以上版本,安裝 CUDA 12.1+、cuDNN 8.9+,Python 3.10+。

RTX - 3090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B

實例

8卡 NVIDIA RTX-4090 24G

數量

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

RTX - 4090 GPU 主機

視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B

實例

8卡 NVIDIA RTX-4090 24G

數量 庫存緊張,欲租從速

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

HGX H100 GPU 主機

原價 499,999元/月 特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版

實例

8顆 NVIDIA HGX H100 80G

數量

1

全台唯一提供高階 AI / GPU 主機租用

價格殺很大 / 量大可談

TAKI Cloud 雲端主機 只要470元起
TAKI GPU 雲端主機 只要6,163元起
TAAI 人工智慧 GPU 主機 只要7,350元起

如何讓 TAKI Cloud 協助您?

TAKI Cloud 提供 RTX4090/RTX5090 等高效能 GPU 伺服器租用方案,協助您完成 DeepSeek-R1、LLaMA2、Qwen 等大模型的本地部署,並提供專業技術支援。

立即聯絡我們,獲取技術諮詢:

Webwww.taki.com.tw

LINE ID@takicloud

Wechat IDmasamune-taki

LINE 官方帳號

TAKICloud 客服工單系統(請先登入帳號)

By taki

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *