呓语笔记

微调实践笔记

2025-12-22T07:29:29.000Z

Qwen3 微调实践笔记

一、模型微调的意义

为什么要微调

1. 降低训练成本与门槛

大模型参数量巨大，从头训练成本极高，对企业而言性价比低。
微调预训练模型是更经济高效的解决方案。

2. 突破 Prompt Engineering 的限制

Prompt Engineering 虽易于上手，但存在明显缺点：

长度限制：输入序列长度受限，长 Prompt 会被截断，影响输出质量。
推理成本高：推理成本与 Prompt 长度的平方正相关。

3. 提升特定领域性能

当企业拥有高质量的自有领域数据，且 Prompt Engineering 效果不达预期时，微调能显著提升模型在特定领域的专业能力。

4. 实现个性化服务

针对不同用户的数据，训练轻量级的微调模型，是实现个性化服务的有效方案。

5. 保障数据安全

当数据因安全或合规要求不能传递给第三方服务时，必须搭建自有模型。
开源大模型通常需要结合自有数据进行微调，才能满足具体业务需求。

微调 vs. 检索增强生成 (RAG)

与纯RAG系统相比，微调具备以下优势：

能力范围：微调几乎可以实现 RAG 的所有功能，但反之不成立。
知识内化：微调将外部知识直接嵌入模型权重，使模型能独立处理特定领域查询，无需依赖外部检索系统。
混合方案：即使在微调与RAG并用的混合架构中，微调后的模型也能提供可靠的后备方案，增强系统鲁棒性。

微调的优缺点与限制

参考一个案例：大模型微调，为什么99%的企业都不应该碰这个坑？

微调是通过调整预训练模型参数，使其适应特定任务或领域需求的方法。

主要优点：

高效灵活：通常只需较少的数据样本即可获得良好性能，尤其适合特定领域任务（如提升对专有词汇的理解）。
部署简便：模型可直接部署，无需额外外部组件，适合对实时性要求高的场景。

主要缺点与限制：

资源消耗大：虽然不及全量训练，但微调也需要大量计算资源和时间，训练成本高。
过拟合与灾难性遗忘：模型可能在新领域表现良好，但遗忘原有通用知识。
泛化能力可能受限：在某些复杂任务上，其泛化能力可能不如RAG等方法。
更新不灵活：对于需要频繁更新知识的场景，微调需重新训练，不如RAG（仅更新知识库）灵活。

二、Unsloth 工具介绍

Unsloth 是一个专为大语言模型优化的高效微调框架，具有以下核心特点：

更快的训练速度：比标准 LoRA 训练快 2-5 倍。其原理是通过算子融合等技术，减少GPU间的数据传输开销。
更低的内存占用：采用梯度检查点技术，在前向传播时不保存全部中间结果，需时重新计算，从而减少约 30% 的 VRAM 使用。
优化的 LoRA 实现：针对当前主流的 LoRA 微调方法进行了底层深度优化。
广泛的模型支持：支持 Llama、Mistral、Qwen、Phi 等多种主流开源大模型。

三、准备工作

3.1 环境准备

安装基础的 GPU 驱动、CUDA等。
在 Python 虚拟环境中安装必要的依赖包：

1 2	pip install swanlab modelscope==1.22.0 "transformers>=4.50.0" datasets==3.2.0 accelerate pandas addict pip install "unsloth[colab-new]" -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 下载基座模型

本例选用 Qwen3-8B 模型。

模型主页：https://www.modelscope.cn/models/Qwen/Qwen3-8B

下载命令：

(ai) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ git clone https://www.modelscope.cn/Qwen/Qwen3-8B.git
Cloning into 'Qwen3-8B'...
remote: Enumerating objects: 53, done.
remote: Total 53 (delta 0), reused 0 (delta 0), pack-reused 53
Receiving objects: 100% (53/53), 1.73 MiB | 11.67 MiB/s, done.
Resolving deltas: 100% (15/15), done.
Updating files: 100% (16/16), done.
Filtering content: 100% (6/6), 15.26 GiB | 21.42 MiB/s, done.

3.3 下载数据集

本例选用魔塔社区开源的 HUST-Student-Handbook（华中科技大学学生手册）数据集。

数据集主页：https://www.modelscope.cn/datasets/alleyf/HUST-Student-Handbook

下载命令：

(ai) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ git clone https://www.modelscope.cn/datasets/alleyf/HUST-Student-Handbook.git
Cloning into 'HUST-Student-Handbook'...
remote: Enumerating objects: 32, done.
remote: Counting objects: 100% (32/32), done.
remote: Compressing objects: 100% (32/32), done.
remote: Total 32 (delta 12), reused 0 (delta 0), pack-reused 0
Receiving objects: 100% (32/32), 12.25 KiB | 896.00 KiB/s, done.
Resolving deltas: 100% (12/12), done.
Filtering content: 100% (2/2), 527.32 KiB | 318.00 KiB/s, done.

四、训练过程

4.1 训练脚本

#!/usr/bin/env python3
"""
Qwen3-8B 微调脚本
"""

import os
import sys
import torch

# 设置环境变量 - 必须在导入之前
os.environ['UNSLOTH_NO_STATISTICS'] = '1'  # 禁用Unsloth统计信息收集，减少内存占用
os.environ['HF_HUB_OFFLINE'] = '1'         # 强制使用本地缓存，避免从HuggingFace Hub下载
os.environ['TRANSFORMERS_OFFLINE'] = '1'   # 强制使用本地缓存，避免从HuggingFace Hub下载
os.environ['WANDB_MODE'] = 'disabled'      # 禁用Weights & Biases日志记录，避免登录问题

# 现在导入其他包
import json
from datasets import load_dataset
from unsloth import FastLanguageModel
from transformers import TrainingArguments
from trl import SFTTrainer

def format_conversation(example):
    """格式化对话数据 - 适配Qwen格式"""
    conversations = example["conversations"]
    
    formatted_text = ""
    for msg in conversations:
        if msg["role"] == "user":
            formatted_text += f"<|im_start|>user\n{msg['content']}<|im_end|>\n"
        elif msg["role"] == "assistant":
            formatted_text += f"<|im_start|>assistant\n{msg['content']}<|im_end|>\n"
    
    return {"text": formatted_text}

def main():
    print("=" * 60)
    print("Qwen3-8B 微调")
    print("=" * 60)
    
    # 模型参数
    model_path = "/home/yiyu/nfs/workspace/qwen3_08b_tunning/Qwen3-8B"
    train_file = "/home/yiyu/nfs/workspace/qwen3_08b_tunning/HUST-Student-Handbook/lora_hust_student_handbookt.jsonl"
    eval_file = ""
    output_dir = "/home/yiyu/nfs/workspace/qwen3_08b_tunning/qwen3-8b-finetuned"
    
    # 检查文件是否存在
    if not os.path.exists(model_path):
        print(f"错误: 模型路径不存在: {model_path}")
        sys.exit(1)
    
    if not os.path.exists(train_file):
        print(f"错误: 训练文件不存在: {train_file}")
        sys.exit(1)
    
    # 检查GPU
    print(f"\nGPU信息:")
    print(f"  CUDA可用: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"  GPU名称: {torch.cuda.get_device_name(0)}")
        print(f"  GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
    
    # 1. 加载模型和分词器
    print("\n1. 加载模型和分词器...")
    try:
        model, tokenizer = FastLanguageModel.from_pretrained(
            model_name=model_path,      # 预训练模型路径或HuggingFace模型ID
            max_seq_length=2048,        # 模型支持的最大序列长度
            dtype=None,                 # 数据类型，None表示自动检测（通常是torch.float16）
            load_in_4bit=True,          # 使用4位量化加载模型，减少内存占用
            token=None,                 # HuggingFace访问令牌，None表示不使用或已有缓存
        )
        print(f"  ✓ 模型加载成功")
    except Exception as e:
        print(f"  ✗ 模型加载失败: {e}")
        sys.exit(1)
    
    # 设置tokenizer
    tokenizer.pad_token = tokenizer.eos_token  # 使用EOS令牌作为填充令牌
    tokenizer.padding_side = "right"           # 在序列右侧进行填充
    print(f"  ✓ Tokenizer设置完成")
    
    # 2. 应用LoRA
    print("\n2. 应用LoRA配置...")
    try:
        model = FastLanguageModel.get_peft_model(
            model,                          # 基础模型
            r=16,                           # LoRA秩，控制低秩矩阵的维度，值越小参数越少
            target_modules=[                # 要应用LoRA的目标模块列表
                "q_proj", "k_proj", "v_proj", "o_proj",  # 注意力机制投影层
                "gate_proj", "up_proj", "down_proj",     # FFN层投影
            ],
            lora_alpha=32,                  # LoRA缩放因子，控制新权重对原始权重的贡献程度
            lora_dropout=0.05,              # LoRA层的Dropout率，防止过拟合
            bias="none",                    # 偏置训练策略："none"不训练，"all"训练所有偏置
            use_gradient_checkpointing=True, # 使用梯度检查点，减少内存占用但增加计算时间
            random_state=42,                # 随机种子，确保可重复性
            use_rslora=False,               # 是否使用rsLoRA（减少梯度的LoRA变体）
            loftq_config=None,              # LoftQ配置，用于量化感知微调
        )
        print(f"  ✓ LoRA应用成功 (r=16, alpha=32)")
    except Exception as e:
        print(f"  ✗ LoRA应用失败: {e}")
        sys.exit(1)
    
    # 计算可训练参数
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    total_params = sum(p.numel() for p in model.parameters())
    print(f"  ✓ 可训练参数: {trainable_params:,} (占总参数 {100*trainable_params/total_params:.2f}%)")
    
    # 3. 加载数据
    print("\n3. 加载和准备数据...")
    try:
        # 加载训练数据
        train_dataset = load_dataset("json", data_files=train_file, split="train")
        train_dataset = train_dataset.map(
            format_conversation,
            remove_columns=["conversations"]
        )
        print(f"  ✓ 训练数据: {len(train_dataset)} 条样本")
        
        # 加载评估数据（如果有）
        if os.path.exists(eval_file):
            eval_dataset = load_dataset("json", data_files=eval_file, split="train")
            eval_dataset = eval_dataset.map(
                format_conversation,
                remove_columns=["conversations"]
            )
            print(f"  ✓ 评估数据: {len(eval_dataset)} 条样本")
            eval_data_available = True
        else:
            print(f"  ⓘ 评估数据不存在，跳过评估")
            eval_dataset = None
            eval_data_available = False
            
    except Exception as e:
        print(f"  ✗ 数据加载失败: {e}")
        sys.exit(1)
    
    # 4. 设置训练参数 - 使用兼容的参数名
    print("\n4. 设置训练参数...")
    try:
        # 创建输出目录
        os.makedirs(output_dir, exist_ok=True)
        
        # 训练参数配置
        training_args = TrainingArguments(
            output_dir=output_dir,                    # 模型和日志输出目录
            num_train_epochs=3,                      # 训练轮数
            per_device_train_batch_size=2,           # 每个设备/GPU的训练批次大小
            gradient_accumulation_steps=4,           # 梯度累积步数，模拟更大批次
            warmup_ratio=0.03,                       # 学习率预热比例（占总训练步数的比例）
            learning_rate=2e-4,                      # 初始学习率
            fp16=True,                               # 使用混合精度训练（16位浮点数）
            logging_steps=10,                        # 每多少步记录一次日志
            save_strategy="steps",                   # 模型保存策略："steps"按步数保存
            save_steps=100,                          # 每多少步保存一次模型
            eval_strategy="steps" if eval_data_available else "no",  # 评估策略
            eval_steps=100 if eval_data_available else None,         # 每多少步评估一次
            gradient_checkpointing=True,             # 使用梯度检查点，减少内存占用
            optim="adamw_8bit",                      # 优化器类型，8位AdamW
            lr_scheduler_type="cosine",              # 学习率调度器类型：余弦退火
            seed=42,                                 # 随机种子
            report_to="none",                        # 禁用所有日志记录器
            ddp_find_unused_parameters=False,        # DDP训练中不查找未使用参数
            remove_unused_columns=False,             # 不自动删除数据集未使用列
            save_total_limit=3,                      # 最多保存的检查点数量
            load_best_model_at_end=True if eval_data_available else False,  # 训练结束时加载最佳模型
            metric_for_best_model="loss" if eval_data_available else None,  # 评估指标
            greater_is_better=False if eval_data_available else None,       # 指标是否越大越好
        )
        print(f"  ✓ 训练参数设置完成")
    except Exception as e:
        print(f"  ✗ 训练参数设置失败: {e}")
        sys.exit(1)
    
    # 5. 创建训练器
    print("\n5. 创建训练器...")
    try:
        trainer = SFTTrainer(
            model=model,                          # 要训练的模型
            tokenizer=tokenizer,                  # 分词器
            train_dataset=train_dataset,          # 训练数据集
            eval_dataset=eval_dataset,            # 评估数据集
            dataset_text_field="text",            # 数据集中文本字段的名称
            max_seq_length=2048,                  # 最大序列长度，超过部分会被截断
            packing=False,                        # 是否将多个短序列打包成一个批次
            args=training_args,                   # 训练参数配置
        )
        print(f"  ✓ 训练器创建成功")
    except Exception as e:
        print(f"  ✗ 训练器创建失败: {e}")
        sys.exit(1)
    
    # 6. 开始训练
    print("\n" + "=" * 60)
    print("开始训练...")
    print("=" * 60)
    
    try:
        # 训练模型
        train_result = trainer.train()
        
        print("\n" + "=" * 60)
        print("训练完成！")
        print("=" * 60)
        
        # 打印训练统计
        print(f"\n训练统计:")
        print(f"  总训练步数: {train_result.global_step}")
        print(f"  训练耗时: {train_result.metrics['train_runtime']:.2f} 秒")
        print(f"  每秒步数: {train_result.metrics['train_samples_per_second']:.2f}")
        
    except Exception as e:
        print(f"\n训练过程中出错: {e}")
        sys.exit(1)
    
    # 7. 保存模型
    print("\n6. 保存模型...")
    try:
        # 保存模型和tokenizer
        trainer.save_model()
        tokenizer.save_pretrained(output_dir)
        print(f"  ✓ 模型保存到: {output_dir}")
        
        # 保存训练参数
        with open(os.path.join(output_dir, "training_args.json"), "w") as f:
            json.dump(training_args.to_dict(), f, indent=2)
        print(f"  ✓ 训练参数保存")
        
    except Exception as e:
        print(f"  ✗ 模型保存失败: {e}")
        sys.exit(1)
    
    print("\n" + "=" * 60)
    print("微调流程完成！")
    print("=" * 60)


if __name__ == "__main__":
    main()

4.2 微调训练过程

微调训练大概占用8G显存

(base) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ nvidia-smi
Mon Dec 22 15:00:59 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.274.02             Driver Version: 535.274.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla V100-SXM2-32GB           Off | 00000000:00:10.0 Off |                    0 |
| N/A   56C    P0             212W / 300W |   8486MiB / 32768MiB |     84%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A   1191093      C   python                                     8484MiB |
+---------------------------------------------------------------------------------------+

log

(ai) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ python finetune_qwen.py 
🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
============================================================
Qwen3-8B 微调
============================================================

GPU信息:
  CUDA可用: True
  GPU名称: Tesla V100-SXM2-32GB
  GPU内存: 31.7 GB

1. 加载模型和分词器...
==((====))==  Unsloth 2025.12.8: Fast Qwen3 patching. Transformers: 4.57.3.
   \\   /|    Tesla V100-SXM2-32GB. Num GPUs = 1. Max memory: 31.739 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.9.1+cu128. CUDA: 7.0. CUDA Toolkit: 12.8. Triton: 3.5.1
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.33.post2. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!
Loading checkpoint shards: 100%|█████████████████████████████████████████| 5/5 [02:30<00:00, 30.01s/it]
  ✓ 模型加载成功
  ✓ Tokenizer设置完成

2. 应用LoRA配置...
Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.05.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2025.12.8 patched 36 layers with 0 QKV layers, 0 O layers and 0 MLP layers.
  ✓ LoRA应用成功 (r=16, alpha=32)
  ✓ 可训练参数: 43,646,976 (占总参数 0.92%)

3. 加载和准备数据...
Map: 100%|█████████████████████████████████████████████████| 719/719 [00:00<00:00, 11545.18 examples/s]
  ✓ 训练数据: 719 条样本
  ⓘ 评估数据不存在，跳过评估

4. 设置训练参数...
  ✓ 训练参数设置完成

5. 创建训练器...
Unsloth: Tokenizing ["text"] (num_proc=20): 100%|████████████| 719/719 [00:04<00:00, 169.16 examples/s]
  ✓ 训练器创建成功

============================================================
开始训练...
============================================================
The model is already on multiple devices. Skipping the move to device specified in `args`.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 719 | Num Epochs = 3 | Total steps = 270
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 43,646,976 of 8,234,382,336 (0.53% trained)
  0%|                                                                          | 0/270 [00:00
{'loss': 2.2591, 'grad_norm': 0.9805265665054321, 'learning_rate': 0.0002, 'epoch': 0.11}              
{'loss': 1.6408, 'grad_norm': 0.6932195425033569, 'learning_rate': 0.0001992764570419069, 'epoch': 0.22}
{'loss': 1.5088, 'grad_norm': 0.5240709781646729, 'learning_rate': 0.00019711629845587164, 'epoch': 0.33}
{'loss': 1.411, 'grad_norm': 0.6144455671310425, 'learning_rate': 0.0001935507835925601, 'epoch': 0.44}
{'loss': 1.4867, 'grad_norm': 0.6005836129188538, 'learning_rate': 0.00018863150851539877, 'epoch': 0.56}
{'loss': 1.3918, 'grad_norm': 0.6643008589744568, 'learning_rate': 0.00018242965936120768, 'epoch': 0.67}
{'loss': 1.4473, 'grad_norm': 0.8665452003479004, 'learning_rate': 0.00017503498221564025, 'epoch': 0.78}
{'loss': 1.3993, 'grad_norm': 0.5923981666564941, 'learning_rate': 0.00016655448441021747, 'epoch': 0.89}
{'loss': 1.3726, 'grad_norm': 0.6304987072944641, 'learning_rate': 0.00015711088603430405, 'epoch': 1.0}
{'loss': 1.2395, 'grad_norm': 0.7031642198562622, 'learning_rate': 0.00014684084406997903, 'epoch': 1.11}
{'loss': 1.1672, 'grad_norm': 0.8705151081085205, 'learning_rate': 0.0001358929748480946, 'epoch': 1.22}
{'loss': 1.0753, 'grad_norm': 1.0293835401535034, 'learning_rate': 0.00012442570344228313, 'epoch': 1.33}
{'loss': 1.1042, 'grad_norm': 1.4802284240722656, 'learning_rate': 0.00011260497112202895, 'epoch': 1.44}
{'loss': 1.0878, 'grad_norm': 1.1789474487304688, 'learning_rate': 0.00010060183403992856, 'epoch': 1.56}
{'loss': 1.1023, 'grad_norm': 1.3673157691955566, 'learning_rate': 8.858998790219753e-05, 'epoch': 1.67}           
{'loss': 1.055, 'grad_norm': 1.0307848453521729, 'learning_rate': 7.674325444256899e-05, 'epoch': 1.78}            
{'loss': 1.0381, 'grad_norm': 0.9197383522987366, 'learning_rate': 6.523306607246527e-05, 'epoch': 1.89}           
{'loss': 1.037, 'grad_norm': 0.9783514142036438, 'learning_rate': 5.422598510671666e-05, 'epoch': 2.0}             
{'loss': 0.7927, 'grad_norm': 1.3467820882797241, 'learning_rate': 4.388129346376178e-05, 'epoch': 2.11}           
{'loss': 0.7877, 'grad_norm': 1.3993027210235596, 'learning_rate': 3.4348687719438665e-05, 'epoch': 2.22}          
{'loss': 0.769, 'grad_norm': 1.4056848287582397, 'learning_rate': 2.576611286891901e-05, 'epoch': 2.33}            
{'loss': 0.7288, 'grad_norm': 1.5049540996551514, 'learning_rate': 1.825776614411082e-05, 'epoch': 2.44}           
{'loss': 0.6902, 'grad_norm': 1.1971173286437988, 'learning_rate': 1.1932299773007228e-05, 'epoch': 2.56}          
{'loss': 0.7905, 'grad_norm': 1.5358942747116089, 'learning_rate': 6.881248688597553e-06, 'epoch': 2.67}           
{'loss': 0.7258, 'grad_norm': 1.0989397764205933, 'learning_rate': 3.1777059397436692e-06, 'epoch': 2.78}          
{'loss': 0.7475, 'grad_norm': 0.9426413178443909, 'learning_rate': 8.752649719641848e-07, 'epoch': 2.89}           
{'loss': 0.7717, 'grad_norm': 1.2142314910888672, 'learning_rate': 7.244084232338466e-09, 'epoch': 3.0}            
{'train_runtime': 1060.9473, 'train_samples_per_second': 2.033, 'train_steps_per_second': 0.254, 'train_loss': 1.1343570991798684, 'epoch': 3.0}
100%|████████████████████████████████████████████████████████████████████████████| 270/270 [17:40<00:00,  3.93s/it]

============================================================
训练完成！
============================================================

训练统计:
  总训练步数: 270
  训练耗时: 1060.95 秒
  每秒步数: 2.03

6. 保存模型...
  ✓ 模型保存到: /home/yiyu/nfs/workspace/qwen3_08b_tunning/qwen3-8b-finetuned
  ✓ 训练参数保存

============================================================
微调流程完成！
============================================================

4.3 微调后模型文件结构

训练完成后，生成的模型目录结构如下：

qwen3-8b-finetuned/
├── adapter_config.json
├── adapter_model.safetensors
├── added_tokens.json
├── chat_template.jinja
├── checkpoint-100/          # 检查点目录
│   ├── adapter_config.json
│   ├── adapter_model.safetensors
│   ├── optimizer.pt
│   ├── scheduler.pt
│   ├── trainer_state.json
│   └── ...
├── checkpoint-200/          # 检查点目录
│   └── ...
├── checkpoint-270/          # 最终检查点目录
│   └── ...
├── merges.txt
├── README.md
├── special_tokens_map.json
├── test_model.py           # 测试脚本
├── tokenizer_config.json
├── tokenizer.json
├── training_args.bin
├── training_args.json
└── vocab.json

4 directories, 61 files

五、模型测试

5.1 测试脚本

#!/usr/bin/env python3
"""
微调后的模型测试脚本 - 支持命令行参数输入模型路径
"""

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import sys
import os
import argparse


def main():
    # 创建命令行参数解析器
    parser = argparse.ArgumentParser(description="测试微调后的Qwen模型")
    parser.add_argument(
        "--model_path", 
        type=str, 
        default="/home/yiyu/nfs/workspace/qwen3_08b_tunning/Qwen3-8B",
        help="模型路径，默认为原始Qwen3-8B模型"
    )
    parser.add_argument(
        "--max_tokens",
        type=int,
        default=10000,
        help="最大生成token数，默认为10000"
    )
    
    # 解析命令行参数
    args = parser.parse_args()
    
    print(f"加载模型: {args.model_path}")
    print(f"最大生成token数: {args.max_tokens}")
    
    # 检查模型路径是否存在
    if not os.path.exists(args.model_path):
        print(f"错误: 模型路径不存在: {args.model_path}")
        sys.exit(1)
    
    # 加载tokenizer和模型
    try:
        # 加载tokenizer（分词器），用于文本编码和解码
        tokenizer = AutoTokenizer.from_pretrained(args.model_path)
        
        # 加载因果语言模型（用于文本生成）
        model = AutoModelForCausalLM.from_pretrained(
            args.model_path,  # 模型路径
            dtype=torch.float16,  # 模型权重数据类型，float16可减少内存使用，使用dtype而非torch_dtype
            device_map="auto",  # 自动将模型层分配到可用GPU上，支持多GPU
            trust_remote_code=True,  # 信任远程代码执行（对于某些自定义模型是必需的）
        )
    except Exception as e:
        print(f"加载模型时出错: {e}")
        sys.exit(1)
    
    # 测试问题
    test_questions = [
        "3年制研究生的毕业论文从开题到答辩通过最短需要多长时间？"
    ]
    
    print("\n" + "=" * 60)
    print("模型推理测试")
    print("=" * 60)
    
    for i, question in enumerate(test_questions, 1):
        print(f"\n问题 {i}: {question}")
        print("-" * 50)
        
        # 构建提示，使用Qwen模型的特定对话格式
        prompt = f"<|im_start|>user\n{question}<|im_end|>\n<|im_start|>assistant\n"
        
        # 编码输入文本为模型可理解的token ID
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
        
        # 生成文本
        try:
            with torch.no_grad():  # 禁用梯度计算，减少内存使用
                outputs = model.generate(
                    **inputs,  # 解包输入tensors（包含input_ids, attention_mask等）
                    max_new_tokens=args.max_tokens,  # 最大新生成的token数量（不包括输入）
                    temperature=0.7,  # 温度参数：控制随机性，较低的值使输出更确定性
                    top_p=0.9,  # 核采样参数：仅考虑累积概率达到top_p的token
                    do_sample=True,  # 启用采样模式（而非贪婪解码）
                    pad_token_id=tokenizer.eos_token_id,  # 指定填充token ID为结束token ID
                )
        except Exception as e:
            print(f"生成时出错: {e}")
            print("可能需要减少max_tokens值，或者检查GPU内存")
            continue
        
        # 解码生成的token ID为文本
        response = tokenizer.decode(outputs[0], skip_special_tokens=False)
        
        # 提取助手回复（仅保留assistant之后的文本）
        if "<|im_start|>assistant" in response:
            response = response.split("<|im_start|>assistant")[-1]
        if "<|im_end|>" in response:
            response = response.split("<|im_end|>")[0]
        
        print(f"回答: {response.strip()}")
        
        # 统计生成的token数量
        generated_tokens = outputs[0][inputs['input_ids'].shape[1]:]
        print(f"生成的token数: {len(generated_tokens)}")
    
    print("\n" + "=" * 60)
    print("测试完成！")
    print("=" * 60)


if __name__ == "__main__":
    main()

5.2 测试基座模型

(ai) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ python test_model.py --model_path=/home/yiyu/nfs/workspace/qwen3_08b_tunning/Qwen3-8B
加载模型: /home/yiyu/nfs/workspace/qwen3_08b_tunning/Qwen3-8B
最大生成token数: 10000
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████| 5/5 [01:41<00:00, 20.35s/it]

============================================================
模型推理测试
============================================================

问题 1: 3年制研究生的毕业论文从开题到答辩通过最短需要多长时间？
--------------------------------------------------
回答: 
嗯，用户问的是3年制研究生的毕业论文从开题到答辩通过最短需要多长时间。首先，我需要确认用户的具体情况。可能用户是正在准备研究生学习的本科生，或者已经入学但对时间安排有疑问的研究生。也有可能用户是在考虑是否选择3年制研究生项目，想了解时间上的紧凑程度。

接下来，我得回忆一下通常的研究生流程。一般来说，3年制的研究生项目可能包括课程学习、论文研究、开题报告、中期检查、论文撰写、预审、答辩等环节。每个环节所需时间不同，但用户问的是最短时间，所以需要考虑每个步骤是否能够尽可能快速完成，没有拖延。

首先，开题报告通常在入学后的第二学期进行，但有些学校可能在第一学期就安排。如果用户想最短时间完成，可能需要在入学后尽快完成开题。不过，开题报告需要导师指导，可能需要几个月时间准备，但最短可能是一两个月。

然后是论文研究和撰写。如果开题之后立即开始研究，可能需要几个月时间收集数据、分析结果。但最短时间的话，可能需要至少6个月到一年，这取决于研究的复杂性和数据获取的难易程度。

中期检查通常是开题之后的一个阶段，用来评估研究进展。如果中期检查顺利通过，可能不需要额外时间。但最短情况下，可能只需要几个月。

论文撰写和修改可能需要几个月时间，加上预审和答辩。如果所有步骤都顺利，可能需要几个月。答辩通常在论文完成后进行，可能需要一两个月的时间准备。

不过，用户问的是最短时间，所以需要考虑每个步骤是否都能压缩到最短。例如，开题报告可能只需要几周，研究和撰写可能需要几个月，中期检查可能在开题后几个月内完成，论文修改和预审可能需要几周，答辩可能在几个月后。

不过，实际操作中，每个步骤都需要时间，尤其是研究和撰写部分，可能无法压缩太多。另外，不同学校和导师的要求可能不同，有些学校可能有严格的时间安排，而有些可能更灵活。

还需要考虑学生个人的能力和效率。如果学生非常高效，可能可以缩短时间，但通常来说，最短时间可能在1年左右，但可能需要更长时间。例如，开题到答辩可能需要至少1年，但实际可能需要更长，比如1.5年或更久。

另外，用户可能想知道是否有可能在更短时间内完成，比如半年，但这种情况非常罕见，除非研究内容非常简单，或者学生有大量资源支持，但通常不现实。

需要提醒用户，最短时间可能因学校、导师、研究课题等因素而异，建议咨询所在学校的具体要求，并合理规划时间。同时，要确保研究质量，不能为了赶时间而牺牲论文质量。


3年制研究生的毕业论文从开题到答辩通过的最短时间，通常取决于多个因素，包括学校要求、导师指导、研究课题的复杂性、学生的效率等。以下是基于一般情况的分析和时间线参考：

---

### **最短时间线（理想情况）**
假设所有环节均高效推进，且无重大延误，**最短可能需要约1年**（约12个月）。具体时间线如下：

1. **开题报告（1-2个月）**  
   - 入学后第1-2学期完成，需与导师讨论研究方向、确定题目、制定研究计划。

2. **论文研究与撰写（6-12个月）**  
   - 研究阶段（数据收集、实验、分析）：3-6个月  
   - 论文撰写：3-6个月（需反复修改）  
   - 若研究内容简单（如纯理论分析、文献综述），可能缩短至3-4个月。

3. **中期检查（1-2个月）**  
   - 评估研究进展，通常在开题后6-12个月内进行。

4. **论文预审与修改（1-2个月）**  
   - 根据导师反馈调整论文，准备答辩材料。

5. **答辩（1个月）**  
   - 答辩准备（1-2周） + 正式答辩（1周）。

**总时间**：开题后约1年（具体可能为10-12个月）。

---

### **实际常见时间线**
在实际情况中，由于研究复杂性、数据获取难度、导师反馈周期等因素，**最短可能需要1.5-2年**。例如：

- **开题后1.5年**：研究阶段耗时更长，或需多次修改。
- **开题后2年**：若课题涉及实验、实地调查或复杂数据分析，时间可能进一步延长。

---

### **关键影响因素**
1. **研究课题性质**  
   - 理论研究（如纯文献分析）：时间较短。  
   - 实验/实证研究：需更多时间收集数据、分析结果。

2. **导师与学校要求**  
   - 部分学校要求中期检查、预审等环节，可能延长周期。

3. **学生效率与资源**  
   - 高效的学生可能压缩时间，但需确保质量。

4. **答辩通过率**  
   - 若答辩未通过，需补充修改，可能额外耗时。

---

### **注意事项**
- **不可压缩的环节**：研究本身是核心，需保证质量，不能为赶时间牺牲成果。  
- **合理规划**：建议在开题时与导师明确时间节点，预留缓冲时间。  
- **学校差异**：不同高校对毕业论文的要求不同，需以所在学校的具体规定为准。

---

### **结论**
在理想情况下，**3年制研究生从开题到答辩通过的最短时间约为1年**，但实际中可能需要1.5-2年。建议学生提前规划，与导师保持沟通，确保研究进度与质量平衡。
生成的token数: 1281

============================================================
测试完成！
============================================================

5.3 测试微调模型

(ai) yiyu@ubuntu:~/nfs/workspace/qwen3_08b_tunning$ python test_model.py --model_path=/home/yiyu/nfs/workspace/qwen3_08b_tunning/qwen3-8b-finetuned
加载模型: /home/yiyu/nfs/workspace/qwen3_08b_tunning/qwen3-8b-finetuned
最大生成token数: 10000
Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 5/5 [01:40<00:00, 20.09s/it]

============================================================
模型推理测试
============================================================

问题 1: 3年制研究生的毕业论文从开题到答辩通过最短需要多长时间？
--------------------------------------------------
回答: 3年制研究生的毕业论文从开题到答辩通过最短需要1年时间，即开题时间为入学后的第2学期，最迟答辩时间为入学后的第6学期。
生成的token数: 41

============================================================
测试完成！
============================================================

5.4 参考答案

{"conversations":[{"role":"user","content":"三年制硕士生从开题通过到申请学位论文答辩的最短时间要求是多少？"},{"role":"assistant","content":"三年制硕士生从开题答辩通过到申请学位论文答辩的最短时间要求是不得少于12个月。这一规定明确规定了开题通过后必须经过至少一年的时间才能申请论文答辩。"}]}

六、总结

从测试结果可以看出：

微调前（基座模型）：

回答详尽但冗余，生成1281个tokens
包含大量通用知识和推理过程

微调后：

回答简洁精准，仅41个tokens
直接命中问题核心，给出明确的时间要求
准确反映了数据集中”不得少于12个月”的规定

本次实践验证了：

轻量级微调在特定领域知识注入上的有效性
开源模型+领域数据是企业构建专业AI服务的可行路径
LoRA技术降低了模型个性化定制门槛

本次Qwen3-8B微调实践成功展示了：

技术可行性：在有限资源下完成大模型领域适应
效果显著性：微调后模型在特定领域回答质量显著提升
流程标准化：建立了可复现的微调工作流程

通过”预训练大模型+LoRA微调+领域数据”的技术路线，企业可以经济高效地构建具备专业能力的AI系统，为垂直领域的智能化应用提供了实践参考。

python调用系统摄像头拍照

2025-11-24T04:19:24.000Z

为了方便准备审校数据集，开发拍照工具，将之前手写修改的审校内容拍摄成图片，提供给后续流程来产生数据集。

# coding:utf-8import cv2import timeimport os# 打开摄像头，参数为0时调用本地摄像头，参数为1时调用外接摄像头cap = cv2.VideoCapture(0, cv2.CAP_DSHOW)# 设置保存的分辨率save_width = 2480  # 3508 # 宽度save_height = 3508 # 2480 # 高度cap.set(cv2.CAP_PROP_FRAME_WIDTH, save_width)cap.set(cv2.CAP_PROP_FRAME_HEIGHT, save_height)# 设置显示的分辨率display_width = 1000 # 宽度display_height = 600 # 高度# 创建保存目录save_dir = "D:/yiyu/photo/"if not os.path.exists(save_dir):    os.makedirs(save_dir)# 检查摄像头是否成功打开if not cap.isOpened():    print("Error: Could not open camera")    exit()while True:    ret, frame = cap.read()    if not ret:        print("Error: Failed to capture frame")        break            # 调整显示帧的大小    display_frame = cv2.resize(frame, (display_width, display_height))    cv2.imshow("Capture_Paizhao", display_frame)        k = cv2.waitKey(1) & 0xFF    if k == ord('s'): # 按下s键，进入下面的保存图片操作        current_time = time.time()        milliseconds = int(round(current_time * 1000))        filename = save_dir + str(milliseconds) + ".jpg"        # 旋转图像90度逆时针        rotated_frame = cv2.rotate(frame, cv2.ROTATE_90_COUNTERCLOCKWISE)        success = cv2.imwrite(filename, rotated_frame)        if success:            print("save " + str(milliseconds) + ".jpg successfully!")        else:            print("Error: Failed to save image")        print("-------------------------")    elif k == ord('q'): # 按下q键，程序退出        break# 释放摄像头和销毁窗口cap.release()cv2.destroyAllWindows()

图片审校区域标记工具

2025-11-21T02:18:09.000Z

为了方便准备审校数据集，开发标记工具，将存在审校修改的图片区域单独保存，提供给后续流程来产生数据集。

from nicegui import ui
import os
import glob
import time
from PIL import Image

# 自动管理图片路径和保存目录
INPUT_DIR = 'static/input'
DONE_DIR = 'static/done'
CROPS_DIR = 'static/crops'
GRAY_IMAGE = 'static/gray.png'

os.makedirs(INPUT_DIR, exist_ok=True)
os.makedirs(DONE_DIR, exist_ok=True)
os.makedirs(CROPS_DIR, exist_ok=True)

DISPLAY_WIDTH = 1240
DISPLAY_HEIGHT = 1790
SELECT_BOX_HEIGHT = 300

select_box_y = 0
img = None
select_box = None

def ensure_gray_image():
    if not os.path.exists(GRAY_IMAGE):
        img_gray = Image.new('RGB', (DISPLAY_WIDTH, DISPLAY_HEIGHT), (200, 200, 200))
        img_gray.save(GRAY_IMAGE)

def get_input_images():
    return sorted(glob.glob(os.path.join(INPUT_DIR, '*.jpg')) + glob.glob(os.path.join(INPUT_DIR, '*.png')))

def get_first_image():
    images = get_input_images()
    if images:
        return images[0]
    ensure_gray_image()
    return GRAY_IMAGE

current_image_path = get_first_image()

def update_select_box(event):
    global select_box_y
    if event is None:
        y = select_box_y
    else:
        offset_y = getattr(event.args, 'offsetY', None)
        if offset_y is None:
            offset_y = event.args.get('offsetY', 0) if isinstance(event.args, dict) else 0
        y = max(0, min(offset_y, DISPLAY_HEIGHT - SELECT_BOX_HEIGHT))
    select_box_y = y
    select_box.style(f'top: {select_box_y}px; left: 0px; width: {DISPLAY_WIDTH}px; height: {SELECT_BOX_HEIGHT}px; position: absolute; border: 2px solid #00f; background: rgba(0,0,255,0.1); pointer-events: none;')

def crop_and_save(event):
    global select_box_y, current_image_path
    img_path = current_image_path
    if not os.path.exists(img_path):
        ui.notify('图片不存在')
        return
    try:
        img_obj = Image.open(img_path)
        img_width, img_height = img_obj.size
        scale = img_height / DISPLAY_HEIGHT
        crop_left = 0
        crop_upper = int(select_box_y * scale)
        crop_right = img_width
        crop_lower = int(min((select_box_y + SELECT_BOX_HEIGHT) * scale, img_height))
        crop_box = (crop_left, crop_upper, crop_right, crop_lower)
        crop_img = img_obj.crop(crop_box)
        if crop_img.mode == "RGBA":
            crop_img = crop_img.convert("RGB")
        ts = int(time.time() * 1000)
        save_path = os.path.join(CROPS_DIR, f'{ts}.jpg')
        crop_img.save(save_path)
        ui.notify(f'已保存: {save_path}')
    except Exception as e:
        ui.notify(f'裁剪失败: {e}')

def handle_mouse_click(event):
    global SELECT_BOX_HEIGHT
    button = event.args.get('button', 0)
    if button == 0:  # left
    #     SELECT_BOX_HEIGHT = max(10, SELECT_BOX_HEIGHT - 10)
    #     update_select_box(event)
    # elif button == 2:  # right
    #     SELECT_BOX_HEIGHT += 10
    #     update_select_box(event)
    # elif button == 1:  # middle
        crop_and_save(event)

def done_and_next():
    global current_image_path, img
    images = get_input_images()
    if current_image_path in images:
        basename = os.path.basename(current_image_path)
        # 检查done目录是否已存在同名文件，若存在则加时间戳
        done_path = os.path.join(DONE_DIR, basename)
        if os.path.exists(done_path):
            name, ext = os.path.splitext(basename)
            ts = int(time.time() * 1000)
            done_path = os.path.join(DONE_DIR, f"{name}_{ts}{ext}")
        os.rename(current_image_path, done_path)
        ui.notify(f'已移到: {done_path}')
    images = get_input_images()
    if images:
        current_image_path = images[0]
    else:
        ensure_gray_image()
        current_image_path = GRAY_IMAGE
    img.set_source(current_image_path)
    
def adjust_height(delta):
    global SELECT_BOX_HEIGHT
    if delta < 0:
        SELECT_BOX_HEIGHT = max(10, SELECT_BOX_HEIGHT + delta)
    else:
        SELECT_BOX_HEIGHT += delta
    update_select_box(None)

@ui.page('/')
def main_page():
    global img, select_box, current_image_path
    with ui.row().classes('w-full h-full justify-center items-center'):
        with ui.column().classes('w-full h-full items-center'):
            ui.label('审校区域标记工具').classes('text-2xl q-mb-md')
            ui.label('选择有审校修改的区域进行标记, 一页内容标记完成后点击“完成并下一张”按钮, 当图片显示为灰色时表示已经处理完')
            with ui.element('div').style(f'position: relative; width: {DISPLAY_WIDTH}px; height: {DISPLAY_HEIGHT}px;'):
                img = ui.image(current_image_path).style(f'width: {DISPLAY_WIDTH}px; height: {DISPLAY_HEIGHT}px; display: block; margin-left: auto; margin-right: auto;')
                select_box = ui.element('div').style(f'position: absolute; top: 0px; left: 0px; width: {DISPLAY_WIDTH}px; height: {SELECT_BOX_HEIGHT}px; border: 2px solid #00f; background: rgba(0,0,255,0.1); pointer-events: none;')
                ui.button('-', on_click=lambda: adjust_height(-10)).style('position: fixed; top: 10px; right: 10px; width: 30px; height: 30px;')
                ui.button('+', on_click=lambda: adjust_height(10)).style('position: fixed; top: 10px; right: 50px; width: 30px; height: 30px;')
                img.on('mousemove', update_select_box)
                img.on('mousemove', update_select_box)
                if current_image_path != GRAY_IMAGE:
                    img.on('mousedown', handle_mouse_click)
            # 添加一个与图片等宽、高度为100的按钮，点击后执行done_and_next
            ui.button('完成并下一张', on_click=done_and_next).style(f'width: {DISPLAY_WIDTH}px; height: 100px; font-size: 2rem; margin-top: 10px; margin-left: auto; margin-right: auto; display: block;')

ui.run(title='图片裁剪工具', native=False, port=8080)

工作站与博客环境

2025-11-21T00:20:36.000Z

本文由 AI 根据我在服务器上的实际操作记录和三份自动化脚本整理生成，主要用于之后再次部署时参考。
请务必在使用前自行检查命令、版本号和配置是否符合当前环境，避免因系统更新或个人环境差异导致问题。

一、整体目标与脚本概览

在一台 Ubuntu 24.04.3 LTS 服务器上，我为自己常用的几个场景写了三份自动化脚本，用来快速完成以下工作：

GPU 环境：
- 禁用 nouveau
- 安装并锁定 Nvidia 驱动
- 安装 CUDA / nvidia-cuda-toolkit
- 安装并配置 nvidia-container-toolkit，让 Docker 能使用 GPU
AI 服务：
- 使用 Docker 运行 GPU 版 Ollama，可选自动拉取 Qwen3 系列模型
博客环境：
- 安装 nvm 和 Node LTS
- 安装 Hexo
- 初始化和部署 Hexo 博客

对应的三个脚本分别是：

install_nvidia_cuda_container.sh
禁用 nouveau、锁定当前内核、自动安装推荐的 Nvidia 驱动、安装 CUDA 工具链和 nvidia-container-toolkit，并完成基础测试。
run_ollama.sh
使用 Docker 运行 GPU 版 Ollama 容器，并提供交互式选项，一键拉取常用的 Qwen3 系列模型。
setup_hexo_blog.sh
安装 nvm + Node LTS + hexo-cli，创建或重建 Hexo 博客目录，安装依赖并配置 Git 部署。

下面分别介绍这三个脚本的设计思路、关键步骤和使用方式。

二、GPU 环境脚本：install_nvidia_cuda_container.sh

2.1 设计目标

这份脚本的目标是将「从零准备 GPU 环境」的一整套操作自动化，主要包括：

禁用开源驱动 nouveau，避免与官方 Nvidia 驱动冲突；
不再强制安装新内核，而是：
- 识别当前正在使用的内核版本；
- 尝试锁定与该版本相关的内核包，降低未来升级导致驱动失配的概率；
使用 ubuntu-drivers 自动检测并安装「推荐」的 Nvidia 驱动，而不是写死某个版本（比如 nvidia-driver-535）；
安装 nvidia-cuda-toolkit，提供基础 CUDA 工具链（含 nvcc）；
安装并配置 nvidia-container-toolkit，让 Docker 容器可以访问 GPU；
最后进行三项测试：
- 宿主机上的 nvidia-smi；
- 宿主机上的 nvcc --version；
- Docker 容器内的 nvidia-smi。

这些步骤对应了我在手动操作时的主要流程，但用更通用、更安全的方式实现（比如用 ubuntu-drivers devices 自动选驱动）。

2.2 关键步骤拆解

脚本的主要逻辑如下。

禁用 nouveau 并更新 initramfs

创建或覆盖 /etc/modprobe.d/blacklist-nouveau.conf；

写入：

1 2	blacklist nouveau options nouveau modeset=0

执行 sudo update-initramfs -u，让配置在下次启动时生效。

这样可以避免系统加载开源的 nouveau 模块，给后续官方驱动提供干净的环境。

安装基础编译工具

执行 sudo apt-get update；
安装 build-essential（包含 gcc / g++ 等），为部分驱动或编译场景做准备。

确认并锁定当前内核版本（不安装新内核）

使用 uname -r 读取当前正在运行的内核版本，例如 6.8.0-87-generic；
对以下可能存在的包进行检测并加 hold（如果存在就 apt-mark hold）：
- linux-image-<当前内核版本>
- linux-headers-<当前内核版本>
- linux-modules-extra-<当前内核版本>

这样做的目的是：尽量保持「当前内核 + 当前驱动」这一组合的稳定，不追求自动升级；未来如果需要升级内核，再手动解除 hold 并重新规划。

自动检测并安装推荐的 Nvidia 驱动

如果系统已有 ubuntu-drivers：
- 执行 ubuntu-drivers devices，打印可用驱动；
- 用 awk 从输出中解析带 recommended 标记的驱动包名（例如 nvidia-driver-535）；
- 如果解析成功，则自动执行 sudo apt-get install -y <推荐驱动包>。
如果系统没有安装 ubuntu-drivers：
- 先安装 ubuntu-drivers-common；
- 再重复上述检测逻辑。
如果始终解析不到推荐驱动：
- 脚本只会给出提示，让你之后手动执行 ubuntu-drivers devices 并根据输出自行选择驱动安装。

通过这种方式，脚本不写死驱动版本，而是配合 Ubuntu 官方的推荐策略，使脚本更适合未来系统的升级。

安装 CUDA 工具链（nvidia-cuda-toolkit）

直接通过 apt 安装：

1	sudo apt-get install -y nvidia-cuda-toolkit

然后尝试对常见的 CUDA 工具包名执行 apt-mark hold：
- cuda-toolkit-12-0
- cuda-toolkit-12.0

即便当前系统中不一定存在这些包名，脚本也会使用 || true 避免因此中断。

安装并配置 NVIDIA Container Toolkit

安装 curl 和 gnupg2；
从 NVIDIA 官方源下载并导入 GPG key，写入 /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg；
添加 libnvidia-container 的 apt 软件源，并绑定刚才的 keyring；
执行 sudo apt-get install -y nvidia-container-toolkit；
使用 sudo nvidia-ctk runtime configure --runtime=docker 配置 Docker Runtime；
重启 Docker 服务。

完成这一步后，Docker 就具备了 --gpus all 访问 GPU 的能力。

测试与验证

宿主机上测试 nvidia-smi，确认驱动加载正常；
宿主机上测试 nvcc --version，确认 CUDA 编译器安装成功；
如果系统已安装 Docker：
- 用 nvidia/cuda:12.6.0-base-ubuntu24.04 镜像在容器内运行 nvidia-smi，检查容器内能否看到 GPU。

脚本最后会提示「建议重启系统」。

2.3 脚本完整内容与使用方式

脚本内容（可以保存为 install_nvidia_cuda_container.sh）：

#!/usr/bin/env bash
set -e

echo "===> 1. 禁用 nouveau 驱动"

# 创建 / 修正 blacklist 配置文件
sudo mkdir -p /etc/modprobe.d

if [ -f /etc/modprobe.d/blacklist-nouveau.conf ]; then
  echo "已存在 /etc/modprobe.d/blacklist-nouveau.conf，覆盖更新配置..."
else
  echo "创建 /etc/modprobe.d/blacklist-nouveau.conf ..."
  sudo touch /etc/modprobe.d/blacklist-nouveau.conf
fi

sudo bash -c 'cat >/etc/modprobe.d/blacklist-nouveau.conf <
blacklist nouveau
options nouveau modeset=0
EOF'

echo "更新 initramfs..."
sudo update-initramfs -u

echo "===> 2. 更新 apt 源并安装编译工具"
sudo apt-get update
sudo apt-get install -y build-essential

echo "===> 3. 确认并锁定当前内核版本"
CURRENT_KVER="$(uname -r)"
echo "当前正在使用的内核版本为: ${CURRENT_KVER}"

# 尝试锁定当前内核相关包，避免自动升级导致驱动失配
if dpkg -l | grep -q "linux-image-${CURRENT_KVER}"; then
  echo "锁定 linux-image-${CURRENT_KVER}"
  sudo apt-mark hold "linux-image-${CURRENT_KVER}" || true
fi

if dpkg -l | grep -q "linux-headers-${CURRENT_KVER}"; then
  echo "锁定 linux-headers-${CURRENT_KVER}"
  sudo apt-mark hold "linux-headers-${CURRENT_KVER}" || true
fi

if dpkg -l | grep -q "linux-modules-extra-${CURRENT_KVER}"; then
  echo "锁定 linux-modules-extra-${CURRENT_KVER}"
  sudo apt-mark hold "linux-modules-extra-${CURRENT_KVER}" || true
fi

echo "当前内核信息："
uname -a || true

echo "===> 4. 查询并安装推荐的 Nvidia 驱动"

sudo apt-get update

# 尝试列出可用驱动
if command -v ubuntu-drivers >/dev/null 2>&1; then
  echo "检测可用的 Nvidia 驱动 (ubuntu-drivers devices)..."
  ubuntu-drivers devices || true

  # 自动解析带 recommended 标记的驱动包名
  RECOMMENDED_DRIVER="$(ubuntu-drivers devices 2>/dev/null | awk '/recommended/ {print $3; exit}')"

  if [ -n "$RECOMMENDED_DRIVER" ]; then
    echo "检测到推荐的 Nvidia 驱动为: ${RECOMMENDED_DRIVER}"
    echo "开始安装 ${RECOMMENDED_DRIVER} ..."
    sudo apt-get install -y "$RECOMMENDED_DRIVER"
  else
    echo "未能从 ubuntu-drivers devices 输出中解析到 recommended 驱动。"
    echo "你可以稍后手动运行 'ubuntu-drivers devices' 查看并选择合适的驱动安装。"
  fi
else
  echo "未找到 ubuntu-drivers 命令（可能未安装 ubuntu-drivers-common 包），尝试安装..."
  sudo apt-get install -y ubuntu-drivers-common || true

  if command -v ubuntu-drivers >/dev/null 2>&1; then
    echo "再次检测可用的 Nvidia 驱动..."
    ubuntu-drivers devices || true
    RECOMMENDED_DRIVER="$(ubuntu-drivers devices 2>/dev/null | awk '/recommended/ {print $3; exit}')"
    if [ -n "$RECOMMENDED_DRIVER" ]; then
      echo "检测到推荐的 Nvidia 驱动为: ${RECOMMENDED_DRIVER}"
      echo "开始安装 ${RECOMMENDED_DRIVER} ..."
      sudo apt-get install -y "$RECOMMENDED_DRIVER"
    else
      echo "仍未解析到 recommended 驱动，请手动选择并安装合适的 Nvidia 驱动。"
    fi
  else
    echo "仍然无法使用 ubuntu-drivers 工具，请手动安装合适的 Nvidia 驱动（例如 sudo apt-get install nvidia-driver-XXX）。"
  fi
fi

echo "驱动安装完成后建议重启以加载驱动。"

echo "===> 5. 安装 CUDA 工具链（nvidia-cuda-toolkit）"
sudo apt-get install -y nvidia-cuda-toolkit

echo "尝试固定 CUDA 工具链版本（如果存在对应包名）"
sudo apt-mark hold cuda-toolkit-12-0 || true
sudo apt-mark hold cuda-toolkit-12.0 || true

echo "===> 6. 安装 NVIDIA Container Toolkit (nvidia-container-toolkit)"
# 自动化写 key 和源
sudo apt-get install -y curl gnupg2

echo "添加 NVIDIA Container Toolkit GPG key..."
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
  sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

echo "添加 NVIDIA Container Toolkit apt 源..."
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list > /dev/null

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

echo "配置 Docker 使用 nvidia-container-toolkit 作为 runtime..."
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

echo "===> 7. 测试 nvidia-smi（宿主机）"
if command -v nvidia-smi >/dev/null 2>&1; then
  nvidia-smi || echo "nvidia-smi 执行失败，请检查驱动是否正确加载（可能需要重启后再试）"
else
  echo "未找到 nvidia-smi 命令，请确认 Nvidia 驱动是否安装成功。"
fi

echo "===> 8. 测试 nvcc（CUDA 编译器）"
if command -v nvcc >/dev/null 2>&1; then
  nvcc --version || true
else
  echo "未找到 nvcc（可能需要重启或检查 nvidia-cuda-toolkit 是否正常安装）"
fi

echo "===> 9. 使用带 GPU 的 Docker 容器测试 nvidia-smi"
if command -v docker >/dev/null 2>&1; then
  echo "拉取并运行 nvidia/cuda:12.6.0-base-ubuntu24.04 镜像测试 GPU..."
  sudo docker run --rm --gpus all nvidia/cuda:12.6.0-base-ubuntu24.04 nvidia-smi || \
    echo "容器内 nvidia-smi 执行失败，请检查 nvidia-container-toolkit / Docker 配置。"
else
  echo "未安装 Docker，本脚本只完成 nvidia-container-toolkit 安装，Docker 测试略过。"
fi

echo "全部步骤执行完成。建议重启系统：sudo reboot"

使用方式：

1
2
3

chmod +x install_nvidia_cuda_container.sh
./install_nvidia_cuda_container.sh
sudo reboot

重启后建议手动执行一次：

1 2	nvidia-smi nvcc --version

确认驱动和 CUDA 工具链工作正常。

三、Ollama 部署脚本：run_ollama.sh

3.1 设计目标

这份脚本用来自动化如下操作：

确认 Docker 已安装；
拉取最新的 GPU 版 Ollama 镜像；
停止并删除已有的 ollama 容器（如果存在），避免命名冲突；
启动一个新的 Ollama 容器：
- 开启 GPU 支持；
- 使用 Docker 卷 ollama 挂载到容器内 /root/.ollama，用于持久化模型数据；
- 映射 11434 端口；
提供交互选项，一键拉取常用的 Qwen3 系列模型（qwen3-vl:8b / qwen3-vl:30b / qwen3-coder:30b）。

这样，在已经配置好 GPU + Docker 环境的前提下，只需运行脚本，就可以快速得到一个可用的 Ollama 服务。

3.2 脚本逻辑说明

核心步骤如下：

检查 Docker 是否安装

通过 command -v docker 检查 Docker 命令是否存在；
如果不存在，则提示先安装 Docker 并退出脚本（避免后续错误）。

拉取 Ollama 镜像

执行：
1
sudo docker pull ollama/ollama:latest
始终确保使用的是最新版镜像。

清理已有 ollama 容器（如果存在）

通过 sudo docker ps -a --format '{{.Names}}' | grep -w ollama 检查；
如果找到同名容器，先 docker stop，再 docker rm，错误不导致脚本中断。

启动新的 Ollama 容器

使用命令：

sudo docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama:latest

参数说明：
- --gpus=all：启用 GPU；
- -v ollama:/root/.ollama：使用名为 ollama 的 Docker 卷保存模型和配置；
- -p 11434:11434：暴露 Ollama 默认 API 端口；
- --name ollama：固定容器名。

可选：拉取 Qwen3 系列模型

提示是否自动拉取模型；
如果用户选择 y：
- 依次执行：
  - ollama pull qwen3-vl:8b
  - ollama pull qwen3-vl:30b
  - ollama pull qwen3-coder:30b
如果选择 n 或直接回车，则仅提示后续可以手动执行这些命令。

3.3 脚本完整内容与使用方式

脚本内容（保存为 run_ollama.sh）：

#!/usr/bin/env bash
set -e

echo "===> 1. 检查 docker 是否安装"
if ! command -v docker >/dev/null 2>&1; then
  echo "未检测到 docker，请先运行 install_docker.sh 安装 Docker。"
  exit 1
fi

echo "===> 2. 拉取 Ollama 镜像（GPU 版）"
sudo docker pull ollama/ollama:latest

echo "===> 3. 停止并删除已有的 ollama 容器（若存在）"
if sudo docker ps -a --format '{{.Names}}' | grep -w ollama >/dev/null 2>&1; then
  sudo docker stop ollama || true
  sudo docker rm ollama || true
fi

echo "===> 4. 运行 Ollama 容器，挂载数据卷 'ollama' 到 /root/.ollama"
sudo docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama:latest

echo "Ollama 容器已启动。检查状态："
sudo docker ps | grep ollama || echo "注意：未看到 ollama 容器，请检查日志。"

echo "===> 5. 可选：自动拉取常用模型（Qwen3 系列）"
read -p "是否自动拉取 qwen3-vl:8b / qwen3-vl:30b / qwen3-coder:30b 模型？(y/N) " yn
case "$yn" in
  [Yy]* )
    echo "开始拉取模型（时间较长，取决于网络）："
    sudo docker exec -it ollama ollama pull qwen3-vl:8b || true
    sudo docker exec -it ollama ollama pull qwen3-vl:30b || true
    sudo docker exec -it ollama ollama pull qwen3-coder:30b || true
    echo "模型拉取流程结束（如拉取失败可查看 docker logs ollama）。"
    ;;
  * )
    echo "跳过自动拉取模型。你可以稍后手工执行："
    echo "  sudo docker exec -it ollama ollama pull qwen3-vl:8b"
    echo "  sudo docker exec -it ollama ollama pull qwen3-vl:30b"
    echo "  sudo docker exec -it ollama ollama pull qwen3-coder:30b"
    ;;
esac

echo "===> 完成。你可以通过 http://<服务器IP>:11434 访问 Ollama API。"

使用示例：

1 2	chmod +x run_ollama.sh ./run_ollama.sh

完成后可以：

通过 sudo docker logs ollama 查看运行日志；
通过 http://<服务器IP>:11434 调用 Ollama API。

四、Hexo 博客脚本：setup_hexo_blog.sh

4.1 设计目标

这份脚本把「搭建 Hexo 博客」过程中重复的步骤自动化，主要包括：

安装 nvm（如果未安装）；
通过 nvm 安装 Node LTS 并设为默认版本；
全局安装 hexo-cli；
创建或重建博客目录（默认 $HOME/hexo）；
初始化 Hexo（如需要），安装项目依赖；
安装 hexo-deployer-git 插件；
配置 Git 全局用户名和邮箱（若尚未配置）；
提示并辅助修改 _config.yml 中的 deploy 配置；
自动执行 hexo clean 和 hexo generate，并提供选项是否立即执行 hexo deploy。

4.2 脚本逻辑说明

安装并加载 nvm

如果 ~/.nvm 目录存在，认为已经安装过 nvm，跳过安装；
否则，通过官方脚本安装 nvm；
设置 NVM_DIR 并 source "$NVM_DIR/nvm.sh"，确保后续在当前脚本环境中可以直接使用 nvm 命令。

安装 Node LTS 并设为默认

执行：

1
2
3

nvm install --lts
nvm use --lts
nvm alias default "lts/*"

打印当前 node -v 和 npm -v 做确认。

全局安装 hexo-cli

通过 npm 全局安装：
1
npm install -g hexo-cli

使用变量 BLOG_DIR="$HOME/hexo"；
若目录已存在：
- 询问是否删除并重建；
- 如果选择删除，则 rm -rf 并重新创建；
- 如果保留，则不再执行 hexo init，只进入该目录并继续后续步骤。
若目录不存在：
- 创建目录并执行 hexo init . 初始化项目。

安装项目依赖和 hexo-deployer-git

在博客目录执行 npm install，安装 package.json 中的依赖；
执行 npm install hexo-deployer-git --save，添加 Git 部署插件。

配置 Git 全局用户信息（如未设置）

如果 git config --global user.email 未设置，则写入默认值 your_email@example.com；
如果 git config --global user.name 未设置，则写入默认值 YourName；
后续应手动修改为自己的邮箱和用户名。

提示编辑 _config.yml 的 deploy 部分

脚本打印一个示例配置：

deploy:
  type: git
  repo: git@your.git.repo:your/blog.git
  branch: main

询问是否现在打开 _config.yml 进行编辑；
如果选择 y，则用 ${EDITOR:-vim} 打开配置文件；
否则提示稍后手动编辑。

构建并可选执行 hexo deploy

执行 hexo clean 和 hexo generate；
询问是否现在执行 hexo deploy：
- 如果选择执行，出错时会提示检查 _config.yml 和 Git 权限；
- 如果跳过，则提示后续可以在博客目录手动执行 hexo clean && hexo generate && hexo deploy。

theam

https://butterfly.js.org/

4.3 脚本完整内容与使用方式

脚本内容（保存为 setup_hexo_blog.sh）：

#!/usr/bin/env bash
set -e

BLOG_DIR="$HOME/hexo"

echo "===> 1. 安装 nvm（如果尚未安装）"
if [ -d "$HOME/.nvm" ]; then
  echo "检测到 ~/.nvm 已存在，跳过安装。"
else
  curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash
fi

# 加载 nvm（脚本执行期间生效）
export NVM_DIR="$HOME/.nvm"
# shellcheck disable=SC1090
[ -s "$NVM_DIR/nvm.sh" ] && . "$NVM_DIR/nvm.sh"

echo "===> 2. 安装 Node LTS 并设为默认"
nvm install --lts
nvm use --lts
nvm alias default "lts/*"

echo "当前 Node 版本："
node -v
npm -v

echo "===> 3. 全局安装 hexo-cli"
npm install -g hexo-cli

echo "===> 4. 创建或重新初始化 Hexo 博客目录：$BLOG_DIR"
if [ -d "$BLOG_DIR" ]; then
  read -p "目录 $BLOG_DIR 已存在，是否删除并重建？(y/N) " yn
  case "$yn" in
    [Yy]* )
      rm -rf "$BLOG_DIR"
      ;;
    * )
      echo "保留现有目录，将跳过 hexo init，如需全新初始化请先删除该目录。"
      ;;
  esac
fi

if [ ! -d "$BLOG_DIR" ]; then
  mkdir -p "$BLOG_DIR"
  cd "$BLOG_DIR"
  echo "初始化 Hexo 项目..."
  hexo init .
else
  cd "$BLOG_DIR"
fi

echo "===> 5. 安装项目依赖"
npm install

echo "===> 6. 安装 hexo-deployer-git（用 Git 部署）"
npm install hexo-deployer-git --save

echo "===> 7. 配置 Git 全局用户名和邮箱（如已有可跳过）"
if ! git config --global user.email >/dev/null 2>&1; then
  git config --global user.email "your_email@example.com"
  echo "已设置 git user.email 为 your_email@example.com（请按需修改）"
fi

if ! git config --global user.name >/dev/null 2>&1; then
  git config --global user.name "YourName"
  echo "已设置 git user.name 为 YourName（请按需修改）"
fi

echo "===> 8. 提示修改 _config.yml 中的部署配置"
echo "请编辑 $BLOG_DIR/_config.yml 中的 deploy 部分，例如："
cat <<'EOF'

deploy:
  type: git
  repo: git@your.git.repo:your/blog.git
  branch: main

EOF

read -p "现在要打开 _config.yml 进行编辑吗？(y/N) " yn
case "$yn" in
  [Yy]* )
    ${EDITOR:-vim} "$BLOG_DIR/_config.yml"
    ;;
  * )
    echo "已跳过编辑，请稍后手动修改 _config.yml。"
    ;;
esac

echo "===> 9. 构建并尝试部署（如果 deploy 配置已正确）"
hexo clean
hexo generate

read -p "是否现在执行 hexo deploy？(y/N) " yn2
case "$yn2" in
  [Yy]* )
    hexo deploy || echo "hexo deploy 失败，请检查 _config.yml 的 deploy 配置和 Git 仓库访问权限。"
    ;;
  * )
    echo "已跳过 deploy，你之后可以在 $BLOG_DIR 目录执行："
    echo "  hexo clean && hexo generate && hexo deploy"
    ;;
esac

echo "===> Hexo 博客环境初始化完成。"
echo "如需本地预览，可在 $BLOG_DIR 中执行：hexo server"

使用方式：

1 2	chmod +x setup_hexo_blog.sh ./setup_hexo_blog.sh

执行过程中注意：

将脚本中的 your_email@example.com 和 YourName 换成自己的 Git 配置；
在编辑 _config.yml 时，把 deploy.repo 换成自己的仓库地址，branch 换成实际使用的分支。

五、推荐使用顺序（只围绕三个脚本）

如果你只关心这三份脚本，那么在一台新服务器上的典型执行顺序可以简化为：

GPU 环境准备

上传并执行 GPU 脚本：

1
2
3

chmod +x install_nvidia_cuda_container.sh
./install_nvidia_cuda_container.sh
sudo reboot

重启后验证：
1
2
nvidia-smi
nvcc --version

安装 Docker（不在本文脚本中）
- 按 Ubuntu 官方文档或自己写的 install_docker.sh 安装 Docker；
- 测试 GPU 容器：
  1
  sudo docker run --rm --gpus all nvidia/cuda:12.6.0-base-ubuntu24.04 nvidia-smi
启动 Ollama 服务
- 上传并执行 run_ollama.sh：
  1
  2
  chmod +x run_ollama.sh
  ./run_ollama.sh
- 按提示选择是否自动拉取 Qwen3 系列模型；
- 访问 http://<服务器IP>:11434 测试。
搭建 Hexo 博客
- 上传并执行 setup_hexo_blog.sh：
  1
  2
  chmod +x setup_hexo_blog.sh
  ./setup_hexo_blog.sh
- 在脚本提示阶段完成：
  - Git 用户名 / 邮箱的确认；
  - _config.yml 中 deploy 仓库的设置；
- 此后即可通过：
  1
  hexo clean && hexo generate && hexo deploy
  更新博客。

六、结语

这三份脚本浓缩的是我在搭建环境时真正「可重复」的步骤，它们分别负责：

GPU 驱动 + CUDA + Docker GPU Runtime 的基础环境；
Ollama 服务及常用模型的快速拉起；
Hexo 博客的 Node 环境、项目初始化与 Git 部署配置。

相比逐条翻查 bash_history，直接维护这几份脚本要省心得多。未来如果发行版、驱动或工具链有变化，可以在这几份脚本上迭代，而不必从头回忆所有命令。

最后再强调一次：
本文由 AI 结合当前脚本内容自动生成说明，细节难免会随着时间过时。在正式执行前，请务必：

先阅读脚本本身；
检查其中的版本号、软件源和命令是否仍然适用于当时的 Ubuntu 版本；
在非关键环境中先做一次测试。