Spaces:

NationalUniversityofSingapore
/

wechat-style-sft

Running

App Files Files Community

xianyu564 commited on Sep 23

Commit

a85979e

1 Parent(s): 027ebe0

新增 make_gguf.py 脚本，用于合并 LoRA 模型并转换为 GGUF 格式，同时更新 .gitignore 文件以排除生成的模型目录

Browse files

Files changed (2) hide show

.gitignore +2 -0
release_gguf/make_gguf.py +47 -0

.gitignore CHANGED Viewed

@@ -2,3 +2,5 @@
 .venv/
 __pycache__
 .DS_Store

 .venv/
 __pycache__
 .DS_Store
+release_gguf/base_model

release_gguf/make_gguf.py ADDED Viewed

	@@ -0,0 +1,47 @@

+# make_gguf.py
+import argparse, subprocess, sys
+from pathlib import Path
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
+def merge_lora(base_id: str, lora_dir: str, out_dir: Path):
+    out_dir.mkdir(parents=True, exist_ok=True)
+    print(f"[1/3] Loading base: {base_id}")
+    base = AutoModelForCausalLM.from_pretrained(base_id)   # 若本地无则自动下载到缓存
+    print(f"[2/3] Loading LoRA from: {lora_dir}  -> merging...")
+    model = PeftModel.from_pretrained(base, lora_dir).merge_and_unload()
+    model.save_pretrained(out_dir.as_posix())
+    AutoTokenizer.from_pretrained(base_id).save_pretrained(out_dir.as_posix())
+    print(f"[OK] merged model saved to: {out_dir}")
+def to_gguf(merged_dir: Path, llama_cpp_dir: Path, out_stem: str, quant: str):
+    conv = llama_cpp_dir / "convert_hf_to_gguf.py"
+    if not conv.exists():
+        raise FileNotFoundError(f"convert_hf_to_gguf.py not found in {llama_cpp_dir}")
+    gguf_raw = merged_dir.parent / f"{out_stem}.gguf"
+    gguf_q   = merged_dir.parent / f"{out_stem}.{quant}.gguf"
+    print(f"[3/3] Converting to GGUF: {gguf_raw.name}")
+    subprocess.check_call([sys.executable, str(conv), str(merged_dir), "--outfile", str(gguf_raw)])
+    print(f"[Q] Quantizing -> {quant}")
+    qexe = llama_cpp_dir / ("quantize.exe" if sys.platform.startswith("win") else "quantize")
+    subprocess.check_call([str(qexe), str(gguf_raw), str(gguf_q), quant])
+    print(f"[DONE] {gguf_q}")
+if __name__ == "__main__":
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--base", required=True, help="基座模型ID，如 Qwen/Qwen2.5-0.5B-Instruct（必须与训练时一致）")
+    ap.add_argument("--lora", required=True, help="LoRA 目录（包含 adapter_config.json 等）")
+    ap.add_argument("--llama_cpp", required=True, help="llama.cpp 的本地路径（包含 convert_hf_to_gguf.py）")
+    ap.add_argument("--outdir", default="release_gguf", help="输出目录（默认 release_gguf）")
+    ap.add_argument("--quant", default="Q4_K_M", help="量化等级：Q4_K_M/Q5_K_M/Q8_0 等")
+    ap.add_argument("--name", default="my-sft", help="导出的模型名（文件名前缀）")
+    args = ap.parse_args()
+    out_dir = Path(args.outdir) / "merged_fp16"
+    merge_lora(args.base, args.lora, out_dir)
+    to_gguf(out_dir, Path(args.llama_cpp), args.name, args.quant)
+# git clone https://github.com/ggerganov/llama.cpp
+# huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./base_model