Instruction-Tuning 在法律對話模型上的影響之探討
本研究探討 Instruction-Tuning 對法律領域語言模型的影響,我們使用 ChatGLM-2 6B 作為基礎模型,先以台灣法律文本進行 Continual Pre-training,再以和律師的 Q&A 數據集,分別採用 Supervised Fine-Tuning(SFT)、Reward Model 及 Proximal Policy Optimization(PPO)等 Instruction-Tuning 方法進行微調。結果顯示,僅經過 Pre-training 及 SFT 的模型,其產生的回覆較符合法律專業風格;但考量模型對法律知識的掌握,則以 Pre-training、SFT 及 PPO 整套 Instruction-Tuning 的結合效果最佳。本研究證明, 針對單一領域的語言模型, 不同的 Instruction-Tuning 方式會對其回覆風格及知識掌握造成不同影響。我們的研究為未來單一領域語言模型訓練提供了參考。