此文是本qiang~
针对大语言模型的DPO算法的整理,包括原理、流程及部分源码