目录 DPO 的动机和灵感Reward Model 是怎么训练的Bradley-Terry(BT 模型)Plackett-Luce(PT 模型) 如何将 Reward Model Loss 融入 DPO LossDPO 做了哪些简化DPO 的显示解用 Reward Loss 表示 DPO Loss DPO 的优势和局限性 系列文章…
字段值替换修改
修改sql
update zyzkwjj set dhreplace(dh,"WS","WSS") where dh like %WS%
update zyzkwjj
set dh replace(dh, WS, DZ),ztm replace(ztm, WS, DZ),zrz replace(zrz, WS, DZ)
where dh like %WS% or ztm like %WS% or zrz like %WS%…