整理来源:
// https://learn.microsoft.com/zh-cn/windows/win32/inputdev/about-keyboard-input // https://learn.microsoft.com/en-us/windows/win32/inputdev/about-keyboard-input
HID用法名HID用法ID按键扫描码 A 0x00040x001E B …
添加链接描述 优化点两个:
gamma长度正则
gamma
原始DPO把两部分母拿出来是 − l o g π r e f ( w i n ) π r e f ( l o s e ) -log \frac{\pi_{ref}(win)}{\pi_{ref}(lose)} −logπref(lose)πref(win) 由于构建数据集时常常把不满意的大模型输出作为…