2023.11.07-LONGLORA_ EFFICIENT FINE-TUNING OF LONG-CONTEXT LARGE LANGUAGE MODELS

Posted on 2023-12-15 In 论文阅读笔记

每日一句: I cannot choose the best. The best chooses me.

研究背景与动机

核心是希望能够在有限的资源下能够扩充LLM的窗口。分别通过稀疏Attention(shift short Attention)和对模型的嵌入层一起微调实现微调逼近全参的效果。
类似于直接将计算量降低+LoRA+Embedding+PI扩充窗口

主要工作与贡献

分别从数据和策略两方面实现上下文窗口的扩充。

数据侧：缺少公开长文本对话数据，此前的一些数据都是“next-token-generation”的方式的非对话语料；重新收集高质量的长文本问答语料
策略：从注意力着手修改-shift short attention偏置短注意力；用稀疏attention代替稠密attention

LoRA训练基础上增加了对Embedding layer和Normalization layer的微调，实现达到和全参数调整的效果（解决LoRA无法在文本长度迁移取得良好效果的问题）

参考文献

0%