2023.11.07-LONGLORA_ EFFICIENT FINE-TUNING OF LONG-CONTEXT LARGE LANGUAGE MODELS

每日一句: I cannot choose the best. The best chooses me.

研究背景与动机

核心是希望能够在有限的资源下能够扩充LLM的窗口。分别通过稀疏Attention(shift short Attention)和对模型的嵌入层一起微调实现微调逼近全参的效果。
类似于直接将计算量降低+LoRA+Embedding+PI扩充窗口

主要工作与贡献

分别从数据和策略两方面实现上下文窗口的扩充。

  1. 数据侧:缺少公开长文本对话数据,此前的一些数据都是“next-token-generation”的方式的非对话语料;重新收集高质量的长文本问答语料
  2. 策略:从注意力着手修改-shift short attention偏置短注意力;用稀疏attention代替稠密attention

image.png

  1. LoRA训练基础上增加了对Embedding layer和Normalization layer的微调,实现达到和全参数调整的效果(解决LoRA无法在文本长度迁移取得良好效果的问题)

参考文献

  1. 贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax
  2. https://browse.arxiv.org/pdf/2309.12307.pdf