QLoRA: 训练更大的GPT

用户9415

用户1279

common.docs_name - LarkCCM_Docs_Menu_Image

QLoRA Paper: QLoRA: Efficient Finetuning of Quantized LLMs

QLoRA Blog: Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA

QLoRA Repo: https://github.com/artidoro/qlora

Quant: 一文详解神经网络量化_哔哩哔哩_bilibili 👍👍👍

LoRA:

LORA.pptx

BiliVideo：【论文粗读·1】 👍👍👍

AdaLoRA:AdaLoRA：更强大的LoRA BiliVideo：【论文粗读·2】 👍👍👍

OBD&OBS:OBD&OBS：给神经网络做个外科手术 BiliVideo：【论文粗读·3】👍

OBQ&GPTQ:GPTQ&OBC：量化你的GPT BiliVideo：【论文粗读·4】👍👍

GitRepo: https://github.com/cauyxy/bilivideos/tree/master/qlora

Any Question: https://readpaper.feishu.cn/invite/member/A2a9FvK-7a7npSQq

Available Time: 22:00-24:00(workday) 14:00-20:00(non-working day)

https://www.bilibili.com/video/BV1AX4y1a7jY/

效果展示：Guanaco-33B Finetuning 效果

更多PEFT&MLSys相关精彩内容Modest Understandings on LLM

提出问题

在NLP领域，对于下游任务进行大型预训练语言模型的微调已经成为一种重要的做法。一般而言，我们会采用对原有的预训练模型进行全量微调的方法来适配下游任务。然而，对于大规模的模型，微调过程可能会消耗大量的内存和计算资源，使得对于模型的微调产生了一定的门槛。​

核心要点

1.
💡✂️ 
：通过4-bit量化的BaseModel在保持高性能的同时减少内存使用，使得模型微调的门槛大大降低。​
a.
核心方法是提出了NormalFloat数据类型进行量化。​
b.
核心思想是通过量化降低基座模型的显存占用，使得65B模型在单GPU上可以完成训练。​

2.
🆕🚀 
：新发布了基于LLaMa的模型家族，在Vicuna基准测试中的表现优于所有以前公开发布的模型。​
a.
如果有相同的存储预算，4bit的33B的模型效果优于8bit的13B模型​

3.
🔍📊 
：指出现有的评估方式存在一定问题；针对特定下游任务训练数据需要更加优质。​
a.
使用GPT4进行自动评估存在先入为主的情况，无法准确评估聊天机器人的性能。​
b.
针对特定任务，训练数据的适用性(Suitability)和质量(Quality)相比于数量更加重要。​

4.
📈🎯 
: 大型语言模型权重中的离群值分布集中且对模型性能影响很大。​
a.
对于越大的模型，离群值对于模型性能的影响越大，模型对outlier的依赖更强​
b.
离群值很少，集中于确定的几列，并且在模型输出的Prefix，可能存储了一些上下文无关的信息。​

解决方案

Overview

通过
，可以在保留完整的16位微调任务性能的同时，减少内存使用，以在单个48GB GPU上微调65B参数模型。最新模型Guanaco在Vicuna基准测试中的表现超过了所有以前公开发布的模型，达到了ChatGPT性能水平的99.3%，而且只需要在单个GPU上微调24小时。​

4-bit NormalFloat Quantization

Quant

画板

SimpleQuant-Int4

代码块

quantiles = [​
    -1., -0.86666667, -0.73333333, -0.6, -0.46666667,​
    -0.33333333, -0.2, -0.06666667, 0.06666667, 0.2,​
    0.33333333, 0.46666667, 0.6, 0.73333333, 0.86666667, 1.​
]​

QLoRA: 训练更大的GPT​

QLoRA: 训练更大的GPT