ReadPaper
用户9415
分享
QLoRA: 训练更大的GPT
输入“/”快速插入内容
QLoRA
: 训练更大的GPT
用户9415
用户9415
用户1279
用户1279
QLoRA Paper:
QLoRA: Efficient Finetuning of Quantized LLMs
QLoRA Blog:
Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA
QLoRA
Repo
:
https://github.com/artidoro/qlora
Quant:
一文详解神经网络量化_哔哩哔哩_bilibili
👍👍👍
LoRA
:
LORA.pptx
BiliVideo:
【论文粗读·1】
👍👍👍
AdaLoRA
:
AdaLoRA:更强大的LoRA
BiliVideo:
【论文粗读·2】
👍👍👍
OBD&OBS:
OBD&OBS:给神经网络做个外科手术
BiliVideo:
【论文粗读·3】
👍
OBQ&GPTQ:
GPTQ&OBC:量化你的GPT
BiliVideo:
【论文粗读·4】
👍👍
GitRepo:
https://github.com/cauyxy/bilivideos/tree/master/qlora
Any Question:
https://readpaper.feishu.cn/invite/member/A2a9FvK-7a7npSQq
Available Time: 22:00-24:00(workday) 14:00-20:00(non-working day)
https://www.bilibili.com/video/BV1AX4y1a7jY/
效果展示:
Guanaco-33B Finetuning 效果
更多
PEFT
&
MLSys
相关精彩内容
Modest Understandings on LLM
提出问题
在
NLP
领域,对于下游任务进行大型预训练语言模型的微调已经成为一种重要的做法。一般而言,我们会采用对原有的
预训练模型
进行全量微调的方法来适配下游任务。然而,对于大规模的模型,微调过程可能会消耗大量的内存和计算资源,使得对于模型的微调产生了一定的门槛。
核心要点
1.
💡✂️
:通过4-bit量化的BaseModel在保持高性能的同时减少内存使用,使得模型微调的门槛大大降低。
a.
核心方法是提出了NormalFloat数据类型进行量化。
b.
核心思想是通过量化降低基座模型的显存占用,使得65B模型在单GPU上可以完成训练。
2.
🆕🚀
:新发布了基于LLaMa的模型家族,在Vicuna
基准测试
中的表现优于所有以前公开发布的模型。
a.
如果有相同的存储预算,4bit的33B的模型效果优于8bit的13B模型
3.
🔍📊
:指出现有的评估方式存在一定问题;针对特定下游任务
训练数据
需要更加优质。
a.
使用GPT4进行自动评估存在先入为主的情况,无法准确评估聊天机器人的性能。
b.
针对特定任务,
训练数据
的适用性(Suitability)和质量(Quality)相比于数量更加重要。
4.
📈🎯
: 大型语言模型权重中的离群值分布集中且对模型性能影响很大。
a.
对于越大的模型,离群值对于模型性能的影响越大,模型对
outlier
的依赖更强
b.
离群值很少,集中于确定的几列,并且在模型输出的Prefix,可能存储了一些上下文无关的信息。
解决方案
Overview
通过
,可以在保留完整的16位微调任务性能的同时,减少内存使用,以在单个48GB GPU上微调65B参数模型。最
新模型Guanaco
在
Vicuna
基准测试中的表现超过了所有以前公开发布的模型,达到了
ChatGPT
性能水平的99.3%,而且只需要在单个GPU上微调24小时。
4-bit NormalFloat Quantization
Quant
画板
SimpleQuant
-Int4
代码块
Python
quantiles = [
-1., -0.86666667, -0.73333333, -0.6, -0.46666667,
-0.33333333, -0.2, -0.06666667, 0.06666667, 0.2,
0.33333333, 0.46666667, 0.6, 0.73333333, 0.86666667, 1.
]