令牌化是现代自然语言处理流程中的关键部分。然而,针对大型语言模型的现代令牌化器基于对文本语料进行的统计分析,对语言学特征考虑较少。本文提出了一种基于语言学动机的令牌化方案,MorphPiece,该方案部分基于底层文本的形态分段。在该令牌化器上训练的一种GPT风格的因果语言模型(称为MorphGPT)与在标准BPE令牌化器上训练的相同架构相比,具有更好的收敛性能。具体而言,我们获得了与一个6倍更大模型相当的语言建模性能。此外,我们在各种有监督和无监督的NLP任务上评估了MorphGPT,并发现与GPT-2模型相比,在各方面都具有更好的性能。
(Please note that the translation may not be perfect and could be further fine-tuned by a native speaker for better accuracy.)