推荐专题：

700字范文 > LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增全参数预训练部分参数预

LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增全参数预训练部分参数预

时间：2023-07-15 21:49:26

相关推荐

LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增全参数预训练部分参数预

下图展示了我们的训练的整个流程和数据集构造。整个训练过程分为两个阶段：
（1）全量预训练阶段。该阶段的目的是增强模型的中文能力和知识储备。
（2）使用LoRA的指令微调阶段。该阶段让模型能够理解人类的指令并输出合适的内容。

3.1 预训练数据集构建

为了在保留原来的代码能力和英语能力的前提下，来提升模型对于中文的理解能力，我们并没有对词表进行扩增，而是搜集了中文语料、英文语料和代码语料。其中中文语料来自于百度百科、悟道和中文维基百科；英文数据集是从LLaMA原始的英文语料中进行采样，不同的是维基数据，原始论文中的英文维基数据的最新时间点是8月，我们额外爬取了9月到2月，总共六个月的数据；而代码数据集，由于Pile数据集中的代码质量不高，我们去爬取了Github、Leetcode的代码数据，一部分用于预训练，另外一部分用于指令微调。

对上面爬取到的数据集，我们使用了启发式的方法，剔除了数据集中有害的内容，此外，我们还剔除了重复的数据。

3.2 预训练训练过程

详细的数据处理代码和训练代码、完整的训练脚本、详细的训练情况可以在

LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增全参数预训练部分参数预训练指令微调】

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

巨量模型时代浪潮不做旁观者：2457亿参数打造全球最大中文预训练模型

2021-11-04

bert 中文代码谷歌_ELECTRA中文预训练模型开源 110个参数性能媲美BERT

2019-06-28

看MindSpore加持下如何「炼出」首个千亿参数中文预训练语言模型？

2018-10-05

270亿参数刷榜CLUE 阿里达摩院发布最大中文预训练语言模型PLUG

2020-01-26

扩展阅读

: 谷歌将推出103种语言翻译模型针对250亿句子训练有500亿参数

: 预训练模型ProphetNet：根据未来文本信息进行自然语言生成

: 一文读懂最强中文NLP预训练模型ERNIE

: 一文读懂最强中文NLP预训练模型ERNIE

: 中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

: 「直播」数据与模型存在缺陷如何在不完美场景下进行神经网络训练？｜CVPR 2022

最近发布

妈妈爱我的作文700字

2024-09-23

我心目中的老师和同学700字作文素材大全

2024-09-23

小小辩论家：激烈辩论赛中的小学生们

2024-09-23

【欢乐考试时刻：700字搞笑祝福短信】

2024-09-23

探讨善良的魅力：一篇700字论文

2024-09-23

幸福的守候作文700字

2024-09-23

推荐专题

记叙文700字高中窗外作文700字我的一天作文700字地道战观后感700字脚步作文700字想象作文700字亲情类作文700字温暖的陪伴作文700字什么的那一刻700字我的初中生活作文700字一直都在作文700字我的暑假700字流浪地球读后感700字梦想作文700字身边的幸福作文700字