肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 国产开源ChatGPT模型对比

国产开源ChatGPT模型对比

时间:2022-03-07 07:01:28

相关推荐

国产开源ChatGPT模型对比(大雾)

概述

为什么要做国产开源ChatGPT模型对比呢(大雾),答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后,它在1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

而要达到这个用户量,TikTok用了9个月,Instagram则花了2年半的时间。作为一款聊天机器人,凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化学习领域有独特的创见)等两件法宝,

ChatGPT拥有充足的知识储备和不可思议的问答逻辑性,尤其是强悍的多轮问答能力,满足了广罗大众对通用人工智能的幻想,那么其快速出圈就顺理成章了。此外,谷歌与OpenAI的恩怨情仇,那更是大家喜闻乐见的吃瓜情节啦。

让我们恭喜OpenAI这个bi,终于一洗往日的阴霾(或许是早前BERT始终压GPT一头)。果然,竞争、对抗才能迸发创造力呀。

简介

回到正题,让我们今天收集汇总一下当前的国产开源ChatGPT模型(.02.08)。

一、基本信息

二、训练过程

2.1 ChatGPT

步骤

a. 训练GPT3.5系列模型, 在45TB数据上进行文本预训练(学习语言建模, GPT3), 在代码数据集上进行预训练(包括代码理解与生成, Codex), GPT3.5的参数量为175B;b. 有监督的指令微调(类似Instruct-GPT, Supervised Fine-tuning, SFT), 在高质量开源任务数据集上微调, 遵循人类指令, 为了泛化到没有见过的任务;c. 强化学习版有监督的指令微调(12.9k数据? Reinforcement Learning From Human Feedback, RLHF), 基于人类偏好, 从人类的反馈中标注排序;d. 思维链提示微调(Chain-of-thought, CoT), 使用逐步推理的指令数据集(对话数据集), Think step by step;

2.2 ChatRWKV

步骤

a. 训练RWKV-4模型, 类似GPT(linear transformer的RNN), 早期用于小说生成, 使用的Pile数据集有800GB语料;b. 中英文语料指令微调(已知的有95G开源多语言数据xP3, 使用到的是en数据37.43G和zh数据4.38G), 指令微调模板为bigscience/promptsource, 注意这里只用了QA模板;c. 训练时间(存疑?), 显卡100-1000张A100(存疑?): RWKV-4-1.5b-8040训练了45天; RWKV-4-3b-8023训练了28天; RWKV-4-7b-8047训练了65天; RWKV-4-14b-7324训练了109天;

2.3 ChatYuan

步骤

a. 在T5模型上继续训练, 数百G中文语料(400G存疑?)中文语料上进行语言模型的预训练;b. 指令微调PromptCLUE, 在已有的开源16个任务类型150+数据集(几百个数据集累积亿级别任务数据, 200M存疑?)训练, 也和a交替训练, 防止灾难遗忘;c. 多轮对话语料(数亿条功能对话多轮对话数据(200M?存疑))指令微调;d. 训练时间/显卡: 500张V100训练一个月;

2.4 SkyText

步骤

a. 训练GPT2模型, 千亿级别的高质量数据(400G存疑?)中文语料上进行语言模型的预训练, 支持聊天、问答、中英互译、分类、文本续写、生成菜谱/对联/哲理/五言诗/采访/对联, 其他未知;d. 训练时间/显卡: SkyText-14B使用A100-GPU集群,训练200张显卡,训练4周,后续优化2周;

三、简单猜想

3.1 通用人工智能

实现通用人工智能的三条路:

1.符号主义(就像数学一样存在可以推倒一切的公理、定理)2.连接主义(类脑模型的模仿, 如大模型就是模仿人脑数以亿计的神经元)3.行为主义(注重与环境的交互, 如人类的后天学习等, 强化学习)

ChatGPT似乎是第一个把这三种路同时走通的算法模型, 称赞通用人工智能的里程碑事件也不为过。

代码训练语料的注入就是为了学习符号主义, 构建指令Prompt也与符号主义有关, 为了推理与泛化到没见过的任务;

模型175B参数量就与人脑800B神经元接近, 存储大量知识等待激活, 注意力Attention机制更是模仿人眼聚焦输入;

有人类反馈的强化学习版有监督的指令微调RLHF显然就是行为主义了, 与外界交互获得更多的聊天细节, 激活能力;

四、ChatGPT涉及的技术

4.1 ChatGPT进化树

图来自符尧等的ChatGPT的前世今生

4.2 GPT-3.5进化历程

图来自符尧等的ChatGPT的前世今生

参考

ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习ChatGPT评测观察之对话能力ChatGPT的前世今生NLP突破进展RWKV-LMChatRWKVPromptCLUEChatYuanSkyTextSkyText-4

如果觉得《国产开源ChatGPT模型对比》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。