Java橙汁儿

JavaJuice约 6871 字大约 23 分钟

大模型（LLMs）千面郎君

大模型（LLMs）基础面

目前主流的开源模型体系有哪些？
Prefix Decoder 和 Causal Decoder 与 Encoder-Decoder 区别是什么？
大模型 LLM 的训练目标是什么？
涌现能力是啥原因？
为何现在的大模型大部分是 Decoder-only 结构？
简单介绍一下大模型【LLMs】？
大模型【LLMs】后面跟的 175B、60B、540B 等指什么？
大模型【LLMs】具有什么优点？
大模型【LLMs】具有什么缺点？

大模型（LLMs）进阶面

LLMs 复读机问题
1. 什么是 LLMs 复读机问题？
2. 为什么会出现 LLMs 复读机问题？
3. 如何缓解 LLMs 复读机问题？
LLaMA 系列问题
1. LLaMA 输入句子长度理论上可以无限长吗？
2. 什么情况用 Bert 模型，什么情况用 LLaMA、ChatGLM 类大模型，咋选？
3. 各个专业领域是否需要各自的大模型来服务？
4. 如何让大模型处理更长的文本？

大模型（LLMs）微调面

大模型（LLMs）训练经验帖

大模型（LLMs）LangChain 面

基于 LLM+向量库的文档对话经验面

LLM 文档对话 —— PDF 解析关键问题

大模型（LLMs）参数高效微调（PEFT）面

配器微调（Adapter-tuning）篇

提示学习（Prompting）

LoRA 系列篇

大模型（LLMs）推理面

大模型（LLMs）预训练面

大模型（LLMs）增量预训练面

大模型（LLMs）评测面

大模型（LLMs）强化学习面

大模型（LLMs）软硬件配置面

大模型（LLMs）训练集面

大模型（LLMs）显存问题面

大模型（LLMs）分布式训练面

图解分布式训练（一） —— 流水线并行（Pipeline Parallelism）面

图解分布式训练（二） —— nn.DataParallel 面

图解分布式训练（三） —— nn.parallel.DistributedDataParallel

图解分布式训练（四） —— torch.multiprocessing 详细解析

图解分布式训练（五） —— AMP 混合精度训练详细解析

图解分布式训练（六） —— Pytorch 的 DeepSpeed 详细解析

图解分布式训练（七） —— accelerate 分布式训练详细解析

图解分布式训练（八） —— ZeRO 学习

大模型（LLMs）Agent 面

Token 及模型参数准备篇

LLMs 位置编码篇

LLMs Tokenizer 篇

怎么让英文大语言模型支持中文？（一） —— 构建中文 tokenization

怎么让英文大语言模型支持中文？（二） —— 继续预训练篇

怎么让英文大语言模型支持中文？（三） —— 对预训练模型进行指令微调

Layer Normalization 篇

LLMs 激活函数篇

大模型（LLMs）加速篇

LLM（大语言模型）部署加速方法 —— PagedAttention 篇

大模型推理加速工具 —— vLLM

LLM（大语言模型）部署加速方法 —— Faster Transformer 篇

纯 Python 超轻量高性能 LLM 推理框架 —— LightLLM

Attention 升级面

大模型幻觉（LLM Hallucination）面

大模型的幻觉问题篇

LLMs 对比篇

百川智能 baichuan7B、13B、53B、baichuan2 总结篇

思维链 Chain-of-Thought（COT）篇

思维链 Chain-of-Thought（COT）变体篇

大模型（LLMs）微调面

如果想要在某个模型基础上做全参数微调，究竟需要多少显存？
为什么 SFT 之后感觉 LLM 傻了？
SFT 指令微调数据如何构建？
领域模型 Continue PreTrain 数据选取？
领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
领域模型 Continue PreTrain，如何让模型在预训练过程中就学习到更多的知识？
进行 SFT 操作的时候，基座模型选用 Chat 还是 Base？
领域模型微调指令 & 数据输入格式要求？
领域模型微调领域评测集构建？
领域模型词表扩增是不是有必要的？
如何训练自己的大模型？
训练中文大模型有啥经验？
指令微调的好处？
预训练和微调哪个阶段注入知识的？
想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？
多轮对话任务如何微调模型？
微调后的模型出现能力劣化，灾难性遗忘是怎么回事？
微调模型需要多大显存？
大模型 LLM 进行 SFT 操作的时候在学习什么？
预训练和 SFT 操作有什么不同？
样本量规模增大，训练出现 OOM 错？
大模型 LLM 进行 SFT 如何对样本进行优化？
模型参数迭代实验
微调大模型的一些建议

大模型（LLMs）训练经验帖

分布式训练框架选择？
LLMs 训练时有哪些有用的建议？
模型大小如何选择？
加速卡如何选择？

大模型（LLMs） langchain 面

什么是 LangChain？
LangChain 包含哪些核心概念？
2.1 LangChain 中 Components and Chains 是什么？
2.2 LangChain 中 Prompt Templates and Values 是什么？
2.3 LangChain 中 Example Selectors 是什么？
2.4 LangChain 中 Output Parsers 是什么？
2.5 LangChain 中 Indexes and Retrievers 是什么？
2.6 LangChain 中 Chat Message History 是什么？
2.7 LangChain 中 Agents and Toolkits 是什么？
什么是 LangChain Agent？
如何使用 LangChain？
LangChain 支持哪些功能？
什么是 LangChain model？
LangChain 包含哪些特点？
LangChain 如何使用？
8.1 LangChain 如何调用 LLMs 生成回复？
8.2 LangChain 如何修改提示模板？
8.3 LangChain 如何链接多个组件处理一个特定的下游任务？
8.4 LangChain 如何 Embedding & vector store？
LangChain 存在哪些问题及方法方案？
1. LangChain 低效的令牌使用问题
2. LangChain 文档的问题
3. LangChain 太多概念容易混淆，过多的“辅助”函数问题
4. LangChain 行为不一致并且隐藏细节问题
5. LangChain 缺乏标准的可互操作数据类型问题
LangChain 替代方案？