base-llm

base-llm

从 NLP 到 LLM 的算法全栈教程,在线阅读地址:https://datawhalechina.github.io/base-llm/

Stars: 278

Visit
 screenshot

Base LLM is a comprehensive learning tutorial from traditional Natural Language Processing (NLP) to Large Language Models (LLM), covering core technologies such as word embeddings, RNN, Transformer architecture, BERT, GPT, and Llama series models. The project aims to help developers build a solid technical foundation by providing a clear path from theory to practical engineering. It covers NLP theory, Transformer architecture, pre-trained language models, advanced model implementation, and deployment processes.

README:

Base LLM | 从 NLP 到 LLM 的算法全栈教程

base-llm Logo

大模型前世今生

Base LLM is all you need

GitHub stars GitHub forks Python
在线阅读 讨论交流

注意:本项目可能进行大幅调整当前暂不接受 Pull Request。 如果您有任何建议或发现任何问题,欢迎通过 Issue 进行反馈。

📖 项目简介

本项目是一个从传统自然语言处理(NLP)到大语言模型(LLM)的全栈式学习教程,旨在为开发者提供一条从理论入门到工程实战的清晰路径。

在 LLM 爆发的今天,许多开发者直接上手调用 API 或微调大模型,却往往忽视了底层的自然语言处理(NLP)基础。本项目主张 “Base LLM is all you need”,通过系统性地回顾 NLP 发展历程中的核心技术——从早期的词向量、循环神经网络(RNN),到变革性的 Transformer 架构,再到如今的 BERT、GPT 及 Llama 系列大模型——帮助读者构建坚实的技术护城河。

核心内容覆盖:

  1. NLP 理论基石:深入浅出地讲解分词、词向量(Word2Vec)、RNN/LSTM 等经典算法。
  2. Transformer 架构:剖析 Attention 机制,详解 Encoder-Decoder 架构,奠定大模型认知基础。
  3. 预训练语言模型:全面覆盖 BERT、GPT、T5 等里程碑式模型的设计与应用。
  4. 大模型进阶实战:从零手搓 Llama2 模型,掌握参数高效微调(PEFT/LoRA)、RLHF 等前沿技术。
  5. 工程化落地:涵盖模型量化、推理加速、Docker 容器化及服务部署的全流程实战。
  6. 大模型安全与多模态:探索模型安全挑战、伦理问题,以及图文多模态模型的前沿技术。

🌟 项目意义

随着人工智能技术的飞速发展,掌握大语言模型已成为 AI 工程师的必备技能。然而,市面上的教程往往存在断层。要么过于偏重学术理论,晦涩难懂;要么仅停留在 API 调用的应用层,缺乏底层原理的支撑。

本项目致力于填补这一空白,通过理论与代码并重的方式,帮助开发者:

  • 打通知识脉络:理解技术演进的内在逻辑(如:为什么从 RNN 发展到 Transformer?)。
  • 掌握核心原理:不仅会用,更懂其“所以然”,具备排查复杂问题和优化模型结构的能力。
  • 学习代码演进:采用“提出问题-迭代重构”的教学模式,展示从简易脚本到工业级框架的演变过程,培养真正的工程化思维。
  • 提升工程能力:通过 NER、文本分类及 LLM 微调部署等实战项目,积累生产环境下的开发经验。
  • 拓宽技术视野:探索大模型安全、多模态等前沿领域,紧跟 AI 技术发展的最新趋势。

🎯 项目受众

本项目适合以下人群学习:

  • 🎓 在校学生:希望系统学习 NLP 知识,为科研或求职打下基础。
  • 💻 AI 算法工程师:需要从传统机器学习/深度学习转型到大模型领域的开发者。
  • 🤔 LLM 爱好者:对大模型底层原理感兴趣,希望深入理解大模型架构运行机制的极客。
  • 🔬 研究人员:需要快速回顾 NLP 经典算法或寻找基线代码实现的学者。

前置要求:

  • 🟢 Python 基础:熟练掌握 Python 语法及常用数据结构。
  • 🔵 PyTorch 框架:具备基本的 PyTorch 深度学习框架使用经验。
  • 🟡 数学基础:了解基本的线性代数、概率论及梯度下降等深度学习概念。

✨ 项目亮点

  1. 体系化进阶路径:从基础的文本表示到 RLHF 和量化技术,内容层层递进。
  2. 手写核心代码:拒绝"调包侠",带领读者手写 Llama2、Transformer 等核心架构代码。
  3. 实战导向:包含文本分类、命名实体识别(NER)、私有数据微调 Qwen2.5 等多个完整项目。
  4. 全流程覆盖:不仅教你怎么训练,还教你怎么用 Docker 和 FastAPI 将模型部署成服务。
  5. 图文并茂:配合大量图解,将抽象的算法原理可视化,降低学习门槛。
  6. 直观易懂:尽量弱化复杂的数学公式推导,让数学基础薄弱的读者也能轻松掌握算法原理。

内容大纲

第一部分:理论篇

第二部分:实战篇

第三部分:微调量化篇

第四部分:应用部署篇

第五部分:大模型安全

第六部分:多模态前沿

致谢

核心贡献者

特别感谢

  • 感谢 @Sm1les 对本项目的帮助与支持
  • 感谢所有为本项目做出贡献的开发者们
  • 感谢开源社区提供的优秀工具和框架支持
  • 特别感谢以下为教程做出贡献的开发者!

Contributors

Made with contrib.rocks.

参与贡献

  • 发现问题请提交 Issue。

Star History

Star History Chart

如果这个项目对你有帮助,请给我们一个 ⭐️

让更多人发现这个项目(护食?发来!)

关注我们

扫描下方二维码关注公众号:Datawhale

许可证

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for base-llm

Similar Open Source Tools

For similar tasks

For similar jobs