AI-fundermentals

AI-fundermentals

AI 基础知识 - GPU 架构、CUDA 编程、大模型基础及AI Agent 相关知识

Stars: 760

Visit
 screenshot

AI Fundamentals is a comprehensive AI infrastructure learning resource collection, covering a complete technical stack from hardware basics to advanced applications. It includes GPU architecture and programming, CUDA development, large language models, AI system design, performance optimization, enterprise deployment, and more. The repository aims to provide a systematic learning path and practical guidance for AI engineers, architects, GPU programming developers, large model application developers, and technical researchers.

README:

AI Fundamentals

本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。 技术栈CUDAGPU 架构、LLMAI 系统、分布式计算、容器化部署、性能优化。


Star History:

Star History Chart


1. 硬件架构

本章节主要构建 AI 系统的物理底座,深入探讨从单机计算芯片(GPU/TPU)到大规模集群互联的核心技术。

详细内容请访问:硬件与架构 - 核心文档门户,涵盖硬件基础知识与关键技术概览。

核心模块导航


2. 云原生 AI 基础设施

本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes 等云原生技术栈构建高效、可扩展的 AI 基础设施。

2.1 Kubernetes AI 生态

Kubernetes 已成为云原生 AI 基础设施的事实标准,特别是在推理场景中,它提供了不可替代的弹性调度与资源管理能力。通过 K8s,企业可以构建跨混合云的统一推理平台,实现从 GPU 资源池化到 Serverless 推理的完整闭环,从容应对大模型时代高并发、波动剧烈的流量挑战。

2.2 AI 推理系统与服务

本节整合了从云原生推理框架到企业级推理系统优化的完整解决方案,涵盖理论基础、技术选型及实战部署。

核心技术与方案:


3. 开发与编程

本部分专注于 AI 开发相关的编程技术、工具和实践,涵盖从基础编程到高性能计算的完整技术栈。

3.1 GPU 与 CUDA 编程

本节整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源,为开发者提供从入门到进阶的完整技术路径。

3.1.1 核心概念

技术特色:

  • CUDA 核心架构: SIMT 线程模型、分层内存模型、流式执行模型
  • 性能调优实践:内存访问模式优化、线程同步策略、算法并行化重构
  • 高级编程特性: Unified Memory 统一内存、Multi-GPU 多卡编程、CUDA Streams 异步执行

3.1.2 GPU 编程基础

  • GPU 编程基础 - GPU 编程入门到进阶的完整技术路径,涵盖 GPU 架构、编程模型和性能优化

核心内容:

  • GPU 架构理解:GPU 与 CPU 的架构差异、并行计算原理、内存层次结构
  • CUDA 编程实践:线程模型、内存管理、核函数编写、性能优化技巧
  • 调试与性能分析:CUDA 调试工具、性能分析方法、瓶颈识别与优化
  • 高级特性应用:流处理、多 GPU 编程、与深度学习框架的集成

3.2 DPU 编程

本节介绍 NVIDIA BlueField DPU 及其 DOCA 软件框架的编程指南。

3.3 Java AI 开发

这里的 Java AI 开发主要用于开发 LLM 应用。

3.4 AI 编程范式

本节探讨在 AI 时代下新兴的编程范式与工作流,重点关注如何利用 AI 提升开发效率与代码质量。

  • OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了 "意图 -> Spec -> AI -> 代码 & 验证" 的新一代开发工作流。

4. 机器学习基础

本部分基于 动手学机器学习 项目,提供系统化的机器学习学习路径。该项目整合了 NJU 软件学院课程、上海交大《动手学机器学习》、《精通特征工程》以及极客时间等优质资源,为学习大模型打下基础。

4.1 动手学机器学习

动手学机器学习 - 全面的机器学习学习资源库,包含理论讲解、代码实现和实战案例。

核心特色:

  • 理论与实践结合:以 NJU 课程为主线,辅以 SJTU 配套资源,从数学原理到代码实现的完整学习路径
  • 算法全覆盖:涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习
  • 项目驱动学习:提供心脏病预测、鸢尾花分类、房价预测等实战案例
  • 工程化实践:深入特征工程、模型评估、超参数调优及特征选择

4.2 参考资料

我们精选了数学基础、经典教材与实战平台资源,构建完整的知识图谱。

数学基础:

经典教材:

  • 《统计学习方法》 - 李航著,系统阐述感知机、SVM、HMM 等核心算法的数学原理
  • 《机器学习》 - 周志华著(西瓜书),全面覆盖机器学习基础理论与范式
  • 《模式识别与机器学习》 - Bishop 著(PRML),贝叶斯视角的机器学习圣经

在线课程与实战:


5. 大语言模型基础

本章旨在为读者构建扎实的大语言模型(LLM)理论基础,涵盖从词向量嵌入到模型架构设计的核心知识。我们将深入解析 Token 机制、Transformer 架构、混合专家模型(MoE)等关键技术,并探讨量化、思维链(CoT)等前沿优化方向,帮助开发者建立对 LLM 内部机制的直观理解。

5.1 基础理论与概念

大语言模型的基础理论涵盖了从文本处理到模型架构的核心概念。理解这些基础概念是深入学习 LLM 技术的前提,包括 Token 化机制、文本编码、模型结构等关键技术。这些基础知识为后续的模型训练、优化和应用奠定了坚实的理论基础。

5.2 嵌入技术与表示学习

嵌入技术是大语言模型的核心组件之一,负责将离散的文本符号转换为连续的向量表示。这一技术不仅影响模型的理解能力,还直接关系到模型的性能和效率。本节深入探讨文本嵌入的原理、实现方式以及在不同场景下的应用策略。

5.3 高级架构与优化技术

现代大语言模型采用了多种先进的架构设计和优化技术,以提升模型性能、降低计算成本并解决特定问题。本节涵盖混合专家系统、量化技术、思维链推理等前沿技术,这些技术代表了当前 LLM 领域的最新发展方向。

5.4 参考书籍


6. 大模型训练

大模型的训练是一个复杂且系统的工程,涉及数据处理、分布式训练、指令微调等多个关键环节。本章将详细介绍从指令微调(SFT)到大规模模型预训练的完整技术路径,结合 70B 参数模型的实战案例,深入探讨训练基础设施的搭建、超参数优化及模型后训练(Post-Training)策略,助力开发者掌握模型训练的核心技能。

6.1 指令微调与监督学习

指令微调(Instruction Tuning)和监督微调(Supervised Fine-Tuning, SFT)是大语言模型训练的关键技术,通过在预训练模型基础上使用高质量的指令-响应数据对进行进一步训练,使模型能够更好地理解和执行人类指令。这一技术对于提升模型的实用性和安全性具有重要意义。

6.2 大规模模型训练实践

大规模模型训练是一个复杂的系统工程,涉及数据处理、基础设施搭建、分布式训练、超参数优化等多个方面。本节通过实际的 70B 参数模型训练案例,深入探讨从硬件配置到模型评估的完整训练流程,为大规模模型训练提供实践指导。

6.3 模型后训练与评估

模型后训练(Post-Training)和评估是确保模型在实际应用中表现稳定、可靠的关键步骤。本节涵盖 AIOps 场景下的后训练技术、基于 Kubernetes 的评估框架以及基准测试生成方法。


7. 大模型推理

推理是大模型从实验室走向生产环境的“最后一公里”。本章聚焦于构建高性能、低延迟的推理系统,涵盖推理服务架构设计、KV Cache 优化、模型量化压缩等核心技术。通过深入分析 Mooncake 等先进架构及不同规模集群的部署策略,为企业级大模型服务的落地提供全面的技术指导。

7.1 推理系统架构设计

推理系统架构是大模型服务化的核心基础,直接决定了系统的性能、可扩展性和资源利用效率。现代推理系统需要在低延迟、高吞吐量和成本效益之间找到最佳平衡点,同时支持动态批处理、内存优化和多模型并发等高级特性。

7.2 模型部署与运维实践

模型部署与运维是将训练好的大模型转化为可用服务的关键环节,涉及模型格式转换、环境配置、服务监控和故障处理等多个方面。有效的部署策略能够显著降低运维成本,提高服务稳定性和用户体验。

7.3 推理优化技术体系

推理优化技术体系是提升大模型推理性能的核心技术集合,包括算法优化、硬件加速、系统调优和架构设计等多个维度。

7.4 DeepSeek 专题

DeepSeek 是当前开源大模型领域的重要力量,其创新的架构设计和高性能表现备受关注。本节汇总了关于 DeepSeek 模型的部署、对比分析和存储系统设计等核心资料。


8. 企业级 AI Agent 开发

本章深入探讨企业级 AI Agent 开发的完整技术体系。详细内容请访问:

核心模块导航

  • 多智能体系统:BDI 架构、多 Agent 协作机制与企业级落地
  • 记忆系统:MemoryOS 架构、Mem0 实战与 LangChain 记忆集成
  • 上下文工程:动态组装、自适应压缩与 Anthropic 最佳实践
  • 工具与 MCP:Model Context Protocol (MCP) 原理与实战
  • 基础设施:Agent 基础设施技术栈与 12-Factor Agents 设计原则

9. RAG 与文档智能

本章聚焦于检索增强生成(RAG)与文档智能化处理技术,提供从非结构化数据解析到知识库构建的完整解决方案。详细内容请访问:

核心模块导航

深度研究与工具

特定领域应用


10. 开源模型与框架生态

本章汇聚了 AI 领域前沿的开源模型与计算框架,聚焦于大模型训练、微调和推理的核心技术,涵盖高性能中文大模型、高效微调工具和推理优化框架,为开发者提供高性能的技术选型参考。

  • DeepSeek - 基于 Transformer 的高性能中文大模型,具备强大的推理能力与多语言支持
  • unsloth - 高效大模型微调框架,支持 Llama 3.3、DeepSeek-R1 等模型 2 倍速度提升与 70% 内存节省
  • ktransformers - 灵活的大模型推理优化框架,提供前沿的推理加速技术

11. 课程体系与学习路径

本章汇总了 AI 基础、系统开发、编程实战等全方位的课程体系,为学习者提供清晰的学习路径和进阶指南。

11.1 AI System 全栈课程(ZOMI 酱)

AISystem - ZOMI 酱的 AI 系统全栈课程,涵盖从硬件基础到框架设计的全技术栈内容:

  • 系统介绍 - AI 系统概述、发展历程与技术演进路径
  • 硬件基础 - AI 芯片架构、硬件加速器与计算平台深度解析
  • 编译器技术 - AI 编译器原理、优化技术与工程实践
  • 推理优化 - 模型推理加速技术、性能调优与部署策略
  • 框架设计 - AI 框架架构设计、分布式计算与并行优化

11.2 AI Infra 基础课程(入门)

  • 大模型原理与最新进展 - 交互式在线课程平台
  • AI Infra 课程演讲稿 - 完整的课程演讲内容、技术要点与实践案例
  • 学习目标:深入理解大模型工作原理、最新技术进展与企业级应用实践
  • 核心内容
    • Transformer 架构深度解析:编码器-解码器结构、多头注意力机制、文本生成过程
    • 训练规模与成本分析: GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求
    • DeepSeek 技术突破: V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化
    • 能力涌现现象研究:规模效应、临界点突破、多模态融合发展趋势
    • AI 编程工具生态: GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践
    • GPU 架构与 CUDA 编程:硬件基础、并行计算原理、性能优化策略
    • 云原生 AI 基础设施:现代化 AI 基础设施设计、容器化部署与运维实践

11.3 Trae 编程实战课程

系统化的 Trae 编程学习体系:

课程结构:

  • 第一部分:Trae 基础入门:环境配置、交互模式、HelloWorld 项目实战
  • 第二部分:常见编程场景实战:前端开发、Web 开发、后端 API、数据库设计、安全认证
  • 第三部分:高级应用场景:AI 模型集成、实时通信、数据分析、微服务架构
  • 第四部分:团队协作与最佳实践:代码质量管理、项目管理、性能优化、DevOps 实践
  • 第五部分:综合项目实战:企业级应用开发、核心功能实现、部署运维实战

Buy Me a Coffee

如果您觉得本项目对您有帮助,欢迎购买我一杯咖啡,支持我继续创作和维护。

微信 支付宝
wechat alipay

For Tasks:

Click tags to check more tools for each tasks

For Jobs:

Alternative AI tools for AI-fundermentals

Similar Open Source Tools

For similar tasks

For similar jobs