大模型领域新书推荐！献给想要转型LLM应用开发的朋友

2025年一开年，DeepSeek就像是一道旋风席卷了全中国，在极短的时间里让国人知道了AI。学习使用大模型成了当下最流行的事情，对于开发者来讲，更是一个新时代的开始，就如同2017年智能分发为内容创作者开启了自媒体盛宴，越来越多人认为大模型技术将会开启属于开发者的盛宴，代表着新的趋势，也正是如此，越来越多的人希望能够成为一个大模型应用的开发者，迎接即将到来的AI应用繁荣。

奈何LLM应用开发不像早已成熟的前后端技术，拥有一整套标准的技术栈和最佳实践。同时，它也不像移动互联网刚兴起，虽然Android或IOS应用开发也是新事物，但技术栈明确、过去以代码为中心的开发范式也并没有改变，学习方法和经验依旧有效。而大模型应用开发对于绝大多数传统开发者来讲是一个数据、模型、代码构成的全新的应用领域，过去的经验不再完全有效，技术标准和方案还远未定型，每一天都有新的变化，每个人都有自己的一些理解，呈现着一种繁荣但无序的状态。

虽然，大量的自媒体都在介绍大模型和大模型应用，但内容往往流于碎片化的信息拼凑，或是泛泛而谈的概念罗列，也有一些书籍，不加甄别地专注于介绍时下新兴工具和模型的细枝末节，而忽略更为本质的理念和思路分析，一旦升级变更，内容很快便会过时，甚至被淘汰，丧失其参考和学习价值。

对于一个没有机器学习、大模型技术有系统理解的开发者和初学者来讲，它们更多是一种噪音，一种负担。

回想2023年初，ChatGPT的发布就像开启了AI技术的寒武纪爆发期，大量新的产品、工具、技术涌现，一成不变的技术圈被按下了加速键，，一天不学习，似乎就错过一个时代。作为一个开发者，我迫不及待的想要学习它，使用它。然而，我惊讶的发现，没有任何一本书或者一个系列的文集能够帮我入门，更多的信息是碎片的，或者新老参杂的，比如微调理论，搜索到的都是基于bert的内容。就连Prompt这样一个单词都有不同的翻译和读音。

我一直认为不成体系的知识，很快就会遗忘或者无法真正的被使用，因此，我在学习过程中力求将知识进行梳理、归纳、系统化，进而形成一个清晰复合直觉的脉络。在学习大模型应用开发技术的过程亦是如此，在学习大模型应用开发技术的过程也是这样。学习过程中，也有很多长期萦绕在脑海中的问题，需要解答，：

为什么都说大模型技术可能会开启新的“工业革命”？
为什么要对模型微调？它的作用是什么？它又怎么样的技术演进路线，未来会是什么样的？
GPU为什么受到热捧，它和CPU到底有何不同？除了GPU还有没有别的路线？
大模型应用开发的流程是什么样的？它与传统应用开发有何不同？
各种各样的新工具不断涌现，我们应该如何选择？哪些工具更有前途，值得长期学习跟进？
大模型的最佳技术架构实践有哪些？
…

我不断地将自己的疑问记录下来，寻找答案，沉淀感悟，积累了大约2万字的笔记。有一天，我想，我为什么不把这些内容分享出来呢？应该有大量的朋友和我一样，都希望找到答案。于是，2023年6月20日，《一文探秘LLM应用开发》就诞生了。在撰写之初，我就避免像普通博客文章那样碎片化和追求时效性，而是更希望它能成为一个体系化的引导，通过这个脉络，读者能够真正掌握本质，了解全貌，进而根据自己的需求独立研究学习。

文章刊载后，我收到了很多读者的私信，称赞这样的文章组织方式，以及内容重点，同时，希望我能够更细致、更完整地撰文。于是，本来的一篇文章，变成了一个两个系列，近40篇文章。后来，笔者又将这些文章进一步细化和完善，形成了你们现在看到的书——《探秘大模型应用开发》，一本近300页的纸质书。本书涵盖了大模型开发的方方面面，能够解答技术管理者、开发者、爱好者们脑海中很多的疑问。

希望读者朋友们能够通过这本书获得一些帮助。大模型技术日新月异，也希望大家能够给予反馈，帮助我们更好地完善改进，共同创造新的价值，帮助更多的朋友。

公众号回复“进群”共同学习提高。

（文：AI工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复