2025年一开年,DeepSeek就像是一道旋风席卷了全中国,在极短的时间里让国人知道了AI。学习使用大模型成了当下最流行的事情,对于开发者来讲,更是一个新时代的开始,就如同2017年智能分发为内容创作者开启了自媒体盛宴,越来越多人认为大模型技术将会开启属于开发者的盛宴,代表着新的趋势,也正是如此,越来越多的人希望能够成为一个大模型应用的开发者,迎接即将到来的AI应用繁荣。
奈何LLM应用开发不像早已成熟的前后端技术,拥有一整套标准的技术栈和最佳实践。同时,它也不像移动互联网刚兴起,虽然Android或IOS应用开发也是新事物,但技术栈明确、过去以代码为中心的开发范式也并没有改变,学习方法和经验依旧有效。而大模型应用开发对于绝大多数传统开发者来讲是一个数据、模型、代码构成的全新的应用领域,过去的经验不再完全有效,技术标准和方案还远未定型,每一天都有新的变化,每个人都有自己的一些理解,呈现着一种繁荣但无序的状态。
虽然,大量的自媒体都在介绍大模型和大模型应用,但内容往往流于碎片化的信息拼凑,或是泛泛而谈的概念罗列,也有一些书籍,不加甄别地专注于介绍时下新兴工具和模型的细枝末节,而忽略更为本质的理念和思路分析,一旦升级变更,内容很快便会过时,甚至被淘汰,丧失其参考和学习价值。
对于一个没有机器学习、大模型技术有系统理解的开发者和初学者来讲,它们更多是一种噪音,一种负担。
回想2023年初,ChatGPT的发布就像开启了AI技术的寒武纪爆发期,大量新的产品、工具、技术涌现,一成不变的技术圈被按下了加速键,,一天不学习,似乎就错过一个时代。作为一个开发者,我迫不及待的想要学习它,使用它。然而,我惊讶的发现,没有任何一本书或者一个系列的文集能够帮我入门,更多的信息是碎片的,或者新老参杂的,比如微调理论,搜索到的都是基于bert的内容。就连Prompt这样一个单词都有不同的翻译和读音。
我一直认为不成体系的知识,很快就会遗忘或者无法真正的被使用,因此,我在学习过程中力求将知识进行梳理、归纳、系统化,进而形成一个清晰复合直觉的脉络。在学习大模型应用开发技术的过程亦是如此,在学习大模型应用开发技术的过程也是这样。学习过程中,也有很多长期萦绕在脑海中的问题,需要解答,:
-
为什么都说大模型技术可能会开启新的“工业革命”? -
为什么要对模型微调?它的作用是什么?它又怎么样的技术演进路线,未来会是什么样的? -
GPU为什么受到热捧,它和CPU到底有何不同?除了GPU还有没有别的路线? -
大模型应用开发的流程是什么样的?它与传统应用开发有何不同? -
各种各样的新工具不断涌现,我们应该如何选择?哪些工具更有前途,值得长期学习跟进? -
大模型的最佳技术架构实践有哪些? -
…
我不断地将自己的疑问记录下来,寻找答案,沉淀感悟,积累了大约2万字的笔记。 有一天,我想,我为什么不把这些内容分享出来呢?应该有大量的朋友和我一样,都希望找到答案。于是,2023年6月20日,《一文探秘LLM应用开发》就诞生了。在撰写之初,我就避免像普通博客文章那样碎片化和追求时效性,而是更希望它能成为一个体系化的引导,通过这个脉络,读者能够真正掌握本质,了解全貌,进而根据自己的需求独立研究学习。
文章刊载后,我收到了很多读者的私信,称赞这样的文章组织方式,以及内容重点,同时,希望我能够更细致、更完整地撰文。于是,本来的一篇文章,变成了一个两个系列,近40篇文章。后来,笔者又将这些文章进一步细化和完善,形成了你们现在看到的书——《探秘大模型应用开发》,一本近300页的纸质书。本书涵盖了大模型开发的方方面面,能够解答技术管理者、开发者、爱好者们脑海中很多的疑问。

希望读者朋友们能够通过这本书获得一些帮助。大模型技术日新月异,也希望大家能够给予反馈,帮助我们更好地完善改进,共同创造新的价值,帮助更多的朋友。
公众号回复“进群”共同学习提高。
(文:AI工程化)