蛇年春节前,DeepSeek陆续发布了 v3版本和r1版本,除夕夜发布了Janus-Pro,引起了轰动。
整个春节假期,DeepSeek在github和huggingface屠榜。
同时,DeepSeek也遭到了国家级的DDoS攻击,服务时不时中断,严重影响了广大AI爱好者的体验。
我申请的API服务,半个晚上只能输出error。
好在年初二早上基本恢复了正常(联网功能还是时断时续)。
DeepSeek最大的功劳,是把AI的成本打到了最低。
OpenAI试图构建一个巨额资本打造的护城河,然后关门收钱。成为AI时代的垄断者。
DeepSeek做了两件事,让OpenAI的梦想变成了水漂。
一是用更低的成本实现了接近甚至超越ChatGPT的效果(当然是否超越还有争论,但在同一个段位并没有广泛的异议);
二是开源,让每一个企业和个人,都有机会本地部署顶级AI大模型。这一点很重要,尤其是对于亚非拉第三世界国家,之前的AI算力游戏,几乎和他们毫无关系。DeepSeek改变了游戏规则,全球任何国家的企业和个人都可以参与其中。
这就是人民战争的汪洋大海。
那么问题来了,DeepSeek靠什么赚钱呢?
搞笑的答案是:做空英伟达和美股就足够了。
正经的答案是:DeepSeek是一家量化投资公司,它的主业是搞投资,AI不需要赚钱。
之前我的观点一直是AI终将成为类似云计算的底座,成为辅助性的功能,不可能单独收费。我设想最终成功的应该是阿里这样的云计算厂商,把AI做成一个云原生服务。没想到量化企业剑出偏锋(同花顺每年也几十亿的烧钱搞AI,不排除搞出第二个DeepSeek),不过基本逻辑和我预测的一致。
事实上阿里过年期间也发布了qwen的新版本,实力也很强,只是风头完全被DeepSeek盖过了。
可以预测,不远的将来,AI将成为及低成本的资源类服务,到时候AI卷什么?
卷应用,卷场景。
这也是DeepSeek敢开源的底气所在,这个星球上,没有任何国家比中国的应用和场景更丰富。
如今,AI的应用顶多算早期应用,主要是提高工作效率为主,什么写稿子、审合同,这都是很低级的应用。你看看春晚的机器人扭秧歌,其实宇树部署了云侧和端侧AI大模型,只不过它是相对细分领域的AI大模型。
未来DeepSeek这种级别的大模型接入机器人,简直无所不能。
我手头正在经手的几个应用:
一个是AI客服,现在很多企业都在做,某科创板待上市企业,已经实现了50%左右的客户电话沟通通过AI客服闭环处理,大大降低了人工。不过我不是搞电话,而是搞企业微信群。
一个是AI做凭证,这个对于广大财务牛马是降维打击,好消息是硬件成本比较高,一般是集团型企业才使用。通过硬件设备(不是传统扫描仪,类似ATM机柜,员工只需要将单据塞进去即可)识别单据,然后根据训练好的逻辑自动识别单据提交到报销系统并生成SAP的会计凭证。
至于辅助审合同,自动出题库等效率类的提升,就不提了。
对于AI绘画来说,DeepSeek至少有两个场景。
辅助写提示词,和识别(反推)图片。
分别介绍下(其实前文有分别讲,今天合并起来详细讲)。
一、辅助写提示词
AI绘画爱好者都有一个痛点:很难细致的写出提示词。
尽管有很多提示词工具,但在SDXL、Flux时代,需要对提示词进行非常详尽的描述,同时还要考验英文水平。
DeepSeek可以轻松的解决这一点。
在ComfyUI中挂接DeepSeek v3的API插件,复杂的描述交给DeepSeek实现。
比如:
我想让DeepSeek描述一下战斗的蒂法,它给出的提示词是:
Tifa Lockhart in a dynamic battle pose, wearing her iconic white tank top and black skirt, fists clenched, ready for combat, intense expression, detailed facial features, flowing black hair, glowing blue eyes, surrounded by energy aura, dramatic lighting, vibrant colors, high detail, cinematic composition, action-packed scene, Final Fantasy VII style, fantasy atmosphere, powerful and graceful.
这段提示词给了画面很多细节,不需要我动脑去构思,然后可以直接画出满意的画面。
1、插件安装
https://github.com/yichengup/Comfyui-Deepseek
2、DeepSeek API获取
登录DeepSeek开发者平台,创建API key
https://chat.deepseek.com/
点击创建 API Key,可以得到一个SK开头的key。
复制后,找到ComfyUI\custom_nodes\Comfyui-Deepseek\config.json
用记事本打开,将API key复制过去,然后存盘。
重启ComfyUI启动器。
3、提示词技巧
因为这是和DeepSeek直接交互,所以可能会出现DeepSeek自作主张的解释内容,为了方便绘画,可以让DeepSeek“闭嘴”不说无用词。
比如我输入的内容是:
用英文描述战斗的蒂法,用于SDXL模型的AI绘画提示词,输出内容直接使用,请勿输出无关内容,不要有引号。
输出的内容是:
Tifa Lockhart in a dynamic battle pose, wearing her iconic white tank top and black skirt, fists clenched, ready for combat, intense expression, detailed facial features, flowing black hair, glowing blue eyes, surrounded by energy aura, dramatic lighting, vibrant colors, high detail, cinematic composition, action-packed scene, Final Fantasy VII style, fantasy atmosphere, powerful and graceful.
工作流下载:
https://pan.quark.cn/s/2bf8de7db91a
我想说的是,在设计涩涩画面的时候,DeepSeek非常强大,可以拯救英语不好的孩子贫乏的想象力。
二、Janus-Pro反推
和其他AI绘画大模型相比,Janus-Pro不同之处在于,它是业界首个理解-生成一体化架构的大模型。
所谓理解,在AI绘画圈一般叫反推,尽管之前有不少优秀的反推模型,但反推是反推,绘画是绘画,DeepSeek合二为一,大大降低了部署成本。
对于广大AI绘画爱好者来说,最方便的工具当然是ComfyUI。
发布后仅仅4小时,github就有人发布了Janus-Pro的ComfyUI节点。
我陆陆续续累计用了4个小时(中间还跑了200公里去吃年夜饭)调通了节点,并顺利出图。
事实上大约十分钟就应该能在ComfyUI上部署完毕,但我的ComfyUI出现了插件以来库冲突的bug,查找bug和修复对应插件耗时较多。
简单总结下:出图能力有限,大致是SD1.5的水平(毕竟7B太小了);反推非常强大。考虑到Janus-Pro是开源的,未来形成生态后有望赶超Flux(感觉有点难,像优秀的混元,虽然很强,但第三方模型比较少)。
1、插件安装地址
https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro
秋叶启动器可以在版本更新处安装,ComfyUI桌面版可以通过ComfyUI Manager在线安装。
安装完毕后重启启动器。
2、工作流和节点介绍
(1)模型安装
DeepSeek发布了一个1B版本,一个7B版本(1B反推比较快),可以很小的显存适用。我把两个模型打包放到网盘,下载后都拷贝到安装路径即可
安装路径:
ComfyUI\models\Janus-Pro
网盘下载:
https://pan.quark.cn/s/a6fb4b706df2
(2)工作流
插件作者把出图和反推放到了一个工作流上,在实际使用过程中,一般是分开的。
我把工作流拆成两个,方便不同场景使用。
出图工作流:
反推工作流:
3、效果评价
出图效果无法和Flux甚至SDXL对比,不过考虑到SDXL的原生模型也是稀烂,后续如果有第三方大模型涌现,有可能成为AI绘画爱好者的一支强大力量,所以期待生态能成长起来。
不得不说,反推太好用了。
比如:
The image depicts a woman standing by a body of water, with a serene and picturesque background of mountains and greenery. She is wearing a beautiful red off-shoulder gown with intricate gold embroidery on the waistband. Her hair is styled elegantly, adorned with a red floral hair accessory that complements her outfit. The overall scene exudes a sense of calm and natural beauty.
(这幅画描绘了一位女子站在水边,背景是宁静而如画的群山和绿地。她身穿一件美丽的红色露肩长裙,腰带上饰有精美的金色刺绣。她的头发优雅地盘起,佩戴着一朵红色的花卉发饰,与她的服装相得益彰。整个画面散发着一种宁静与自然之美。)
基本上描述了所有细节,可以直接拿来用了。
缺点是不能很好的识别人物,不能直接认出名字,毕竟7B模型还是太小了。
我在C站看到一张非常好看的图,但原作者没有放出提示词。
于是我用Janus-Pro反推了下:
The image depicts a young woman with short, platinum blonde hair and large, expressive eyes. She is wearing a white, sleeveless top with thin straps. Notably, she has large, pink and purple ears protruding from her head, resembling those of a rabbit. The background is a solid, dark blue color, which contrasts with her light hair and clothing. The overall style of the image is highly detailed and appears to be digitally rendered, giving it a polished and vibrant look.
用麦橘超然跑图:
非常接近了!
用inverse(Flux)跑图:
基本上姿态、神色、背景都非常接近了。
用WAI的IL模型跑图:
太可爱了吧!
网盘下载(含工作流):
https://pan.quark.cn/s/a6fb4b706df2
(文:路过银河AI)