移动端大模型推理框架——cactus

这个框架支持C/C++、Dart/Flutter 和 Ts/React-Native 的 API (而且接口都是相同的方便移植)。这个框架使用 GGML 当推理后端,支持任何与 Llama.cpp 兼容的 GGUF 模型。

目前来看放出的模型推理速度也很不错,iPhone 16 运行 Gemma3 1B  能达到 49 token/s,Qwen3 4B 能达到 16 token/s。

参考文献:
[1] https://github.com/cactus-compute/cactus
[2] https://github.com/cactus-compute



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论