Xinference 新开源项目:xllamacpp

Xinference 新开源项目:xllamacpp,新 llama.cpp 的 Python binding。过去,在 Xinference 里,我们使用 llama-cpp-python 的 binding,但是,第一,这个库跟不上 llama.cpp 本身的发展,不支持新的 continuous batching 等功能;第二,作者更新频率变慢,比如,最近 deepseek R1 系列的模型,它支持很慢。因此,我们决定自己维护和 llama.cpp 的 binding,继续发挥 llama.cpp 对于量化很好的支持(比如 deepseek R1 1.58bit 量化)以及端侧优势。

参考文献:
[1] https://github.com/xorbitsai/xllamacpp



(文:NLP工程化)

欢迎分享

发表评论