NLP工程化
阿里的移动端多模态大模型APP – MNN 又更新了
阿里的MNN移动端多模态大模型APP更新支持Qwen-2.5-omni-3b和7b,可以实现文本到文本、图像到文本等多种生成任务,提供速度优化的开发参考。
使用Huggingface SmolVLM 和gglm llama.cpp 的实时摄像头AI识别演示
实时摄像头AI识别演示使用Huggingface SmolVLM和gglm llama.cpp,参考文献详述。
Seed1.5-VL:一款强大的视觉-语言基础模型
Seed1.5-VL是专为通用多模态理解和推理设计的视觉-语言基础模型,仅用5.32亿视觉编码器和200亿参数的MoE LLM实现顶尖性能,在60个公共基准测试中有38项达到最佳水平。
IndexTTS-vLLM:让语音合成更快速、更高效
IndexTTS-vLLM通过vLLM加速语音合成过程,单个请求RTF从0.3降至0.1,GPT模型decode速度提升至280 token/s,支持多角色音频混合。
COS:用 C 语言编写的微型 x86_64 操作系统
COS是一个用C语言编写的微型x86_64操作系统项目,目标是在最短的时间内实现系统调用和抢占式调度,目前有3000行代码,实现了中断处理、物理内存分配、可执行文件加载等功能。