用视频存储文本的黑科技!


项目简介

memvid-rs 是 memvid 的高性能、自包含的 Rust 重实现,将文本文档编码为视频文件中的二维码,以实现高效的存储和 TRUE 神经网络语义检索。

memvid-rs 采用创新方法将文本文档转换为视频文件:

  1. 📄 文本处理:文档被分块为可管理的片段
  2. 🔲 QR 编码:每个片段成为 QR 码帧
  3. 🎬 视频创建:QR 帧被编译为视频文件
  4. 🧠 TRUE BERT 推理:真实 transformer 神经网络用于语义理解
  5. ⚡ 闪电检索:以完美精度查询您的“视频记忆”

非常适合存档大型文本语料库,创建可搜索的视频库,或构建具有 100% 语义搜索精度的创新文档存储系统。


特点

🚀 性能

  • 使用 Metal GPU 加速编码速度提升 150 倍以上(M1 Max:9 秒 vs 分钟)
  • 使用 TRUE BERT 神经网络推理实现 100%搜索准确率
  • 使用 HNSW 索引在数百万文本片段中进行亚秒级搜索
  • 1.68 秒完成 112 测试验证套件
  • 零编译警告 – 生产就绪的干净代码库


🧠 TRUE 机器学习

  • 真实 BERT 神经网络 – 6 个 Transformer 层,支持多头注意力
  • 通过 HuggingFace Candle 实现原生 Rust 机器学习(无需 Python 依赖!)
  • GPU 自动检测 – Metal/CUDA/CPU 自动优化
  • 完美语义理解 – “谁发明了比特币” → “中本聪” ✅
  • 来自 sentence-transformers/all-MiniLM-L6-v2 的 384 维嵌入

 🛠️ 技术

  • 100% 纯 Rust – 无外部系统依赖
  • 自包含二进制文件 – 任何地方单文件部署
  • 基于 HNSW 索引的高级向量搜索和 4 种距离度量
  • 全程使用 Async/await 以实现最大并发
  • 快速测试模式 – 基于哈希的虚拟嵌入用于开发


📚 兼容性与部署

  • 📱 真正的可移植性 – 单个 50MB 的二进制文件可在任何地方运行
  • 🔄 Python 互操作 – 无缝读取现有 memvid 文件
  • 📄 多种格式:PDF、TXT、Markdown、JSON
  • 🌍 跨平台:Windows、macOS、Linux、ARM
  • 🚢 无需安装 – 复制即可运行,无需依赖
  • 🐳 小型容器 – scratch/alpine + 二进制 (~55MB 总计)


 🏗️ 架构


核心组件

  • 🔲 QR 模块:纯 Rust QR 编码/解码与压缩(qrcode + rqrr)
  • 🎬 视频模块:自包含视频处理(re_mp4 + mp4parse + image)
  • 🧠 ML 模块:通过 HuggingFace Candle 嵌入模型(无 Python 依赖)
  • 🔍 搜索模块:纯 Rust HNSW 向量搜索(hnsw_rs + instant-distance)
  • 📊 存储模块:内存高效的数据结构和缓存



项目地址

https://github.com/AllenDang/memvid-rs


扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论