自然语言处理
NeurIPS’24|推理计算量减小10倍!MemoryFormer:华为提出存储代替计算的Transformer新架构
本文介绍了一种名为MemoryFormer的新型Transformer模型,通过使用存储空间替代传统全连接层来降低推理时计算复杂度。MemoryFormer利用哈希算法和局部敏感哈希索引方法,在保持性能的同时大幅减少了模型的计算量,为大模型高效推理提供了新解决方案。
o1的风又吹到多模态,直接吹翻了GPT-4o-mini
开源项目LLaVA-o1展示了其在自主多阶段推理方面的优越性,超过了一些大型甚至封闭源代码的模型,在复杂任务中的性能显著提高。它包括总结、图像解释、逻辑推理和结论生成四个关键阶段,并采用了结构化推理框架和阶段性束搜索策略来增强其推理能力。