关于Pingpong和Cooperative的一些感性理解 2025年7月11日14时 作者 GiantPandaCV 2067252909434076 编辑丨GiantPandaLLM 背景 最近,我和几位小伙伴 @a
Attention is NOT all you need!这个「去Transformer」的玩意直接把我整懵了! 2025年3月25日16时 作者 AGI Hunt 就训练出 一个 完全不用Transformer注意力 的 72B大模型,性能竟超越GPT 3.5?!