Attention is NOT all you need!这个「去Transformer」的玩意直接把我整懵了! 下午4时 2025/03/25 作者 AGI Hunt 就训练出 一个 完全不用Transformer注意力 的 72B大模型,性能竟超越GPT 3.5?!