就像我之前说的 m4p 一个算力仅相当于 9400 水平的 GPU 配不上这个带宽一点都不 pro。
果然只要评测者动点脑筋,针对 rag 高并发推测解码立刻让苹果现形,以上 3 个都是针对算力,苹果再拿 8Tflops GPU 的到处混可不行


解决方案很简单加 matrix 单元,保守提升个 5 倍没啥问题




果然只要评测者动点脑筋,针对 rag 高并发推测解码立刻让苹果现形,以上 3 个都是针对算力,苹果再拿 8Tflops GPU 的到处混可不行



解决方案很简单加 matrix 单元,保守提升个 5 倍没啥问题



