单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可

单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可
单卡16G 5060Ti 部署 Qwen3.6 35B A3B Apex量化测试(大核显亦可

概述

感谢各位上次发帖很多佬的交流, 上次是豪华配置,这次测了弱一点的配置

首先期望不要太高,其实这个水平的模型OpenCode还有厉害一点的Minimax M2.5免费用(虽然刚才出现的Bug Minimax也没修好

能玩,但是上下文看自己的操作,如果有核显则可以拉到100K上下文,没有的话可能20-50K上下文了。(所以我特别喜欢有核显的电脑)显存比较紧急的话可以划分1层给CPU,可以拉高20K上下文应该

体感可以编程,没有什么问题
写了个时钟,还有个贪食蛇

相关说明

  1. Apex量化的I-MINI GGUF表现真的很亮眼,损失感觉很小?
  2. Qwen3.6 35B A3B的上下文真的好便宜
  3. 模型在这里,I-MINI版本就13.3G(这里不加载视觉模块了,显存不够): Qwen3.6-35B-A3B-APEX-GGUF · 模型库
  4. 如果有Intel 358H, 338H 32G+1T, 或者AMD 890M, 780M 的用户也可以试试看,内存大可以选I-Compact的17G版本

部署环境

硬件

CPU 12450H
显卡 RTX 5060 Ti 16G
内存 单根 16G DDR4 3200

注意:显卡上没有接任何输出,BIOS设置的核显优先,界面渲染都交给了核显,如果开个渲染个界面可能就剩下13-14G显存,上下文只能开比较少或者拿一层给CPU,decode速度会降低25%

软件

后端 LM Studio
部署模型:Qwen3.6-35B-A3B-APEX-I-Mini.gguf
Decode速度:80tps

层数:全部放在GPU上
上下文:100K
关闭MMAP, 不保持模型在内存中
打开快速注意力,K缓存 V缓存量化均为Q8,Q4好像有BUG → 会导致Prefill非常慢

建议:

  1. 用来编程时,如果第一步没能做好,建议直接从第一步重开多试一次,应该会比修bug要好点,改代码bug能力没有写代码能力强的感觉
  2. 本地还能玩玩Heretic(虽然这个模型好像没什么感觉,RP不是很好,总之玩玩也不赖)
  3. 这个量化确实损失感觉没多少的样子,因为同样概率发生的bug我跑Q6量化的版本也有概率发生
  4. 对于天才编程佬们来说,模型的能力还是远远不够的,这篇文章没什么帮助,虽然如此,但是还是想要分享一下
  5. 如果发生长时间卡住,可能是模型跑出循环思考bug了,可以中断一下重新跑

题外话

话说L站没有本地部署模型的标签吗(逃

附加截图

贪食蛇
时钟

2 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文