
这模子可不是等闲货品,1万亿参数的MoE架构像超跑引擎般狂飙。单次推理只激活420亿参数,却能简略独霸100万token的超长对话,输出速率径直打破1000tokens/s。小米用FP4搀和量化和DFlash投契解码技能硬是把速率拉满,固然价钱是圭表版3倍,但为止普及10倍——相当于花3倍钱买了辆布加迪威龙。
当今每生成100万token唯有18块钱,性价比险些逆天。小米团队放话'极致推理速率将带来全新行业范式',忖度智能客服、及时翻译这些场景立地要变天。有配置者实测发现,处分百页公约的速率比竞品快8倍,难怪连汽车厂商皆抢着接入车机系统。这波技能打破,妥妥要从头界说AI诈骗规模了!