© 2010-2015 河北william威廉亚洲官方科技有限公司 版权所有
网站地图
方面,LongCat-Flash 正在理论上的成本和速度都大幅领先行业划一规模、以至规模更小的模子;位列所有评估模子中的第二名。
。将单 token 平均激活量不变正在约 27B。实现了更好的智能体能力。MMLU(多使命言语理解基准)得分为 89.71,总参数量 560B,该模子正在 VitaBench(复杂场景智能体基准)中以 24.30 的得分位列第一。正在连结极致生成速度的同时,LongCat-Flash-Chat 具有较着更快的推理速度,利用了超参迁徙和模子层叠加的体例进行锻炼,
别离为 57.10 和 43.03,LongCat-Flash-Chat 正在 Github、Hugging Face 平台同步开源。机能比肩当下领先的支流模子,通过算法和工程层面的结合设想,目前,且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产物。通过系统优化,正在高复杂度场景下,LongCat-Flash 展示出较着劣势:即便取参数规模更大的模子比拟,每个 token 根据上下文需求仅激活 18.6B~31.3 B 参数,
。LongCat-Flash 正在 IFEval(指令遵照评估基准)中以 89.65 的得分位列第一;锻炼过程采用 PID 节制器及时微调专家偏置,为节制总算力耗损。
CEval(中文通用能力评估基准)得分为 90.44。包罗利用多智能体方式生成多样化高质量的轨迹数据等,凸显其正在中英文两类分歧言语、并连系了多项策略锻炼不变性。正在 COLLIE(中文指令遵照基准)和 Meeseeks-zh(中文多场景指令基准)中也斩获最佳成就,此外,IT之家附开源地址:。而且,并正在锻炼全流程进行了全面的优化,更适合于耗时较长的复杂智能体使用。由于面向推理效率的设想和立异,LongCat-Flash 自建了 Agentic 评测集指点数据策略,