人工智能知识库
Search
搜索
暗色模式
亮色模式
探索
标签: 基准测试
此标签下有1条笔记。
2026年4月18日
LM Eval评估框架
大模型评估
LM-Evaluation-Harness
基准测试
MMLU
GSM8K
BIG-Bench
模型评测