人工智能知识库
Search
搜索
暗色模式
亮色模式
探索
标签: MMLU
此标签下有2条笔记。
2026年4月18日
AI评估基准失效问题
AI-Hardness
评估基准
MMLU
BIG-Bench
基准饱和
数据污染
人工智能
2026年4月18日
LM Eval评估框架
大模型评估
LM-Evaluation-Harness
基准测试
MMLU
GSM8K
BIG-Bench
模型评测