人工智能知识库

标签: MMLU

此标签下有2条笔记。

  • 2026年4月18日

    AI评估基准失效问题

    • AI-Hardness
    • 评估基准
    • MMLU
    • BIG-Bench
    • 基准饱和
    • 数据污染
    • 人工智能
  • 2026年4月18日

    LM Eval评估框架

    • 大模型评估
    • LM-Evaluation-Harness
    • 基准测试
    • MMLU
    • GSM8K
    • BIG-Bench
    • 模型评测

Created with Quartz v4.5.2 © 2026

  • GitHub