人工智能知识库

标签: 模型评测

此标签下有1条笔记。

  • 2026年4月18日

    LM Eval评估框架

    • 大模型评估
    • LM-Evaluation-Harness
    • 基准测试
    • MMLU
    • GSM8K
    • BIG-Bench
    • 模型评测

Created with Quartz v4.5.2 © 2026

  • GitHub