人工智能知识库

Home

❯

人工智能工具实操

❯

hardness

❯

评估基准

文件夹: 人工智能工具实操/hardness/评估基准

此文件夹下有1条笔记。

  • 2026年4月18日

    AI评估基准失效问题

    • AI-Hardness
    • 评估基准
    • MMLU
    • BIG-Bench
    • 基准饱和
    • 数据污染
    • 人工智能

Created with Quartz v4.5.2 © 2026

  • GitHub