人工智能知识库

标签: 评估基准

此标签下有2条笔记。

  • 2026年4月18日

    AI Hardness - 人工智能复杂性层级与挑战

    • AI
    • 人工智能
    • 复杂性
    • 难度层级
    • 技术挑战
    • 幻觉
    • 长上下文
    • 推理
    • 多模态
    • Agent
    • 评估基准
    • 推理成本
  • 2026年4月18日

    AI评估基准失效问题

    • AI-Hardness
    • 评估基准
    • MMLU
    • BIG-Bench
    • 基准饱和
    • 数据污染
    • 人工智能

Created with Quartz v4.5.2 © 2026

  • GitHub