人工智能知识库
Search
搜索
暗色模式
亮色模式
探索
标签: 评估基准
此标签下有2条笔记。
2026年4月18日
AI Hardness - 人工智能复杂性层级与挑战
AI
人工智能
复杂性
难度层级
技术挑战
幻觉
长上下文
推理
多模态
Agent
评估基准
推理成本
2026年4月18日
AI评估基准失效问题
AI-Hardness
评估基准
MMLU
BIG-Bench
基准饱和
数据污染
人工智能