AI Hardness:人工智能到底难在哪里?

先说个故事

你有没有过这种体验?跟AI聊得好好的,突然它就开始瞎编了——明明没发生过的事,它说得跟真的一样;明明没有的论文,它给你引用得头头是道。这就是AI最让人头疼的问题之一:幻觉

再比如,你想让AI帮你读一本10万字的书,结果它告诉你”上下文太长了,读不了”。明明现在很多模型都说支持100万字,怎么就不行了呢?

还有,你让AI帮你订个机票,它倒是很热情,唰唰唰给你订了10张——然后你发现全是错的。

这些问题听起来好像各不相同,但它们其实有一个共同的名字:AI Hardness,也就是AI的”硬度”问题。

今天咱们就掰开了、揉碎了,把AI面临的这些核心挑战讲清楚。看完这篇文章,你就不只是个”AI使用者”了,而是能看穿AI本质的”AI明白人”。


一、AI任务难度层级:简单问题vs复杂问题

1.1 AI也有”脑子不够用”的时候

咱们先来聊聊AI到底能干啥、不能干啥。

现在的AI,大致分两类:

普通AI:你问啥它答啥,速度快,但遇到复杂问题就容易出错。就像那种学霸做选择题贼快,但遇到大题就抓瞎的类型。

推理AI(就是这两年火起来的”推理模型”):这种AI会”思考”。你问它一道数学题,它会先在脑子里推演几步,然后再给你答案。就像学渣突然开窍了,虽然想得慢,但想得更准。

这俩有啥区别呢?打个比方:

  • 普通AI做数学题:看到”1+1=?”,直接写”2”
  • 推理AI做数学题:看到”1+1=?”,会想”哦,这是一个加法运算,1加1等于2”

听起来推理AI更厉害对吧?但也别高兴太早——推理AI也有自己的问题:它想得越久,消耗的”脑子”(算力)就越多,成本也就越高。就像你让一个人做数学题,他要是每道题都验算三遍,那工资肯定得涨。

1.2 任务复杂度三档:你遇到的是哪一档?

2026年的最新研究给AI任务分了三个难度档次:

第一档:简单任务(AI表现很好)

  • “今天天气怎么样?”
  • “帮我翻译这句话:hello world”
  • “1+1等于几?”

这种问题,普通AI和推理AI表现差不多。就像你问”今天吃啥”,随便一个人都能回答得很好。

第二档:中等难度(推理AI开始显现优势)

  • “帮我分析一下这篇文章的主旨”
  • “这道数学题怎么做?”
  • “帮我规划一下这周的工作安排”

这时候推理AI的优势就出来了——它会多想想再答,准确率更高。

第三档:高难度(俩都容易翻车)

  • “帮我证明一下费马最后定理”
  • “设计一个能够自我进化的AI系统”
  • “预测一下未来30年的科技发展”

这种问题,别说AI了,人类顶尖专家也得挠头。现在的AI遇到这种问题,经常会出现”精度崩溃”——就是怎么想都想不明白,干脆瞎编一个答案。

一个有意思的发现:即便是很贵的推理AI,在某些高难度任务上,反而会”想太少”。它可能觉得自己想明白了,实际上根本没想清楚。这就是所谓的”推理衰减”——想太多反而把自己绕晕了,不如不想。

1.3 现在的AI到底有多强?

咱们拿几个主流模型举个例子:

OpenAI的o3:这个是真能打。在一些研究生级别的科学题上,能拿到90%以上的分数,甚至能做对国际数学奥赛的题目。但是遇到那种”怎么把这道题变得超级难”的题目,它还是会翻车。

DeepSeek-R1:国产之光!这个模型特别有意思,它是通过”自己跟自己学”训练出来的——不需要人类教它怎么做题,它自己琢磨出来的。而且它是开源的,谁都能用,代码全公开。

Google Gemini:这个模型比较”聪明”,它会根据任务的难度自动调整思考时间。简单问题秒答,复杂问题多想想再做。

Anthropic Claude:这个模型有个很酷的功能——开发者可以控制它”想多久”。想得快就花1024个token来思考,想得慢就花10万个token。花钱多的人当然可以”想更久”。

1.4 量化一下AI的能力边界

科学家用一些标准测试来衡量AI的能力,有个叫ARC-AGI的测试特别有意思:

  • 简单题(ARC-AGI-1):顶级AI能拿到93分,接近满分
  • 中等题(ARC-AGI-2):一下掉到68分
  • 困难题(ARC-AGI-3):只剩13分,而人类还是接近满分

这个差距说明啥?说明AI在”组合泛化”这件事上还是差点意思——就是能把学到的东西灵活组合起来用。人类在这方面还是很强的。


二、幻觉问题:AI为什么会胡说八道?

2.1 什么是幻觉?

先给幻觉下个定义:幻觉就是AI在那瞎编,而且还说得特别像那么回事。

比如你问AI:“秦始皇生于哪一年?”

AI回答:“秦始皇生于公元前259年。”

这个答案对不对?对的。但是如果AI说:“秦始皇生于公元前247年,而且他最喜欢的食物是烤鸭。”

前半句可能对,后半句就是幻觉了——AI自己编的,根本没这回事。

幻觉分两种:

内在幻觉:它说的和事实对不上。比如你说”李白是唐代诗人”,AI说”李白是宋代诗人”——这就是内在幻觉,说了跟没说一样,错得离谱。

外在幻觉:它说的虽然可能是对的,但跟问题没关系,或者干脆就是自己编的。比如你问”李白是谁”,AI说”李白是唐代诗人,他还发明了豆腐”——后半句就是外在幻觉,AI自己瞎编的。

2.2 为什么会产生幻觉?

这就涉及到AI是怎么”工作”的了。

先说AI是怎么工作的:你给AI一段文字,它要做的事情是”猜下一个字该是啥”。比如你说”今天天气真”,它会猜下一个字可能是”好”、“冷”、“热”之类的。它之所以能猜对,是因为它看过海量的文字,学到了”字和字之间怎么搭配”的规律。

问题来了:AI学的那些”规律”,本质上是”在某种情况下,什么样的字最可能出现在一起”。它不是在”回忆事实”,而是在”模仿见过的模式”。

这就导致了一个根本性的问题:

AI不知道什么是真的,什么是假的,它只是在模仿它觉得”最像真的”的模式。

就像一个人读了很多侦探小说,他可能学会了很多”破案的手法”,但他不一定是真侦探。遇到真实的案子,他可能会按小说里的套路来,但现实和小说不一定一样。

导致幻觉的具体原因

  1. 训练数据有问题:AI学的那些资料里,可能就有错误的信息。AI把这些错误信息也当成”对的”学进去了。

  2. 知识过时了:AI的知识是有截止日期的。比如它学的资料截止到2023年12月,那2024年发生的事情它就不知道。但它又不能直说”我不知道”,它会根据自己的理解”猜一个”。

  3. 注意力机制有问题:AI处理一段很长的话时,对中间部分的内容往往记得没那么清楚。就像你看一本很长的书,看到第500页的时候,前100页讲啥你可能就有点模糊了。AI也是这样。

  4. 概率生成的锅:AI说每个字的时候,其实是在做概率选择。它选的是”在这个语境下,最可能出现的那个字”,而不是”最正确的那个字”。就像你问AI”天是蓝色的吗?“,它可能回答”是的,天是蓝色的”——这不是因为它查了资料,而是因为”天是蓝色的”这个说法在它的训练数据里出现概率很高。

2.3 怎么检测幻觉?

科学家们想了很多办法来检测AI是不是在瞎编:

方法一:自我检验(Self-Check)

让AI自己检查自己的回答。比如AI说了一句话,你让它自己想想”这句话有没有问题”。

# 伪代码演示
用户问题 = "爱因斯坦出生于哪一年?"
AI回答 = "爱因斯坦出生于1879年3月14日"
 
# 让AI自己检验
检验问题 = f"请检查以下回答是否正确:\n问题:{用户问题}\n回答:{AI回答}"
AI的检验结果 = 让AI回答(检验问题)
 
if "不确定" in AI的检验结果:
    print("AI自己也不太确定,可能有幻觉")
else:
    print("AI觉得自己说对了")

这种方法简单但有效,不过有时候AI会”自信地错”——它自己判断自己没错,但实际上错了。

方法二:外部知识验证

就是让AI的回答和外部知识库对对账。比如你问AI一个历史问题,它回答了,然后你让AI去查资料验证一下自己的回答。

这个方法更可靠,但问题是:你怎么保证外部知识库本身是对的呢?

方法三:不确定性量化

说白了就是让AI表达”我有多确定这件事”。AI回答的时候,同时给出一个”置信度”——比如90%把握说的是对的。

但现实很残酷:AI经常”自信地错”,就是它觉得自己很有把握,实际上错了。所以这个方法也不是万能的。

2.4 怎么缓解幻觉?

虽然不能100%消除幻觉,但有很多方法可以缓解:

方法一:RAG(检索增强生成)

这个方法很常用。就是让AI在回答之前,先去”查资料”,然后根据查到的资料来回答,而不是光靠自己”编”。

举个例子:

  • 普通模式:用户问”秦始皇的父亲是谁?“,AI直接回答
  • RAG模式:AI先查资料,查到”秦始皇的父亲是秦庄襄王”,然后再回答

RAG的效果很好,但也有自己的问题:检索可能找到错误的信息,或者找到的信息和问题是”相关但不对”的那种。

方法二:思维链验证(Chain-of-Verification)

这个方法就是让AI”多想几步”。比如:

  1. 先回答一个问题
  2. 然后再想想”我的回答有什么问题?”
  3. 接着针对问题去验证
  4. 最后给出经过验证的回答

就像考试的时候,你写完答案再检查一遍。

方法三:多层防御(组合拳)

最好的方法其实是”打组合拳”:RAG + 思维链 + 自我检验 + 置信度检测 + 规则过滤。

有研究表明,用上这整套组合拳,幻觉率可以降低96%。虽然不是100%,但已经非常好了。

一个必须知道的道理

幻觉不能完全消除,因为”创造性”和”可能出错”是一对双胞胎。你让AI能自由发挥,它就可能发挥过头;你要它100%准确,它就变得死板不敢创新。


三、上下文窗口限制:为什么AI”记性”不好?

3.1 上下文窗口是什么?

上下文窗口,你可以理解为AI的”工作记忆”——就是它同时能处理多少文字。

打个比方:人一次性看一篇文章,能记住多少内容?大多数人看个几千字还行,但要是突然让你一次性看完一本10万字的书,你肯定记不住细节。

AI也一样。虽然现在很多模型都说能处理100万字,但这里有个很大的问题:

能处理 ≠ 能记住 ≠ 能用好

就像你把10万字的文章塞进AI的”脑子”里,它虽然”看了”,但不一定能”用好”。

3.2 “迷失在中间”问题

这是上下文限制里最坑的问题之一。

科学家做了个实验:在10万字的文章里,偷偷塞入一句关键信息,然后问AI这句话在哪。发现:

  • 开头放:AI找到的概率92%
  • 结尾放:AI找到的概率94%
  • 中间放:AI找到的概率只有61%

这个现象叫做”Lost in Middle”——信息放在中间,AI容易”看不见”。

这是为啥呢?

你想啊,AI处理文字的时候,对开头和结尾的”印象”会特别深,但对中间的内容,注意力就分散了。就像你看一场很长的会议纪要,开头和结尾你记得清,中间部分经常是”走神了”。

3.3 为什么上下文越长越容易出问题?

原因主要有几个:

第一:注意力被稀释了

AI处理每个字的时候,需要考虑它和所有其他字的关系。如果只有100个字,那就是100×100=1万个关系;如果有10万个字,那就是10万×10万=100亿个关系。注意力被分散到太多地方了,每个字分到的关注就少了。

第二:位置编码的问题

AI给每个字分配了一个”位置编号”,这样它才能知道哪个字在前、哪个在后。但这个位置编号是有极限的——超过一定长度,有些位置的编号就”分不清”了。就像你给100个人编号,你能分清1号到100号;但给你1000个人,编号901和902你可能就容易搞混了。

第三:记忆容量有限

虽然AI是计算机,但它的”工作记忆”也是有限的。当上下文太长时,早期的信息会被后来的信息”冲淡”。

3.4 怎么解决?

策略一:分段处理

不是把一整本书塞进去,而是一段一段喂给它。比如先把前100页给它,问它理解了啥;再把101-200页给它,接着问。

就像你看一本很厚的书,得分好几遍来看。

策略二:语义切片

不是按固定字数分,而是按”意思”分。比如一篇文章,每段讲一个完整的意思,就按段来分。

这样做的好处是,每一段都是”完整的”,不会把一句话拆成两半。

策略三:重要性抽检

就是先让AI判断一下,哪些内容是重要的,哪些是次要的。然后重点关注重要的内容。

这个方法适合那种”大部分内容是废话,关键信息只有一点点”的场景。比如从1万字里找出10个关键数据点。

策略四:把重要信息放两端

既然中间容易”看不到”,那就干脆把重要信息放开头或结尾。这不是AI的问题,是人类的策略问题。


四、推理成本:AI”想”一次要多少钱?

4.1 AI是怎么”想”的?

你跟AI对话的时候,它表面上是在”打字回答你”。但实际上,每打一个字,它都要”想一下”——这个”想”就是一次完整的计算。

而且这个”想”是串行的:必须先把第一个字想出来,才能想第二个;第二个想出来,才能想第三个。

这就导致一个严重的问题:回答越长,消耗的计算资源越多

你让AI写10个字,可能只要0.1秒; 你让AI写1000个字,可能要10秒; 你让AI写10000个字,可能要100秒。

而且这个增长不是线性的——因为每次”想”都要参考之前所有”想”过的内容,10万字和1万字比起来,后者的计算量是前者的10倍不止。

4.2 思维链的代价

你可能听说过”思维链提示”——就是让AI”先想想再答”。

这确实能提升AI的回答质量,但代价是什么?

答案是:token数量暴增

普通回答:

用户:北京人口多少?
AI:北京人口约2189万。

Token数:约50个

带思维链的回答:

用户:北京人口多少?
AI:让我想想...北京是中国的首都,我记得最新的人口普查显示...2023年北京市常住人口约为2189万人...这个数据应该是最新的。

Token数:约150个

一个简单问题,思维链版本多了3倍的token。复杂问题可能更多。

这就引出了一个两难的问题:

  • 让AI多想 → 答案质量更高 → 但成本也更高
  • 让AI少想 → 成本低 → 但答案可能出错

4.3 怎么降低推理成本?

方法一:投机解码(Speculative Decoding)

这个方法很巧妙。

核心思想是:让一个”小模型”先猜一段文字,然后让”大模型”来验证。

你可以理解为:让一个实习生先打个草稿,然后让专家来审阅。专家不需要一个字一个字写,只需要看看草稿对不对、哪里需要改。

这样大模型的计算量就大幅减少了——它只需要”验证”,而不是”创作”。

实验表明,这种方法可以让推理速度提升2-4倍,而且答案质量不会下降。

方法二:量化

就是减少数字的精度。

普通数字占32位(FP32),量化后只占16位(FP16),甚至8位(INT8)、4位(INT4)。

就像从”精确到小数点后10位”变成”精确到小数点后2位”——精度降低了,但内存和计算量也大幅减少了。

目前INT8量化用得最广,效果和速度的平衡最好。INT4量化更激进,适合在手机等设备上跑大模型。

方法三:蒸馏

就是”教出一个学生”。

大模型(老师)很厉害,但太慢了、太贵了。那就让大模型教一个小模型(学生),把大模型的”本事”尽量传给小的。

好的蒸馏模型,可以只有原模型十分之一的大小,但能达到原模型90%以上的效果。

方法四:优化架构

比如Flash Attention,就是一种更高效的注意力计算方式。

原理是:不再一次性计算所有字的注意力关系,而是分块处理。这样不需要把整个注意力矩阵都存下来,内存占用大幅减少。


五、多模态挑战:AI的”眼耳鼻舌”

5.1 什么是多模态?

普通AI只能处理文字。但多模态AI能同时处理图片、声音、视频等多种信息。

这就像人类有眼睛能看、耳朵能听、嘴巴能说。多模态AI就是想把AI也变成一个”全能选手”。

5.2 多模态为什么难?

难在”对齐”

比如一张图片里有只狗,配的文字是”一只狗在草地上跑”。图片里的像素和文字里的词语,怎么才能对应起来?

这个问题看似简单,实际上巨难。

“狗”在图片里可能是各种姿态、各种角度、各种大小,怎么让AI知道”这就是狗”?

难在”表达方式不同”

图片是像素,是连续的;文字是词语,是离散的。这两种东西怎么”对得上”?

就像中文的”红”和英文的”red”,虽然意思一样,但写法完全不一样。多模态AI要解决的就是类似的问题。

难在”信息密度不同”

一张高清图片可能有几百万个像素,但模型只能把它变成有限数量的”token”。

就像你给一个人看一幅画,只能让他记住有限个细节。你得决定:让他记住颜色还是形状?记住狗还是草地?

5.3 多模态幻觉更可怕

文字AI产生幻觉,你可能还能发现。但多模态AI产生幻觉,更难发现。

比如你给AI看一张图片,图片里是三只狗。AI说”图片里有五只狗”——这种错误如果不仔细看,根本发现不了。

或者反过来,图片里明明有五只狗,AI说”有三只狗”——你也可能没注意到。

这就是多模态幻觉的危险:它不只在一个维度上出错,而是在”图片理解”和”语言表达”两个维度上都可能出错,而且两种错误可能互相掩盖。


六、Agent系统:让AI”做事”有多难?

6.1 什么是AI Agent?

普通AI是”你问,它答”。Agent是”你给它一个目标,它自己想办法完成”。

比如:

  • 普通AI:你问”今天天气怎么样?” → 它回答天气
  • Agent:你说”帮我订明天去上海的机票” → 它自己去查航班、比价、下单

Agent不只是”说话”,它会”做事”。

6.2 Agent难在哪?

错误会累积

一个复杂的任务,Agent可能需要10步才能完成。如果每一步的正确率是95%,那10步下来:

0.95^10 ≈ 60%

也就是说,整个任务完成正确的概率只有60%,还有40%的概率会在某一步出错。

而且更可怕的是,错了第一步,后面的步骤可能都是在”错的基础上继续错”。

工具调用是个坑

Agent需要调用各种工具:搜索引擎、计算器、代码执行器、数据库…

但工具不是AI自己,它调用工具的时候,可能遇到:

  • 网络问题,调用失败
  • 参数传错了
  • 返回结果看不懂
  • 选错了工具

这些问题加在一起,Agent失败的概率就更高了。

自我纠错很难

人类做事做错了,自己能发现。但AI发现自己错了,是很难的。

它可能在一个错误的方向上越走越远,直到最后才发现”哦,原来从第3步就错了”。

6.3 安全问题

让AI”做事”还有一个大问题:它做坏事怎么办?

比如你说”帮我查一下竞争对手的情况”,Agent可能顺手把竞品的数据偷了。

或者你说”帮我优化一下代码”,Agent可能把你的代码库删了一半。

所以Agent系统必须有严格的安全边界:

  • 什么能做,什么不能做
  • 什么需要人工审批
  • 什么可以自动执行

七、评估基准失效:AI考试作弊了吗?

7.1 什么是评估基准?

就是AI的”考试题”。

科学家设计了一些标准题目,用来测试AI到底有多厉害。这些题目就是”评估基准”。

比如MMLU,就是一套涵盖57个学科的选择题,测试AI的综合能力。

7.2 基准为什么会”失效”?

第一:AI把题库背下来了

就像学生考试作弊一样,AI在训练的时候,可能不小心把”考试题”也学进去了。

这样它就不是”会做题”,而是”背过答案”。

第二:题目被做烂了

一套题目刚出来的时候,能区分出AI的水平。但用的人多了,题目被研究透了,AI厂商都能针对这些题目优化。

就像中考高考题,如果每年都出一模一样的,那学生只需要刷真题就能考高分,根本看不出真实水平。

第三:题目太简单了

有的基准,比如MMLU,顶级AI都能做到90%以上。90分和95分的差距,有多少是真实的能力差距,有多少只是”运气”?

当所有AI都能考95分以上的时候,这套题就已经分不出高下了。

研究发现:从2020年到2025年,AI在基准上达到90%分数的时间,从24个月缩短到了8个月。这个速度太快了,题目根本来不及更新。

7.3 怎么办?

方法一:动态题库

就是题目不断更新,不让AI”背答案”。

就像真正的考试,每次考试的题目都是新的。AI想考好,只能真学本事,不能靠背题。

方法二:考能力而不是考知识

比如不要考”爱因斯坦出生于哪一年”(知识题),而是考”如果你要写一篇关于爱因斯坦的传记,你打算怎么组织材料”(能力题)。

方法三:考过程而不是考结果

出一道数学题,不仅看答案对不对,还要看AI是怎么想的、推理过程合不合理。


八、这些挑战之间的关系

说了这么多,其实你会发现这些问题都不是独立的,它们互相影响:

训练数据有问题 → 导致幻觉
         ↓
    幻觉太多 → 需要外部知识验证
         ↓
    外部验证 → 需要长上下文处理
         ↓
    长上下文 → 计算成本上升
         ↓
    成本太高 → 只能用简化方案
         ↓
    简化方案 → 可能引入新问题

举个例子:

你想用AI帮你分析一本10万字的书。这件事涉及:

  • 上下文限制:10万字可能超出AI的处理能力
  • 幻觉问题:AI可能在总结的时候瞎编
  • 推理成本:处理这么多字可能要花很多钱
  • 评估问题:你怎么知道AI的总结对不对?

这些问题搅在一起,形成了一个复杂的”AI难题”。


九、总结:AI的边界在哪里?

说了这么多,最后我们来总结一下:

1. AI能干啥

  • 处理简单的问答任务——很强
  • 做中等复杂的推理——还不错
  • 处理超长文本——凑合,但容易出错

2. AI的硬伤

  • 会产生幻觉——不能100%相信它说的
  • 上下文有限制——长内容处理不好
  • 推理成本高——越想越贵
  • Agent系统——说起来容易做起来难

3. 这些问题的关系

这些问题不是孤立的,它们形成了一个相互影响的网络。解决一个问题可能带来新的问题。

4. 怎么办

  • 用AI但别迷信AI
  • 重要的任务要有人类把关
  • 组合使用多种技术来缓解问题
  • 理解AI的边界在哪里

最后一句话总结

AI就像一个非常聪明但不太靠谱的助手——它能帮你做很多事,但你得随时盯着它,别让它给你整出什么幺蛾子。


相关主题

如果你想深入了解某个具体问题,可以看看这些文章:


AI 人工智能 复杂性 技术挑战 幻觉 长上下文 推理成本 多模态 Agent 评估基准