大模型本质是预测下一个词的语言模型,通过海量文本训练和Transformer结构实现上下文理解与模式匹配,普通人可通过提示工程和微调参与应用。
大模型不是黑箱,普通人也能看懂它怎么“思考”。关键不是背公式,而是理解它怎么用文字预测下一个字、怎么记住上下文、怎么通过海量文本学会“像人一样说话”。
LLM(大语言模型)最底层的任务非常简单:给定一串文字,预测接下来最可能出现的那个词。比如输入“今天天气真”,模型会算出“好”“热”“冷”“糟糕”等词各自的概率,选最高那个——这叫“自回归生成”。它不理解“天气”,也不懂“好”,只是在训练时
见过太多“今天天气真好”这样的组合,统计上发现“好”在这里出现最多。
这种能力来自两个核心:一是超大规模文本训练(比如读完整个维基百科+数千万本书),二是Transformer结构——一种擅长捕捉词语之间远距离关系的神经网络设计。你不需要会写Attention代码,只要知道:它让模型能意识到,“虽然‘苹果’和‘公司’隔了10个词,但它们很可能有关联”。
模型没有记忆、没有意识,但它有“上下文窗口”(比如4K或128K个词)。在这个范围内,它能把你的问题、之前的对话、甚至你贴进去的整篇PDF,都当作线索来重新计算“下一个词”该是什么。
立即学习“Python免费学习笔记(深入)”;
这不是推理,是高级联想:
所以它强在泛化,弱在验证——答得流利,不一定对。
不用从头训练大模型,你也能让它更听你的话:
这两件事都不需要数学博士,但需要耐心测试、观察模型怎么“误解”你——那正是理解它逻辑的突破口。
装好Python后,三行代码就能跑起一个本地小模型:
from transformers import pipeline先看到它动起来,再换模型、改输入、对比输出差异。原理会在你一次次“咦?它怎么这样答?”的疑问里自然浮现。