AI基础 | 魔法使的后花园

AI学习路线

python速通-pytorch-LLM-Agent/RAG-Post Training

已知输入、输出。
ML=从数据中学习出函数f(x)=y，并最终完成：
监督学习：分类问题（输出离散的分类值）/回归问题（输出函数值）
无监督学习：聚类问题。

学习准则：让模型知道学的好不好——损失函数来衡量（预测值和真实值的差），优化来降低损失函数
期望风险未知，经验风险通过训练来得出，要降低风险到最小，最优化问题——梯度下降法（对参数求偏导），改变模型参数，使得损失函数更小。

训练集：梯度下降只在训练集上面进行参数的优化。
验证集：分出一小部分数据，用来优化超参数（调参）防止过拟合
测试集：最终评估模型性能（相当于真题，只能考一次）

参数是模型学出来的，超参数是人为给的，学习率是超参数

过拟合（overfitting）：经验风险最小化原则会导致模型在训练集上错误率很低但在测试集上错误率很高，往往是由于训练数据少和噪声等原因造成的。
避免过拟合的方法：正则化、交叉验证、减少特征数量。

泛化错误：期望风险（真实）和经验风险（训练集）不相等

偏差—方差分解：

泛化误差：真实情况下模型的误差。=【偏差的平方+方差+噪声】

正则化：所有损害优化的方法都是正则化。降低模型复杂度，增加优化约束，干扰优化过程，防止过拟合。