AI学习路线

python速通-pytorch-LLM-Agent/RAG-Post Training

C转Python语法速通

ML基本概念

已知输入、输出。
ML=从数据中学习出函数f(x)=y,并最终完成:
监督学习:分类问题(输出离散的分类值)/回归问题(输出函数值)
无监督学习:聚类问题。

学习准则:让模型知道学的好不好——损失函数来衡量(预测值和真实值的差),优化来降低损失函数
期望风险未知,经验风险通过训练来得出,要降低风险到最小,最优化问题——梯度下降法(对参数求偏导),改变模型参数,使得损失函数更小。

类型 含义 更新方式
批量梯度下降 (BGD) 使用全部训练样本计算梯度 每轮迭代用所有样本算一次梯度,更新一次参数
随机梯度下降 (SGD) 使用单个样本计算梯度 每处理一个样本就更新一次参数
小批量梯度下降 (Mini-batch GD) 使用一小批样本(如32、64个) 每处理一个batch更新一次参数

训练集:梯度下降只在训练集上面进行参数的优化。
验证集:分出一小部分数据,用来优化超参数(调参)防止过拟合
测试集:最终评估模型性能(相当于真题,只能考一次)

参数是模型学出来的,超参数是人为给的,学习率是超参数

过拟合(overfitting):经验风险最小化原则会导致模型在训练集上错误率很低但在测试集上错误率很高,往往是由于训练数据少和噪声等原因造成的。
避免过拟合的方法:正则化、交叉验证、减少特征数量。

泛化错误:期望风险(真实)和经验风险(训练集)不相等

偏差—方差分解

  • 偏差:模型预测的平均值和真实值之间的差距,偏差高可能欠拟合;
  • 方差:模型对于不同训练集预测结果的变化程度,方差高说明模型对微小的数据变化比较敏感,可能过拟合。
  • 噪声:数据本身的随机误差引起,无法避免

泛化误差:真实情况下模型的误差。=【偏差的平方+方差+噪声】

正则化:所有损害优化的方法都是正则化。降低模型复杂度,增加优化约束,干扰优化过程,防止过拟合

Attention is all you need