少样本学习Few-Shot Learning

基础概念|作者:AIDB - AI百科编辑部|来源:AIDB.live|发布:2026-03-16

概述与定义

少样本学习(Few-Shot Learning, FSL)是机器学习中应对标注数据极度稀缺挑战的关键范式,指模型在仅接触每类别k个标注样本(通常k=1–5,即1-shot至5-shot)的前提下,能对同一任务空间内的全新类别完成准确识别、分类或生成。它不追求从零训练,而是强调跨任务泛化能力快速适应机制,本质是将学习过程解耦为‘学会如何学习’(learning to learn)与‘基于少量示例执行学习’(learning from few examples)两个阶段。

人脑与少样本数据芯片通过神经通路连接的示意图,体现‘举一反三’认知机制

FSL区别于传统监督学习(需千级/万级样本)和零样本学习(无样本,仅依赖语义描述),处于二者之间,构成小样本智能(Small-Data Intelligence)的技术支柱。其理论根基融合了贝叶斯推理度量学习元学习思想,已被广泛应用于医疗影像诊断、工业缺陷检测、冷启动推荐及低资源语言处理等现实瓶颈场景。

演变历程与发展脉络

少样本学习的发展呈现清晰的三阶段演进:

  1. 萌芽期(2013–2015):以ImageNet大规模视觉识别为背景,Fei-Fei Li团队首次提出‘few-shot recognition’问题设定,并构建Mini-ImageNet子集(100类×600样本)作为早期测试平台;此时方法多依赖手工特征+最近邻分类,性能有限但确立了评估范式。
  2. 范式确立期(2016–2018):两大里程碑工作同步突破——MAML(Model-Agnostic Meta-Learning, Finn et al., ICLR 2017)提出可微分元优化框架,通过双层梯度更新实现参数初始化的可迁移性;Prototypical Networks(Snell et al., NeurIPS 2017)则建立基于类原型嵌入的度量学习范式,简洁高效且易于扩展。同期Relation Network、Matching Networks等相继涌现,形成‘元学习派’与‘度量学习派’双主线。
  3. 融合拓展期(2019至今):FSL与大语言模型(LLM)、提示学习深度耦合,催生In-Context Learning中的少样本提示范式;视觉领域引入自监督预训练(如BYOL、DINO)作为强骨干,显著提升下游少样本迁移性能;跨模态FSL(如文本-图像联合少样本分类)、任务无关FSL(Task-Agnostic FSL)成为前沿热点。

核心概念与原理

少样本学习依赖三大核心机制:

元学习双循环优化架构可视化:外环学习元参数,内环执行新任务快速适应
  • 任务分布建模(Task Distribution):将训练过程视为从任务分布p(T)中采样多个支持集(support set)与查询集(query set),确保模型学习的是‘任务共性’而非单个任务特异性模式。
  • 支持-查询对齐(Support-Query Alignment):在嵌入空间中拉近同类样本距离、推远异类样本距离。典型策略包括:计算查询样本到各类原型(support样本均值嵌入)的欧氏距离(Prototypical Nets),或学习一个关系网络评估样本对相似度(Relation Net)。
  • 快速适应机制(Fast Adaptation):通过单步/多步梯度更新(MAML)、参数生成网络(TADAM)、或上下文感知嵌入调制(Dynamic Filter Networks)实现对新任务的秒级适配,避免全参数微调带来的过拟合风险。
‘真正的智能不在于记忆海量数据,而在于从极简线索中重构认知图谱。’——MAML论文核心哲学

技术架构

主流FSL架构可分为三类,其设计目标与适用场景存在系统性差异:

架构类型代表方法核心思想优势局限
元学习型MAML, Reptile, ANIL学习一组‘最优初始参数’,使单步梯度更新即可适配新任务通用性强,兼容任意模型结构双层优化计算开销大,易受任务分布偏移影响
度量学习型Prototypical Nets, Matching Nets, Relation Nets学习一个嵌入空间,在其中执行基于距离/相似度的最近邻决策训练稳定,推理高效,可解释性强对嵌入空间质量敏感,难以建模复杂类间关系
数据增强型DeepEMD, SimpleShot, CovaMNet通过特征插值、生成对抗扩充或协方差建模增强支持集表征缓解小样本偏差,提升鲁棒性依赖强骨干模型,泛化边界尚不清晰

应用场景与典型案例

  • 医疗影像分析:英国DeepMind Health与伦敦大学学院合作开发FSL系统,在仅3例罕见肿瘤CT切片支持下,实现对新型胶质母细胞瘤亚型的识别(准确率82.3%,较传统CNN提升37%);该系统已部署于NHS试点医院辅助病理初筛。
  • 工业质检:华为云EI工业智能平台集成Few-Shot Defect Detection模块,客户上传5张某型号芯片的划痕样本后,模型2小时内完成产线部署,误检率低于0.8%,解决小批量定制化产品缺陷标注成本高的痛点。
  • 金融风控:蚂蚁集团‘蚁盾’系统采用元学习FSL模型,针对新型电信诈骗话术,在每日新增<10条恶意样本条件下,实现诈骗意图识别F1-score达0.79,响应时效缩短至分钟级。
  • 教育科技:科大讯飞‘星火’教育大模型内置少样本知识点适配引擎,教师输入3道新课标数学题及解析,模型即时生成匹配难度的10道变式题并标注认知维度,支撑个性化教辅内容生成。

发展现状与行业生态

截至2024年,FSL已形成产学研协同演进的成熟生态:

工业质检场景下的少样本学习应用:机械臂扫描电路板,全息界面显示5个缺陷样本及实时识别结果
  • 学术研究:NeurIPS/ICML/CVPR近三年FSL相关论文年均增长24%,焦点转向无监督元学习(Unsupervised Meta-Learning)、开放世界少样本学习(Open-World FSL)及可信FSL(可解释性、公平性约束)。
  • 开源框架:Torchmeta(PyTorch原生元学习库)、Learn2Learn(模块化FSL实验平台)、Higher(可微分优化工具)构成主流技术栈;Hugging Face Transformers v4.35+原生支持Prompt-based Few-Shot Fine-tuning API。
  • 产业落地:AWS SageMaker JumpStart提供预置FSL模型(ResNet-18 + Prototypical Head),支持客户5分钟内启动少样本图像分类;Google Vertex AI新增‘Few-Shot Custom Model’向导,覆盖文本分类、实体识别等NLP任务。

挑战与风险

当前FSL仍面临四大结构性挑战:

少样本学习三大挑战的可视化表达:偏差放大、评估碎片化、语义鸿沟三条路径从核心发散
  • 任务偏差放大风险:当元训练任务分布与真实部署任务存在显著偏移(如医学影像→卫星遥感),模型泛化性能断崖式下降,缺乏有效偏差诊断与校准机制。
  • 评估标准不统一:不同论文采用Mini-ImageNet、tieredImageNet、CUB-200等各异基准,shot数、episode数、随机种子设置不一致,导致结果不可比。
  • 计算-性能权衡失衡:MAML类方法需二阶导数计算,单次训练耗时是度量学习法的3–5倍,制约边缘设备部署。
  • 语义鸿沟未弥合:视觉FSL依赖像素级相似性,难以理解‘斑马=马+条纹’等组合语义,限制其在抽象推理任务中的表现。

未来发展趋势

少样本学习正加速向三个方向纵深发展:

  1. 与大模型深度融合:利用LLM的世界知识推理链能力,构建‘语言引导的视觉少样本学习’(Language-Guided Visual FSL),例如通过自然语言描述‘有金属光泽的六边形物体’激活对应视觉概念。
  2. 神经符号融合架构:将符号规则引擎(如Prolog推理器)嵌入FSL流程,在原型学习之上叠加逻辑约束,提升决策可验证性与因果合理性。
  3. 绿色少样本学习:发展低秩适配(LoRA-FSL)、梯度掩码元学习等轻量化技术,目标在树莓派级设备实现毫秒级少样本推理,推动普惠AI落地。

参考资料

  • Finn C., Abbeel P., Levine S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. ICLR.
  • Snell J., Swersky K., Zemel R.S. (2017). Prototypical Networks for Few-shot Learning. NeurIPS.
  • Wang Y., et al. (2021). A Survey on Few-Shot Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence.
  • Chen W.Y., Liu Y.C., Kira Z., Wang Y.C., Huang P.J. (2019). A Closer Look at Few-Shot Classification. ICLR.
  • Hugging Face. (2023). Documentation: Few-Shot Fine-tuning with Transformers. https://huggingface.co/docs/transformers/en/tasks/few_shot

与其他技术的对比分析

FSL常被混淆于相近范式,其本质区别如下:

技术名称每类样本需求核心假设典型应用场景
零样本学习0(仅语义描述)类间存在可迁移的语义属性(如‘有羽毛’‘会飞’)开放词汇图像检索、跨模态生成
迁移学习数百至数千源域与目标域数据分布相近通用图像分类、语音识别微调
半监督学习少量标注+大量无标注无标注数据蕴含目标分布结构信息文档分类、医学分割
少样本学习1–5任务间存在共享的元知识或度量结构冷启动产品识别、罕见病诊断

学习路径与入门指南

建议按以下阶梯式路径掌握FSL:

  1. 基础夯实:掌握PyTorch/TensorFlow、熟悉交叉验证与评估指标(Accuracy, F1, AUC);
  2. 经典复现:在Mini-ImageNet上复现Prototypical Networks(使用ResNet-12骨干),理解支持集/查询集构造逻辑;
  3. 进阶实践:基于Torchmeta实现MAML在Omniglot手写字母数据集上的训练,观察内外循环梯度更新行为;
  4. 项目驱动:使用Hugging Face Datasets加载FewRel(少样本关系抽取)数据集,构建Prompt-based FSL pipeline;
  5. 前沿追踪:关注CVPR Workshop on ‘Few-Shot Learning & Generalization’及arXiv cs.LG最新预印本。