📄 中文摘要
研究表明,经过微调的小型语言模型在大多数分类任务上超越了零-shot的GPT-4。LoRA Land研究测试了310个微调模型在31项任务中的表现,结果显示这些模型在约25项任务上超过了GPT-4,平均提升了10分。Predibase的微调指数研究也显示,在专业任务上,微调模型的表现提升了25%到50%。这些结果表明,尽管大型语言模型(LLM)如GPT-4备受关注,但小型语言模型(SLM)在特定应用场景中可能更具优势。Air Canada的聊天机器人甚至创造了退款政策,这显示了微调模型在实际应用中的潜力。