现任汇丰实验室人工智能研发工程师,拥有多年人工智能与机器学习领域的一线研发经验。目前专注于大语言模型在银行业务中的应用实践,聚焦模型能力评估、提示词工程及自动化优化流程的系统建设,推动大模型技术在金融行业的安全、可控、高效落地。
从提示词到评估指标:构建银行场景下的大模型应用评价体系
随着银行内部对大语言模型(LLM)应用的持续深入,从邮件助手到合规审核、从营销文案生成到流程自动化,大模型已逐步嵌入业务流程核心。然而,如何科学评估大模型的能力、判断提示词的有效性,以及建立稳定、可复用的提示词迭代机制,成为制约大模型应用效果的关键瓶颈。本次分享将围绕大模型在银行业务场景中的评估体系展开。
演讲提纲:
1. 背景介绍
2. 提示词与模型能力的评估
3. 构建企业内部数据飞轮
4. 实践效果与反思
听众收益:
- 了解大模型在银行业务场景中提示词工程与模型评估的关键难点
- 掌握测试数据构建、指标设计、评估流程标准化的核心方法
- 获取一套适用于金融场景的大模型评估与提示词优化的落地框架
- 借鉴实际项目经验,避免常见陷阱,提升大模型应用效果与效率
