AI大模型赋能银行数据类报告撰写实践

2024-11-26

来源:BanTech智库

作者:中国工商银行软件开发中心广州用数赋智团队

 

现代企业中,数据类报告的制作一直占据大量的企业人力资源,从使用场景来看,大部分企业在营销成效收集、内部经营管理、账务科目统计等方面都需要安排专人专岗撰写数据类报告,用于展现企业业绩阶段概况,为管理者提供日常运营的决策支撑。对于现代企业而言,尤其是针对内设有不同机构或部门的中大型企业,由于企业内部各主体负责的业务领域不同,各主体数据报告的内容和形式就必然存在差异,因而企业内部无法套用一个模板完成不同业务领域的数据报告。

以银行业为例,银行涉及的业务种类本身就较为复杂,且国有大型银行按地区设立分支机构,机构树“枝繁叶茂”,数据类报告的内容和形式往往千变万化,许多报告都要安排专人专岗负责撰写或修改。在现如今的数字化时代,数据来源太广,冗余信息过多,要收集整理一篇数据详实的报告并不简单,因此,追求写报告的自动化和智能化,简化数据类报告的实现流程和步骤,能为企业节约十分可观的人力开销。

近两年,AI浪潮奔涌而来,利用AI大模型对文本理解和生成的天然优势来创新报告撰写流程与形式,非常自然地成为智能化应用的热门落地场景。本文将以银行内部撰写数据类报告的场景为例,介绍当前AI大模型在简化报告撰写流程方面的作用,展现现代企业内部经营管理AI赋能的新范式。 

 

一、银行数据报告的主要形式介绍

银行通常按不同业务线进行数据报告的制作,大型银行还会以地区分支机构为单位管理报告,不同地区报告格式和涉及的统计指标不完全相同。

以商户收单业务为例,最常见的两类数据报告形式如下:

 

1.管理类报告

该类报告面向管理人员,一般用于周期内指标数据的汇总统计,报告内列出数据同比、环比等变化趋势,便于管理人员直观掌握数据亮点。形式例如图1所示(实际数据已打码处理)。

图1 管理类报告示意

 

从图1样例可看到,该类报告有两个明显的特点,一是报告内列出的指标通常既包括某个业务线的总体概况,又包括近期某项重点业务目标的完成情况,各项指标常辅以同比、环比等数据支撑,从而使指标能直观反映出近期业务发展的情况;二是报告内文字占据篇幅较多,其主要目的是突出指标亮点,阐述业务价值,既便于管理人员短时间内获取高价值信息,又便于直接迁移报告内容至其它文档或宣传海报。

 

2.营销类报告

该类报告面向营销基层,一般用于展现银行营销经理、客户经理在某个时间区间段内的业务营销指标完成情况,报告内通常还会列出重点关注事项,为下一步营销计划提供参考和指导。形式例如图2所示(实际数据已打码处理)。

图2 营销类报告示意

 

从图2样例可看到,该类报告的特点是内容精简,不突出文字文本的描述,更偏重于对指标数据的直接展现,部分报告还会在每个章节下展现数据表格,列出对应指标需重点关注的明细记录。营销类报告内容主要用于展现统计周期内的营销完成情况,营销经理和客户经理依据报告指标,了解本人的营销任务达成率,并针对报告内的重点关注提示内容决策下一步营销计划。 

 

二、大模型在文档生成场景的主要应用形式

自然语言生成(NLG)作为NLP的一个重要分支,在很多场景都得到广泛应用,比如个人电脑和智能手机的输入法中对下一个字的预测,以及长篇新闻的重点摘要等,都有NLG技术的身影,其本质是通过已有句段计算下一个文字出现的概率。相较于传统NLG技术使用的RNN、LSTM等算法,近两年基于Transformer架构的大模型在文本理解和生成领域优势明显,通过提示词工程和微调专业大模型,已经支持一句话快速生成一篇可用的文档或报告。

具体来说,现有大模型生成文档的应用场景主要采用“文本到文本”、“图片到文本”、“声音到文本”这三种形式,其中又以“文本到文本”应用的最广泛,涉及技术也比较成熟。“文本到文本”场景目前主要包括文本摘要(Document Summarization)、句子压缩(Sentence Compression)和文本复述(Paraphrase Generation)这三类:

文本摘要通过模型对文档或段落的分析,提取其中的要点信息,输出精炼的文段摘要概述。目前业界主流的文本摘要思路有两种:一种是直接对文段内容做拆分并对每个文段赋予一定权重,再在摘要整合的阶段选取高权重的文段直接整合形成摘要;另一种是对待分析文段进行语法和语义的解析,再由生成式模型生成新的摘要字句。这两种方法目前都有较多应用,且效果已获得市场的广泛认可。

句子压缩实际是文本摘要的一个衍生技术,只是聚焦点从长篇幅的文段变成短篇幅的单个句子。无论是书面文字还是日常口语,一句话中总会包括一些描述性的助词和修饰语,句子压缩就是在争取不改变句子原意的基础上,尽可能压缩句子长度,目前主流的做法还是对无意义字词的检索与直接删除。由于目前大语言模型在语义的理解能力上已经颇为突出,因此科研人员更多关注语义层面的字句替换,句子压缩目前对字词的简单删除相对就显得不那么精准了。

文本复述则是通过对给定的一段文本直接改写,在表达意思基本相同的前提下,对文本换一种表述,常应用在文本美化、信息精准查询、机器翻译等场景。由于中文本身的复杂性,同个词语在不同语境下表述的意思可能大相径庭,因此中文文本的复述一般需在大模型的基础上人为添加一些映射字典以保证准确率。对于中文语境下的文本复述技术,目前还在不断发展中。 

 

三、应用“文本到文本”生成数据报告的实践

从上文第一章节可以看出,银行数据报告的特点是以数据为中心,且要兼顾文本的描述作用,这其中的难点在于大模型生成文本是不确定的,而数据指标又必须保证准确无误。从大模型的原理很自然地想到,要想做到数据指标准确,其必然不是通过大模型生成或填充到文本中的,因为大模型是个概率模型,输出的内容具有一定的随机性。一个可行的方案是利用大模型在文本生成领域的优势,结合银行自身数据加工体系的稳定性,从数据库表中提取指标数据到文段的指定位置,实现数据报告的自动化撰写。

在具体实践中,银行业务人员和科技人员根据自身角色定位需分别完成不同工作,如图3所示。

图3 具体实践中银行业务人员和科技人员的定位及分工示意

 

业务人员需先确定好报告的标题、大纲、正文及图表等。标题和大纲是需要固化在模板中的,每次报告生成时直接读取固定内容不做任何修改;正文的部分通过业务配置大模型提示词,由大模型生成文本描述,对于一些专业性较强的报告,考虑到大模型生成的文本可能无法满足业务需求,可以在设计架构上增加读取相似报告原文的环节,促使大模型“模仿”历史已有的报告文档,完成新报告的撰写;图表的部分要结合数据分析的大模型,通过自然语言生成数据库查询语句进行查数,再对返回的数据转html格式在前端页面进行展现。

科技人员在收到业务提交的报告基本模板后,需对模板的数据指标做一步转换,具体来说,每个指标所在的位置均需用自定义的一个特殊标识符进行标识,标识的作用一是告知后台程序该处有一个需补充的指标,二是明确该位置上的指标对应的是数据表中的哪一个字段。在程序运行过程中,后端服务读取标识符,通过映射对照关系转换为数据库查询脚本,并将查数后的结果填充回标识符处,完成模板中指标数据的自动化更新。

大模型生成文本加标识符数据填充的方式,实际上既利用了大模型在文本理解和生成方面的巨大优势,又避免了数据指标填充需求下大模型输出内容有随机性的不足。再进一步考虑,对于前端页面生成的数据报告,还可开放业务人员自主编辑和大模型文本复述的功能,实现灵活的报告完成形式,这对于最终的数据报告定稿是很有必要的。 

 

四、大模型生成数据报告的思考

就目前大模型的快速发展趋势而言,无论是在场景的广度还是深度上,大模型带来的便利性一定是不容质疑的。但同时也应看到,在生成数据报告的场景中,大模型本身的特点决定了单单只采用大模型生成一篇精准的报告是不可行的,尤其是针对银行这类对数据准确性要求高的行业,必须通过一些辅助手段“消灭”大模型的不确定性,比如本文提倡的先做底层数据指标,再根据文档模板的指标标签名映射填充数据的思路,另外,也可考虑先确定好报告内涉及到的指标,由大模型结合环比同比的历史数据生成对每个指标的句子描述,再通过专用语言模型对所有句子按数据的亮点或重要性进行排序,继而拼接句子形成一篇完整的数据报告,这种做法能保证指标的精确性,且生成的报告易突出数据亮点,适合用于对报告的章节大纲无固定模板要求的场景。无论是哪种设计思路,在实际应用中,架构设计上越精简,数据报告类的产品推广就会越顺利。

总的来说,数据报告的自动化在很大程度上能节省企业人力资源开销,而如何用低成本实现企业内部的高效率运转,是各企业一直都在不断思考的问题。

-END-

前期精彩原创推荐(点击图片进入阅读):

这是科技创新最好的时代,这是属于我们每个人最好的时代,关注“BanTech智库”,专注银行科技发展,探索无界金融生态!

 

 

收藏

提示

成功加入收藏夹!
收藏夹内共有 0 篇文章, 0 个产品

提示

你已收藏了该文章!
  • 回到顶部
  • 88888888
  • QQ客服
  • 微信二维码