设为首页 | 加入收藏
主页 > 2019管家管婆24特马王 >

【交易技术前沿】证券行业FINTECH建设基础环节的短板 —数据质量

2019-09-17 06:55   来源:未知   作者:admin

  原标题:【交易技术前沿】证券行业FINTECH建设基础环节的短板 —数据质量控制

  摘 要:证券公司在FINTECH和APP上的投入已较大,并产生了许多成果,为投资者提供了更多样化的服务,但在实际建设过程中巨大的投入和产出并不完全成正比,新应用的效果有时不尽理想。金融科技涵盖的高科技领域和业务范围很广,数据和大数据平台是创新的通用基础,在系统建设过程中证券公司往往更关注技术平台建设和终端应用开发之类可见成果,对于实际业务运营的血液——数据关注不足,或认为数据本来就应该是准备好的,或以为相对数据模型而言数据本身并没有那么重要。本文针对系统建设中存在的数据质量问题,从原因、表现到需要采取的措施,论述了数据质量控制的必要性,并介绍了相关国际标准、银行业采用的方案等。

  在证券市场近两年持续低迷和券商经纪业务下滑的背景下,证券公司为了竞争和发展的需要,不断从国外、行业外取经,希望能更好的培育资本市场和服务好投资者。从互联网金融到FINTECH,不断转换的风口也反应了金融行业不断从被逼到主动的改变,希望在新时代能战胜新的挑战者而赢得市场。A(AI-人工智能)B(Block Chain-区块链)C(Cloud-云计算)D(Big Data-大数据)代表了现今FINTECH最热的热点,其已经产生的价值和潜在更大的价值使人心动。

  随着2017年券商年报的披露,各家券商均将金融科技作为了公司发展的核心竞争力。华泰证券在年报董事长致辞中提到“10多年来,我们持续饱和投入信息技术,致力于塑造基于自主研发的金融科技核心竞争力。2017 年,我们的信息技术人员占员工总数已经达到 6.61%”。广发证券在年报核心竞争力分析中提到业内领先的科技金融模式,“持续加大云计算、大数据、人工智能等科技金融的投入,通过自行开发、合作开发、委托开发等方式对信息系统管理平台的费用及硬件总投入为 55,399.68 万元。”。国信证券在年报公司未来发展的展望中提到“2018年,各家券商将普遍加大金融科技领域投入,深入挖掘数据价值,能否为智能投顾、大数据财富管理、融资授信、大数据风控等提供技术支持,将成为体现各家公司发展能力的重要指标。”。

  FINTECH技术和应用领域丰富多样,其底层技术基础和价值根源于大数据技术和海量数据,大数据也是AI技术应用的重要土壤。数据价值早已为券商所认识,且因监管和合规要求,涉及客户信息和交易行为等数据是严格控制不允许外泄的。许多券商早已布局相关IT基础设施,投入人力物力建设好了数据中心为公司管理和业务开展服务,同时结合自研和引入第三方开发商,积极推进智能投顾等创新服务模式,向“以用户为中心”方向转变。

  金融科技的无限可能使人着迷,但这一切的基础依赖于数据和数据价值的挖掘,否则只会搭建出空中楼阁,最终买椟还珠。

  数据被视为劳动力、土地、资本之外新的生产要素,是未来的生产要素,但数据成为价值要素前还有很长的路要走。

  银行业FINTECH技术和应用在金融行业中相对领先,借鉴其经历的问题和应对的方案,可以作为证券行业发展大数据技术的参考。援引近期中国银监会有关部门负责人就《银行业金融机构数据治理指引(征求意见稿)》答记者问:“近年来,银行业金融机构在业务快速发展过程中,积累了客户数据、交易数据、外部数据等海量数据。数据已经成为银行的重要资产和核心竞争力,充分发挥数据价值,南充一中:专家千里来励志用数据驱动银行发展,提高银行经营质效,具有重要意义。高质量数据是提升银行经营管理效率、提升监管效能的重要基础。当前,银行业金融机构数据质量存在较多问题,主要表现为数据准确性和完整性欠缺,时效性和适应性不足。从目前情况看,数据质量问题一方面阻碍银行业金融机构向高质量方向发展,另一方面影响了监管效率,数据治理亟待加强。”

  从各类经营管理报表到BI(Business Intelligence),证券公司对数据的重视和分析运用由来已久,对业务运营起到了很大的支撑作用。金融行业是信息化较早的行业,天然和数据关联紧密,数据量和数据质量相对许多传统行业而言要好很多,也因此被视为AI应用突破的潜在重点领域。但是随着FINTECH技术的发展和业务服务模式的变化,从传统同质化产品到“千人千面”个性化服务需求,原本可用的数据在新场景中会发现不够全面也不够准确,原本沉睡于存储设备的大量历史数据需要重新挖掘价值。

  一个典型例子:投资者的资产和盈亏情况。在周期性的运营统计报表中资产和盈亏统计是很常规的科目,对于经营管理者而言关注的是整体性的资产水平和盈亏分布,单一客户的资金、市值、盈亏额和盈亏率计算准确与否关系不大,一个客户的偏差在一百万客户数据平均下不会对统计结果造成大的影响。但是对于“千人千面”的个性化服务而言,这是刻画客户画像的一个重要维度,直接体现单一客户投资行为的重要特征,而且影响后继评估该客户投资能力、风控水平的相关指标如夏普比率(Sharpe Ratio)、最大回撤等。一旦计算不准,就会导致对该客户的画像和定位南辕北辙,进一步的个性化推荐模型也会因数据偏差而失效,最终无法实现有效的个性化服务、精准营销和适当性管理。

  目前证券行业对于账户资产数据准确性缺乏科学的、统一的判断标准,大多数券商在自行分析和测试中多采用人工抽样方式,检查几个账号和包含特殊业务的账号,查看数据是否有明显不合理的地方。明显不合理的判断标准往往是账户或个股日收益率超过10%太多,或者有人曾反馈问题的账号中已知问题。虽然缺乏准确率验证标准,但结合人工检查加日收益率10%的异常判断标准,经过两次测试数据量有1万有效户以上、持续周期为1年以上数据清洗,可以给出一个有参考价值的异常率指标:

  当资产计算仅按常规业务规则处理时,即多数券商现有APP展现的水平,对于有效户即近期有持仓和交易记录的账号,日收益率超过10%的账号占比约16%,记录数占比约0.373%。

  如果资产计算增加了对应交易系统特殊业务规则处理逻辑校正后,如新股申购、港股T+N交收等,对于有效户中日收益率超过10%的账号占比下降到约6.4%,记录数占比约0.113%。

  通过人工深度校正资产数据后,对于有效户中日收益率超过10%的账号占比最终可以降低到约4.7%,记录数占比约0.051%。存在少量10%以上的日收益率记录经人工检查判断为正常情况,如新股上市、港股交易、资金转出后股息延迟到账等特殊情况。

  当资产计算仅按常规业务规则处理时,即多数券商现有APP展现的水平,对于有效户即近期有持仓和交易记录的账号,日收益率超过10%的账号占比约16%,记录数占比约0.373%。

  如果资产计算增加了对应交易系统特殊业务规则处理逻辑校正后,如新股申购、港股T+N交收等,对于有效户中日收益率超过10%的账号占比下降到约6.4%,记录数占比约0.113%。

  通过人工深度校正资产数据后,对于有效户中日收益率超过10%的账号占比最终可以降低到约4.7%,记录数占比约0.051%。存在少量10%以上的日收益率记录经人工检查判断为正常情况,如新股上市、港股交易、资金转出后股息延迟到账等特殊情况。

  可见仅就资产这一类技术指标,如果不加思考的直接应用原始数据,就会有超过10%以上的客户数据出现偏差,相应客户画像标签也就无法真实刻画客户特征,而且出问题的往往是高价值客户,其资产高、交易频繁、业务种类多。秦腔戏曲名段在哪下载

  为了满足从经营管理到KYC、个性化推荐等各类或传统或创新业务需求,券商数据中心汇集了各种数据,既包括由业务系统产生的数据如客户信息、交易数据、客服信息等大量敏感信息,也有由第三方机构提供如行情、资讯等专业信息,还有各部门基于各种目的而主动收集的各类公开数据。以KYC(Know Your Customer)为例,为了实现360度客户视图,更好的认识客户金融需求和风险承受能力,做好适当性管理和投资者教育,需要多维度的数据分析来支撑,包括客户信息、问卷调查、账户分析、用户行为分析、第三方信息等。

  做好KYC是做好客户服务、个性化服务、智能服务的第一步,然后还需要KYP(Know Your Product),才能为适当的客户提供适当的产品。此过程中使用的数据有些是证券公司独有的,有些是公开的,有些是采购的,数据质量参差不齐。

  证券公司有多套业务系统,均会登记客户信息如姓名、身份证、联系方式、社会关系、金融信息等,但包括集中交易、融资融券、CRM、OTC在内各系统登记数据的内容范围、数据标准、格式要求和更新时间均不一致,导致汇聚到数据中心中形成主数据时容易产生冲突,这也是券商建设ECIF系统的难点。

  投资者账户交易数据是券商的核心生产数据,在交易所和中登的严格要求下,数据规范和数据准确性较高,这也是投资者交易行为分析的基础数据源。即便如此,在针对投资者做账户分析时会发现,交易数据是针对交易和结算过程服务的,并不天然适用于账户资产、收益和投资行为分析等。而且历史上曾多次变更同一业务交易规则和推出新交易业务,同时在前大数据时代因存储价格昂贵导致历史数据备份不完全,也使得现在做历史交易数据的解读极为困难。典型如现在多家券商已上线APP的账户分析和对账单等类似功能模块,其中历史资产和交易数据偏差普遍存在。

  行情是投资者交易的基本依据之一,在沪深交易所的强大技术支持下,场内市场行情数据质量很好。但作为交易使用的行情和作为历史交易分析用的行情并不完全通用,典型如红股红利在股票交易过程中的到账日和除权日不一,导致直接用交易行情做历史资产计算时会发生资产虚增等情况。随着券商业务范围的扩大,越来越多的OTC场外产品发行,其行情数据规范并没有那么好,特别是私募产品的净值数据质量较差。

  更多地利用资讯而非小道消息是理性投资者逐渐普及的投资理念,券商均会在APP中提供F10或独立的资讯模块以辅佐客户投资决策。因资本市场是面向社会全行业的融资中介,资讯范围广且专业,当前券商基本采用外购资讯源的做法,而各家第三方资讯提供商的服务内容和质量水平不一。对于资讯内容而言,上市公司公开年报等数据质量较为可靠,但也存在解读不足的问题,同时也存在虚假财务数据情况,至于其他新闻、研报、统计等数据的质量和时效性难以保障。这导致当前智能投研的需求比较迫切,而且对于先锋券商做个性化资讯推荐时也往往苦于资讯质量不高,难以黏住客户。

  为了全方位的认识客户和充分评估产品适当性,做好个性化产品推荐,券商正在越来越多考虑引入第三方数据源。如通过第三方征信来提升对客户适当性资质和投资需求的评估准确性,通过第三方基金评级来提升产品适当性分类准确性,通过爬虫和社交网络获取舆情数据来做舆情监控,但这些数据接口对接不易,质量难以保证。

  目前数据标准化落地存在很大的困难,虽然现在证券行业或券商内部整理了一些数据标准,但在标准实际落地时存在很多困难,比如旧系统数据如何处理?新系统标准化如何落实?以及数据标准后续如何管理和更新?这些都是很难解决的问题。

  证券行业业务广泛,信息化较早,许多系统很陈旧,文档少,已没有人能讲清楚当时具体业务怎样记录数据。也有一些系统中比有些较冷门的业务可能存在类似难以解读的情况。

  证券公司内部按照业务线组织业务部门,系统使用和数据分属各个业务部门,其中利害关系复杂,数据难以打通。导致同样数据在不同系统中冗余多份,一致性无法保证。业务涉及跨系统数据流转时,系统对接和接口开发工作复杂。

  数据的创建和获取质量决定了数据使用的质量,第一步需要把关的就是数据的流入。各业务系统均有自己的数据输入界面和数据生产流程,各系统标准和严格程度不一。由第三方机构提供的数据越来越常见,第三方机构的数据质量和业务稳定性也成为了数据流入管理的关键之一。

  除了传统业务系统中的结构化数据,越来越多的非结构化数据开始被采用。这种数据中包含有大量文本、多媒体等非结构化信息,需要尽量准确提取和保留数据中有价值的部分,提高数据使用的效率,需要采用如关键词提取和自动摘要等前沿AI技术。

  除了利用原始数据,更需要通过各种算法和模型来加工数据,使得大数据中数据量大但低价值密度的原始数据能提取为辅助决策和服务的高价值参考信息。但许多算法为专家经验的实现,其科学性并没有行业统一标准,最终结果质量也就存疑。以账户收益率为例,目前已有券商开始采用复杂的类似基金估值收益率算法,但对于个人投资者目前频繁交易和资金进出情况并不太适用,容易存在极端反例,如客户本身亏损但系统计算的收益率为正。

  要使数据真正成为有价值的生产要素,为证券公司运营和创新发展服务,必须做好数据质量控制。通过提升数据质量,为业务模型提供有价值的源数据,包括大数据平台中海量但低价值密度的数据,但不能是不真实、不准确、不完整的问题数据,才能避免数据分析中Garbage in Garbage out(垃圾进垃圾出)的陷阱。

  数据质量管理目标是保证数据的真实性、准确性、连续性、完整性和及时性,先明确目标才能有努力的方向。质量目标必须落到实处,按业务划分数据域并按应用场景需求提出具体质量要求,数据含义清晰明确,取数规则统一,并根据业务变化及时更新。也不能无限制的提出不切实际的高质量目标,为提升质量落到实处所付出的成本是很高的,对相关人员的能力和经验水平要求较高,周期也较长。

  数据质量控制不仅是IT技术人员的工作,需要业务人员、IT系统开发运维人员、数据分析人员通力协作才能实现,需要建立跨部门协作机制如虚拟团队。能发现数据问题的人往往是确实使用数据的业务人员,但发现问题的人却解决不了问题,能解决问题的人往往不理解问题,导致死锁。也不可能仅靠增加一套软件系统如ETL工具就能自动实现,传统技术平台提供商提供的数据清洗产品往往仅能作部分形式化检查如空值校验等,对业务深度结合部分无能为力。

  切实投入人力物力实施质量控制,加强数据源头管理,确保将业务信息全面准确及时录入信息系统。运用适当的技术工具,提升质量控制的自动化,自动提示异常变动及错误情况。

  数据质量控制不是一次性工作,需要建立数据质量监控体系,覆盖数据全生命周期,对数据质量持续监测、分析、反馈和纠正。

  定期组织检查,并对发现的重大问题及时报告、整改、考评,实现数据质量持续提升。

  数据质量控制和实现数据价值的长效机制是数据治理。数据治理是指“通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。”通过顶层制度设计,明确数据管理和数据质量控制的要求,覆盖数据战略、数据管理制度、数据标准、信息系统、数据共享、数据安全、应急预案、问责机制和自我评估机制等。建立数据质量控制机制,全面强化数据质量,保证数据的真实性、准确性、连续性、完整性和及时性。强化对数据质量的责任,明确由董事会承担数据治理最终责任,建立和实施上至高管层的数据治理问责机制。

  国际标准从覆盖数据全生命周期的6个方面:收集(Collect)、存储(Store)、报告(Report)、决策(Decide)、发布(Distribute)、处置(Dispose)完整描述了数据治理的责任,从价值(Value)、风险(Risk)和约束(Constraints)3个维度给出了数据治理的指导原则。标准在论述实现数据价值时提到的首要要素就是数据质量(Quality),并说明了在不同场景下对数据质量的要求并不完全相同。最大化数据的价值需要关注从数据中提取信息时的质量(Quality)、时效性(Timeliness)、语境(Context)、体量(Volume)等。其次是风险,需要关注数据相关的风险管理、分类和信息安全等。最后是约束,需要遵守相关的法律法规,同时考虑社会因素和组织内部政策。

  2018年5月中国银保监会发布了《银行业金融机构数据治理指引》,这是2011年发布《银行监管统计数据质量管理良好标准(试行)》的加强和升级。作为金融行业的排头兵,银行有完整的数据管理和数据质量管理工作规范,在金融行业内是最好的,其他行业往往没有这么强大的行动力和约束力,其指引对于证券行业也有很现实的参考意义。随着银监会和保监会的合并,该指引未来也可能会涉及保险行业。

  数据治理指引在总则后分5个章节分别描述了数据治理架构、数据管理、数据质量控制、数据价值实现、监督管理等,其中数据质量控制列出了9条明细要求,从质量控制要求、制度、工具、监控、检查、考核、整改、监管数据报送、监管数据质量管控等维度做了全方位要求。数据治理指引不仅关注监管报送数据质量,以数据治理为机制从更高的层面描述了从管控应用向价值实现的转变,帮助银行业金融机构真正实现数据价值。其提出的数据治理4项原则:全覆盖原则、匹配性原则、持续性原则、有效性原则,对于证券行业数据质量控制和数据价值实现也同样适用。

  2016年年底,中国证券业协会发布《证券公司全面风险管理规范》,从风控角度提出了数据治理要求“第三十三条 证券公司应当建立健全数据治理和质量控制机制。积累真实、准确、完整的内部和外部数据,用于风险识别、计量、评估、监测和报告。”2016年年底,广发证券和多家券商联合举办了“证券行业数据治理研讨论坛”,论坛上大家一致认为,数据治理是证券公司的薄弱环节,数据治理对券商内部管理、决策以及风险管理都有重要意义。

  从经验角度而言,成功的数据治理往往有高层支持和各业务、技术部门的广泛参与。数据治理对政策制定者和执行人的要求都较高,需要懂业务、技术、数据等多方面综合知识领域,不是一个人能全部完成的工作,需要一个团队整体协作。要求虽然较高,但实际具体工作又比较枯燥,要细心直接面对底层数据分析,要和各部门人员广泛交流,且难以直接产生可见成果,挫败感往往高于成就感。数据治理难以持续的主要原因是没有让数据治理的工作价值变现,如果只把数据治理局限在技术领域,脱离业务人员,会导致数据治理工作脱离业务方,从而无法让数据价值得到变现,业务才是驱动数据治理的原动力。