做强技术,做好产品,用Sophon开启国产化数据分析新时代

发表时间:2022-11-22



国外软件断供事件频出


2020年6月,哈工大、哈工程的MATLAB被美国软件公司MathWorks断供。该两所院校被美国商务部工业与安全局(BIS)列入实体清单,而MathWorks作为美国企业,需要遵守《出口管理条例》(EAR)的管制,在没有获得出口许可时,不得与实体清单进行EAR受控物项的交易。作为国内首屈一指的“工程师摇篮”,这一断供事件无疑直接或间接影响了我国航天事业的开展,国产工程仿真软件的自主研发迫在眉睫。


同样的事情还发生在2021年初, Elastic 公司决定将Apache License 2.0 变更为双授权许可,即Server Side Public License SSPL 和 Elastic License。该协议部分限制了云厂商利用其开源软件,包括在托管其软件必须获得Elastic商用许可或向Elastic开放其服务代码才可以使用;同时,软件的监控、安全、机器学习能力、数据异常检测、数据合规检测等功能未开源。这意味着封装开源ElasticSearch的云厂商将无法免费使用该产品,而使用开源ES的用户也将无法免费使用其安全组件模块,无法保证业务运行安全。


政策引导信创落地,技术和需求永远是驱动力


在2021年《“十四五”国家信息化规划》提出了“加强信息技术基础研究、强化关键技术创新,强化市场化和产业化引导,加强重点领域核心技术短板重点突破和集中攻关”。各地方政府的“信创”(即信息技术应用创新)政策紧随其后,贵州、湖南、广东、天津等地均发布“十四五”信息技术产业发展规划。其中,深圳市对信创项目给予3的补贴,并规定了各行业的信创采购比例不得低于两成和四成不等。此外,《“十四五”软件和信息技术服务业发展规划》还对信创目标提出了高要求:“到2025年,我国规模以上企业软件业务收入要突破14万亿元,年均增长12以上。”


综合各方因素,我国信创已从规划-实施-落地阶段,迈入至快速发展的关键时期。在此阶段,除了推动我国技术的自主可控,还将助推政府、金融、电信、能源等国计民生行业的数字化转型。


信创的重点在于“创”,在于产品创新、技术创新,在于为用户创造更好的价值、更优异的产品性能和体验。国产基础软件更了解中国国情,更了解中国客户的痛点,也更适应于中国海量的数据量级和丰富的数据类型。


分析工具也有国产化平滑迁移方案,且数据处理量更大、功能更丰富


大数据分析工具可以帮助用户更灵活、更高效地进行数据分析,挖掘数据价值。随着数据量的剧增,以及深度学习算法的不断迭代以及创新,市面上如SAS、SPSS等集中式部署的分析工具越来越难以满足企业用户更快速、更高效、更灵活以及更低成本的需求。


例如,用户在使用SAS过程中可能会遇到如下几个问题:首先,其相对比较封闭,用户无法针对单个功能授予许可证,使用成本高昂;其次,SAS自建机器学习算法有限,深度学习算法依赖外部如Python嵌入支持,用户无法灵活地获取新的算法;再次,SAS对分布式读写和计算存在局限性,对海量数据处理及大规模机器学习难以有效支撑,对实时计算更是无能为力。


此外,SAS是过程性语言,代码量偏多,加上闭源特性,SAS社区不及开源语言活跃。随着R、Python的流行,SAS人才日渐稀缺,导致企业难以组织高质量团队。


星环科技Sophon Base是具备统计、机器学习、深度学习等完备算法和丰富算子的企业级分布式机器学习平台,支持从数据接入、数据处理,到模型训练、服务部署、线上监控的一站式可视化流程,并拥有开源计算框架的生态、分布式计算性能、低成本与高开放性等特性。


图1:Sophon与SAS功能对比一栏


在多年的行业积累和项目实践上,星环科技建立了一套模型迁移方法论,整个过程被定义为8个阶段――业务理解、数据理解、元模型理解、数据准备、模型迁移、评估报告、应用和检测。星环科技SAS平滑迁移过程强调针对实际业务问题,解决客户的业务痛点,产生实际价值。


通过对用户业务、数据、元模型的理解后,进行相应的数据准备,包括框架设计、数据处理、方案设计等。当数据准备好后就会进行模型迁移,这一阶段主要是进行代码逻辑架构梳理设计、模型验证等。模型迁移完成后会对迁移效果进行评估,确认迁移前后的准确性、一致性、以及优化效果验证。最后是部署上线来支持业务,对业务进行持续跟踪,不断优化模型,并对效果进行评估。通过一整套完整的迁移流程,保障SAS平滑、安全的迁移到Sophon。


星环科技Sophon可以提供完整的SAS模型迁移能力。相较于SAS,迁移到Sophon后可以支持多源异构数据的接入、丰富的数据处理、多个框架的模型训练及发布、模型部署和维护等全过程,多源数据和建模流程灵活组合确保综合性场景高效支撑。用户可以获得Sophon自建的200多个高性能分布式AI算子以及对自定义算子的支持,完全覆盖SAS原有的建模能力。同时,Sophon还能带来模型可解释性、联邦学习等额外的支持,更好地支撑模型的业务应用。此外,在模型的统一管理、发布及监控方面,Sophon也为企业客户提供了简洁、易用、稳定的解决方案,帮助用户更好地获取数据价值。



分布式的分析工具性能几何?用一个实际案例来说明

在银行交易中,20的头部优质客户会给银行贡献80的利润,而赢得一个新客户的成本是保留一个老客户的5至6倍。因此,银行如果能够提前预测出潜在的流失客户,防止客户流失而引发的经营危机,对于提高银行的竞争力具有战略意义。


此前,某大型国有银行在面临此类数据挖掘的业务时,使用的是SAS产品。由于SAS是集中式的,对单台服务器要求太高,算力无法支撑需求,且无法支持可视化的机器学习,对于业务人员来说使用门槛过高。在经过产品选型后,决定采用星环科技的智能分析工具Sophon替换原有SAS,用以满足银行利用全量数据进行挖掘的需求。分布式的软件架构也在实战过程中证明了其海量的数据处理性能优势,逐渐取代了原有的集中式架构,从而以更有益的表现完成了某大型国有银行所要求的海量数据挖掘任务。


表1:替换前后的产品分析

表格.png


在中高端客户流失预警模型构建方面,该银行基于星环科技分布式的智能分析工具Sophon,利用中高端客户短期资产流失与长期资产流失的高关联性,通过逻辑回归模型提前找出中高端客户群中的近期潜在流失客户。模型训练主要选取了如客户基本属性、持有产品、交易情况、账户情况、渠道喜好等变量,综合全面地考量后,给出该客户在中高端客户流失层面的分数,分数高低决定了流失可能性大小。


由于Sophon提供用户从数据采集、接入、模型构建、测试、管理、知识存算和推理及辅助决策的全流程开发一体化平台,因此大幅提高了用户建模得整体效率。在模型上线后,该银行实现了对单个客户按照流失率得评分,评估数据显示,在流失率评分最高的前10客户当中,实际流失的比例达到了20.2,相较全量数据5.9的流失率来说,流失率预测效率提升了242,前10客户的覆盖度为34.2。换言之,该银行只需要对流失率评分最高的前10的客户进行营销活动,就能够覆盖整体34的流失率,可以有效提升客户流失率挽回的效率和效果。


中高端客户流失预警模型成功支撑了客户经理对优质客户的日常维护工作,从而定制差异化、个性化的产品、服务和营销策略来挽留客户,以防客户流失情况的发生。


Sophon除了机器学习建模场景外,还能支持哪些高阶应用?


Sophon除了聚焦于机器学习、深度学习的数据科学平台Sophon Base外,还拥有边缘计算平台Sophon Edge,可用于计算机视觉场景及工业互联网场景;知识图谱平台Sophon KG可用于知识库构建、智能问答等场景;隐私计算平台Sophon P²C可用于企业内外部的数据安全流通、联合建模等场景。总言之,用户在使用Sophon的分布式架构替代集中式的国外数据分析软件后,除了数据处理量及建模性能的指数型提升,还能拥有边缘计算、知识图谱、隐私计算等高阶AI场景的支持能力,可以有效支持企业的数字化转型及未来智慧化场景的拓展。


截至目前,星环科技智能分析工具Sophon已服务郑商所、中行、工行等金融机构,外交部等政府机构,国网、南网、中化等能源用户,人民网等媒体用户,上汽红岩、中烟等制造业用户,并且在多个医疗和科研院所落地。


此前,Sophon已入选工信部人工智能产业创新任务“揭榜产品”,并且为上海数据交易所提供数据要素流通服务产品工具集。2021年至2022年,连续两年被Gartner选为增强数据分析技术(Augmented Data and Analytics)推荐供应商,并入选Gartner大中华区AI创业标杆企业、《中国分析平台市场指南》等权威报告。


“科技自立自强”任重而道远,技术自主研发唯一的解法

在不断频出的断供事件及国内外政策加持下,软件自主权及信息安全保障已成为头等要务。数据是企业的资产和命脉,数据安全是企业固守的第一道墙。在使用国外开源组件或封装服务的过程中,仍旧无法避免授权许可协议修改、安全相关模块不提供等断供风险,始终受制于国外法律与国际形势。


想要实现“科技自立自强”,只有把技术真正牢牢掌握在自己手中。星环科技作为国产大数据领域的重要参与者,已实现了全软件栈的自主研发,且性能优于国外的同类型基础软件产品。未来,星环科技将持续自主研发大数据基础软件领域的关键技术,推动国家数据信息安全和其他产业的发展,持续为客户带来安全可靠、性能优异、兼容性强的基础软件产品。