背景
证券行业作为金融体系的核心组成部分,拥有独特且复杂的业务系统,包括交易、清算与结算、风险管理等。这些系统直接支撑着证券公司的核心业务运作,其高频率、低延迟、复杂的IT架构和广泛的业务分布,形成了与其他行业明显不同的特殊性。随着数字化转型和金融科技的快速发展,证券公司在提升业务能力和客户体验的同时,也面临着前所未有的网络安全挑战。
复杂的系统架构和开放的业务环境增加了潜在的安全漏洞,尤其是各业务系统之间的交互和数据共享,可能成为攻击者的突破口。高级持续性威胁(APT)等黑客组织利用先进的技术和手段,对证券公司的核心系统进行长期、有针对性的攻击,传统的安全措施难以及时发现和防御。与此同时,业务的实时性要求安全防护同样具备实时监测和响应能力,避免因安全事件导致的业务中断和客户信任的流失。
某大型证券企业意识到,传统安全措施已无法满足其对应用运行态安全的严苛要求,亟需一种能够深入应用程序运行时,提供实时安全监测和防护的解决方案。在保障系统高性能的同时,提升运行时的安全防护能力,成为该证券企业的核心需求。
证券公司的业务特性决定了其对安全防护的高要求,通过对证券行业业务系统的深入理解,基调听云认识到运行时安全观测对于证券公司的重要性和必要性。近年来,国外可观测领域的厂商基于在应用运行时的数据采集与治理优势,开始大力涉足安全领域,特别是运行时安全领域。例如,Datadog收购Hdiv后推出了应用程序安全监控(ASM)产品,Dynatrace、New Relic也相继推出运行时应用程序保护产品。这些产品能够深入应用运行时,实时监测应用程序的内部行为,识别异常活动和潜在威胁,如SQL注入等,提供精准的威胁检测,并在对应用性能影响最小的情况下,提供强大的安全防护能力。
可观测性与运行时安全的结合,为证券行业提供了一条提升安全能力的创新之路,有助于证券企业在激烈的市场竞争中保持竞争优势,保障业务的连续性和客户的信任。基调听云与某大型证券行业客户合作,探索基于可观测性的运行时安全方案。通过统一的数据采集和处理方案,为运维、研发、安全、业务等多个部门提供一致的数据视图,实现降本增效的同时,有效提升业务系统的稳定性。期望通过实时的运行时监测和安全防护,降低系统故障和安全事件的发生概率,促进各部门的协同效率。
本文将深入探讨可观测性运行时安全方案在证券行业的应用与实践,分析其在大型证券企业中的具体落地过程,包括面临的挑战和解决思路,旨在为证券行业的数字化安全转型提供参考和借鉴。
国内应用运行态安全现状
该大型证券行业客户传统的应用安全措施主要依赖于流量层的WAF、主机安全产品和防病毒软件等静态防护手段,然而这些方法在应对现代复杂多变的网络攻击时显得力不从心。随着攻防对抗的逐步深入,防守方开始在端侧使用私有的加密协议,这虽然在一定程度上增加了入侵难度,但也将标准的安全产品如WAF致盲。与此同时,攻击方开始重点关注如内存马等传统安全产品无法覆盖的无文件攻击场景,应用运行态安全威胁在持续上升。
面对应用运行态的安全挑战,该大型证券行业客户最初采用了RASP类型的产品来弥补应用运行时防护能力的不足,但RASP产品的Agent自身的资源占用、Agent稳定性,以及在生产环境出现稳定性故障时如何自证清白等问题成了RASP迟迟不能大规模落地的拦路虎。最终,客户只敢在攻防演练期间,在最外围的部分节点中部署RASP Agent,这成为了RASP类型产品在国内最常见,也是最终的使用形态。
RASP类型的产品在国内出现已经有十余年时间,其主要面临的问题如下:
1.技术壁垒高,行业资源投入不足:
生产环境的Agent需要运行在客户最核心的生产环境系统中,直接入侵到进程中,采集运行时的代码堆栈信息,有较强的入侵性。Agent从开发、测试、配合客户灰度等等环节,都需要投入巨大的技术和售后人力支持。Datadog和Dynatrace是国外基于Agent技术从事可观测性的典型公司,其员工人数在5000人上下。国内可观测性厂商中,仅围绕Agent的产品研发和技术支持的人力少则两三百,多则四五百人。而反观国内RASP产品线,产研团队形态基本以安全厂商的子部门为主,人力投入完全不在一个量级。
2.兼容性差,难以融入现有IT体系:
由于人员投入不足,RASP Agent的兼容性难以保证。RASP的Agent没有经过广泛的部署验证,难以保证与客户原有系统框架完美兼容、难以保证与SkyWalking、Jacoco、EDR等系统的的Agent完美兼容。难以实现相关类的增强,预期的安全防护效果也无法显现。
3.高耸的部门墙难以突破:
在生产环境中部署RASP Agent,除安全部门外,还需要测试、运维部门进行紧密的跨部门协作,然而,RASP的产出却只对安全部门产生价值。如何说服测试部门投入额外的资源进行全面而深入的测试?如何证明Agent的资源消耗在稳定、合理的范围内?如何说服运维部门把侵入性的Agent部署到生产环境中?这其实非常困难,即便在领导推动下进行了第一次测试,后续的应用更新也很难保证能够按时按量进行测试。
更令人担忧的是,这还不是成本最高的环节,Agent成功运行后,生产环境在出现稳定性故障、资源异常占用等问题时,产研、运维部门每次都要多排查一个维度,这往往会要求安全部门及Agent厂商自证清白。久而久之,各部门陷入内耗,部门墙越来越高。
再加上经过成体系的安全防护方案的过滤,进入应用深层的攻击次数较少,RASP的产出比较随机,如果半年时间都没有遇到一次深度的攻击,各部门会逐渐达成共识,并迎来打破部门墙的事件:把RASP下线。
因此,RASP类产品的实际应用效果难以言喻:
1.核心系统部署无望:客户只能接受在特殊攻防演练期间的部分外围节点打开,内部大量的核心系统不会启用。
2.部署难度、沟通阻力大:在生产环境中部署安全Agent,投入资源多、业务风险大,运维、测试部门配合积极性不高。
3.安全能力受限:在各种妥协下,RASP最终只能采集到部分应用的部分运行时数据,不完整、不准确的数据直接影响到了安全产品的安全能力。
基于可观测性的运行时安全解决方案
可观测性(Observability)是指通过系统的外部输出来度量系统内部运行状态的能力,是传统的应用性能监控(APM)演进的下一阶段。可观测性通过五大信号帮助工程师深入了解系统的运行状态、性能和潜在问题,它们包括:指标(Metrics)、追踪(Traces)、日志(Logs)、剖析(Profiles)和转储(Dumps)。该大型证券行业客户与基调听云一起,在APM的能力基础之上,构建了一套完整的可观测性平台,通过一体化的数据采集、数据分析、数据呈现等能力,为应用性能监控、用户体验监控、业务连续性与可用性,以及应用安全提供深度的应用运行时数据。
通过可观测性平台的UniAgent进行统一数据采集与治理,仅需在主机上部署一个UniAgent,无需区分开发语言,该大型证券行业客户实现了自动化的主机、应用程序、组件、服务、数据库等监控对象的指标采集,避免了安全与运维部门重复采集、重复处理数据。通过统一的数据采集、治理、分析平台,大家可以共用一份数据,打破数据孤岛,最终实现跨部门的协同合作,避免了不同部门根据不完整且不同维度的数据分析出完全不一样的结论。在避免了计算资源浪费的同时,也避免了对组织人力资源的浪费。
图:统一可观测性平台全景图
基于可观测性平台的统一数据采集与治理,应用安全态势管理(Application Security Posture Management,ASPM)成为了新一代应用运行时安全的解决方案。ASPM利用可观测性实时采集的生产环境数据,将可观测性与应用安全深度融合,为应用程序的运行状态和潜在安全威胁提供深度洞察,帮助企业及时识别并应对安全风险。ASPM填补了流量层与主机层安全产品之间的防护空白,实时分析应用运行时的安全态势,提供威胁感知、威胁分析、API资产梳理、安全事件阻断等运行时应用安全能力。
更重要的是,ASPM通过利用可观测性收集的数据,无需在生产环境中重新部署安全Agent,只需在现有可观测性平台上一键开启安全功能。这种方式为该大型证券行业客户节省了大量的部署和测试时间与成本,提升了安全能力的部署效率,同时也避免了重复部署Agent为生产环境引入新的风险,避免了部门间的摩擦。
图:ASPM与流量层、主机层安全产品共同构建纵深防御体系
图:ASPM检测原理
ASPM检测原理:
① 恶意用户对应用发起入侵攻击行为
② Agent采集数据并由ASPM通过实时Hook监测进行安全风险分析
③ ASPM对访问请求进行追踪分析,精准发现威胁并告警
④ 采取相应阻断措施,及时中断应用与当前恶意用户的连接
基于可观测性构建的应用运行时安全解决方案ASPM,具备统一的数据采集、统一存储架构、数据的统一利用以及打破部门间数据孤岛等特点。
1.数据的统一采集
在ASPM中,统一的数据采集是核心基础,而此处数据采集的来源是成熟的APM Agent。APM已经是非常成熟的运维产品,经历了多年生产环境的真实考验,其探针技术具备极强的先进性、稳定性,在企业中已有广泛部署。通过数据的统一采集,安全、运维等各部门可以基于同一份数据进行分析,避免了数据重复采集带来的流量、存储和计算上的资源浪费。ASPM通过整合多渠道的数据源,如应用日志、Trace、指标和网络流量数据等,让安全能力全面覆盖应用程序运行的各个环节。通过采用高效的数据采集工具和技术,确保数据的实时性和准确性,并通过数据标准化,统一数据格式与规范,提升了数据的可用性和一致性。
2.统一存储架构
统一的存储架构是实现数据整合与高效管理的重要保障。数据湖仓结合了数据湖的灵活性和数据仓库的高性能分析能力,为企业提供一个统一的数据存储与查询平台,支持对各类异构的可观测性及安全数据提供统一存储和查询接口。在低成本的前提下,实现了海量数据的高效存储与快速检索,确保数据具备良好的可扩展性和可靠性;同时,支持大规模并发访问及实时查询,可满足运行时安全对数据处理的高要求。
3.数据的统一利用
基于数据的统一利用,安全团队能够迅速识别并响应潜在威胁。通过实时数据显示分析,运用流式处理及实时分析技术,对收集的数据进行即时处理,及时发现异常情况和潜在威胁;利用仪表盘等可视化工具,将复杂的数据及分析结果以直观的形式呈现,帮助安全团队快速理解信息并作出决策;整合自动化响应机制,在检测到安全威胁时,能够自动触发防护措施,减少响应时间和人为错误的发生率。
4.打破部门间的数据孤岛
基于全量可观测性数据建立的统一可观测性平台有效打破了部门间的数据孤岛,实现了信息共享与协同工作。安全团队、开发团队和运营团队可以在同一平台上访问并分析相关数据,促进信息共享和协作效率提升;通过细粒度的访问控制策略,确保不同团队在共享数据的同时,有效保护敏感信息不被泄露;通过建立跨部门的协同工作流程,提升对安全事件的响应速度和处置效率,形成闭环式、完整的安全保障体系。
基于可观测性的运行态应用安全能力
基于可观测性提供的全量、准确、实时的生产环境应用运行态数据,ASPM实现了全新的运行态应用安全能力,其中,威胁感知、API资产梳理、安全事件自动阻断等能力表现优异。
1.威胁感知
威胁感知是基于可观测性的运行时安全解决方案的核心功能之一,通过实时监控和分析应用运行中的各种数据,识别潜在的安全威胁。具体包括:
① 异常行为检测
利用自研的AI和精细的行为分析技术,精确地识别出偏离常规操作运行模式的异常行为,从而在庞大的数据集中有效甄别出授权用户中潜藏的恶意或非正常活动迹象,利用用户行为散点图清晰可视化地展示用户的异常行为。
② 漏洞感知预警
实时感知并预警应用和系统面临的各类攻击行为,包括但不限于SQL注入攻击、远程命令执行漏洞利用、反序列化漏洞攻击、内存马以及WebShell等,通过高度敏感的感知与预警机制,能够迅速洞察并揭示应用系统中的薄弱环节与潜在安全缺陷,确保在第一时间发现并响应安全威胁。
③ 漏洞自动阻断
自动化漏洞防御机制能够针对应用系统存在的漏洞进行深度监控,一旦检测到有攻击者试图利用这些漏洞进行权限提升等恶意行为,系统会立即触发自动化的阻断与处置流程,有效遏制攻击进程。同时,该机制还具备组件漏洞的自动化修复能力,能够迅速部署热补丁,无需人工干预即可对漏洞进行修补,从而显著降低应用系统遭受成功攻击的风险,确保系统的持续安全与稳定运行。
④ 0-day防护
ASPM在不修改原有应用程序、不引入新的漏洞的前提下,通过动态加载应用探针,与应用系统融为一体,保障系统的安全性。平台通过Agent获取到程序执行堆栈信息、代码上下文相关的危险函数,可以识别相关的攻击行为,进行自动化处置响应。针对变型的0-day漏洞,在不需要业务停摆的状态下就可以实现安全补丁的自动升级,保证业务系统正常的生产稳定。
2.API资产梳理
① 主动API资产梳理
在证券应用中,API(应用程序编程接口)扮演着连接内部系统和外部服务的关键角色。现有的针对应用API梳理方法主要是通过分析请求日志、爆破的方式获取梳理未知的API资产,这种方法梳理API主要依赖于请求和字典的强度,未请求到的API接口,包括后门API接口及管理API接口可能会泄露大量的敏感信息。API主动资产梳理是通过在业务系统启动时,利用Hook机制植入到Servlet容器中,可以截获所有被加载的Servlet和关联的API信息,包括请求路径(URL)、请求方法(GET、POST等)、请求参数、返回数据类型、异常处理机制以及所涉及的类和方法等详细信息。通过对这些数据的实时收集和整理,系统能够无侵入性地、实时地构建出完整的API清单,并以直观的方式进行展示。
② API调用监控
实时密切监控API的调用状况,全面记录其调用频率、调用链路及调用参数、API攻击行为等详细信息,识别不安全的接口和潜在的攻击向量,深度洞察API的使用情况。同时,通过智能分析迅速识别并响应任何异常的API调用行为。
③ API风险属性标签
监控API的活跃状态和敏感行为,并自动对其状态和行为打标签,如敏感信息泄露、未授权访问、异常登录、敏感文件读写删除操作、系统级命令执行等高危的API安全事件,让管理者快速理解API的行为,快速定位、分析处置API安全事件。
图:ASPM的API风险属性标签
④ 接口安全评估
对API接口进行全面的安全检查和识别,以识别并消除API潜在的安全漏洞,如不安全的数据传输、敏感信息泄露、越权访问等。方便业务团队、安全团队清晰地进行API安全风险的整改和收敛。
⑤ 调用链分析
通过详细的函数级调用链分析,了解API的调用链路和依赖关系,以识别潜在的安全薄弱环节,优化API设计,增强整体安全性。
总结
在证券行业,业务的稳定性和连续性至关重要。为应对日益复杂的安全威胁,基于IT运维系统可观测性的应用安全防护方案已成为券商提升安全保障水平的关键举措。ASPM通过整合可观测性与应用安全,利用统一的Agent,不仅降低了部署和维护成本,还提升了系统的稳定性和安全性。
这种融合的安全防护新模式,使企业能够在现有的可观测性平台上拓展安全能力,及时发现并应对应用层面的安全威胁,保障业务的安全稳定运行。随着信息技术的飞速发展,基于可观测性的应用安全防护方案将在证券行业展现出更大的潜力。不仅能够有效发现和应对潜在的安全风险,还能在确保应用系统稳定性的同时,显著提升业务运营的连续性和可靠性。
探索和应用ASPM等创新技术,将在很大程度上协助券商构建更加坚实的安全防线,为业务的持续健康发展提供有力支撑。
北京基调网络股份有限公司,卢中阳/刘洪峰/丁威