某保险有限公司是由意大利某保险有限公司和中国某集团公司合资组建的保险公司,于2002年1月15日经中国保险监督管理委员会批准在广州成立。
某保险公司为客户提供强大可靠的服务,其核心之一在于不断致力于创新,以确保其网络的整体服务质量。在过去几年,新型业务模式服务的激增极大增加了某人寿提供其服务的方式的复杂性。这使得围绕服务提供和消费产生的各种日志与指标数据量急剧增加。对此,寻找解决方案来提供对该基础架构数据收集、监控和特定部分运营的分析信息。目标降低系统繁琐复杂、高成本、提升灵活性。我司给出Elasticsearch解决方案,该方案能够合并与分析不同的数据源,而无需统一的数据格式,形成数据采集监控自动化平台。该保险公司通过管理平台,实时挖掘所拥有数据的运营和商业价值。
Elasticsearch 基于Lucene 搜索引擎,通过扁平式结构、数据反范式化、嵌套对象、父子关系等进行数据建模保存Agent采集数据指标,为每一个字段建立倒排索引形成JSON文档序列化格式,可以进行高速率查询,通过内置visualize对接索引字段生成dashboard进行数据分析展现。平台采集覆盖网络、系统、服务、中间件、应用等层面,并且全部服务使用ansible 进行统一配置和管理,短短数月内,将客户应用数据和基础架构日志采集到 Elasticsearch 中,从而获得对消费和服务性能的分析结果。例如,他们能知道整体基础架构运行情况以及对外应用服务统计数据和延迟,而这些都是采用 Elastic Stack 之前一直被忽略的信息。
日志数据可提供大型网络内部与相互之间所发生情况的有价值信息。日志将系统中发生的所有事件(例如登录、用户互动以及错误)记录为间歇性文字记录。系统和格式越多,挑战越复杂。最终发现数据采集监控平台是监控和分析大规模不同格式数据的最佳工具,并可及时发现异常、分析趋势和预测数据。通过实时分析日志数据(支持任何源日志格式)功能,团队只要有了新想法,就能通过ansible轻松快速进行部署采集数据,分析新的关系和相关性。还让数据分析能够在更广泛的业务中发挥更重要的新作用。
例如,团队能轻松知道每个应用发生的错误数量,并将此信息与基础架构使用情况进行比较。这个功能非常重要,团队现在能立即分辨出负荷最大的服务器、导致此情况的原因以及应集中使用技术资源的地方。采集、查询、分析与存储的数据量和种类增加后,团队可通过更高级别的分析向运营团队报告潜在问题,更积极高效地解决问题并实时优化网络性能。
团队报告称平台处理能力得到明显提升,在采用数据采集自动化监控平台之前,应用程序日志都是孤立存在的,在请求和检索数据时,特别是所需数据存储在由第三方管理的系统中时,可能需要花费数天时间。现在,可用通过自动化部署采集数据,通过 Kibana 仪表板,可以实时可视化这些日志,团队无需等待数天,在几分钟内即可排查和修复 IT 问题。这极大缩短了问题的平均解决时间 (MTTR);随着该保险公司人寿业务不断扩展,以在竞争环境中满足员工和客户日益增长的期望,缩短平均解决时间变得至关重要。