为了2500万人的健康,“两颗心脏”在同时跳动

摘要:今年4月4日,一次全球最大规模的核酸单日检测记录在上海被创造:零点开始,当日超过2500万人登陆上海健康云平台进行核酸采样登记,每声扫码时发出的“滴滴”,都是一条瞬间平稳

图源:天翼云

今年4月4日,一次全球最大规模的核酸单日检测记录在上海被创造:零点开始,当日超过2500万人登陆上海健康云平台进行核酸采样登记,每声扫码时发出的“滴滴”,都是一条瞬间平稳“入湖”的数据。

没有延迟,没有宕机,平均每分钟核酸采样7.6万,这是一个奇迹,一个由中国电信上海公司、天翼云科技上海分公司、华为共同创造的奇迹。

不久前,这次创纪录背后的“上海健康云双活中心创新方案”被“ICT(信息通信技术)中国(2022)案例年度评选活动”(以下简称ICT中国案例评选)评为创新应用类优秀解决方案案例。

这是一个最典型不过的“ICT中国样本”。

中国正进入数字化转型和ICT市场高速发展期,无论何种新兴技术和应用,目的无外乎增强政府治理水平,提升经济和企业发展韧性。“上海健康云双活中心”源起为上海市民打造的医疗健康应用系统,紧急创新扩容于2022年疫情防控最紧张时期,最终“两颗一起跳动的心脏”,助力一座特大型城市平稳越过看似“高不可攀”的关隘。

如今,这个“样本”正在自我复制。据《IT时报》记者了解,基于天翼云多中心架构的双活中心方案,经历过高强度、多并发的考验,获得政府、央企、国企等不少重要部门和企业认同,如今正被用于多地重要系统建设中。

20天能力扩容25倍

这是一次只看开头猜不到结局的挑战。

疫情到来之前,谁都没想到,“高并发、高负荷”会成为横亘在健康云面前的最大挑战。

2010年,上海健康信息网开始运行,其目的是建立电子健康档案和电子病历基础数据库,构建市、区两级数据共享交换平台,2014年,上海健康信息网进一步建设为“上海健康云平台”。8年来,上海健康云运用创新健康物联网技术、移动互联网技术、大数据技术、WebService技术,以居民电子健康档案和电子病历数据为核心,面向全人群提供覆盖预约挂号、健康档案、预防接种、家庭医生、慢病管理、体征指标、个人账户等七大核心应用,为政府、各级医疗卫生机构提供管理和决策支持,为企业和个人提供统一的“互联网+健康服务”的入口平台。

构建整合型医疗卫生服务体系是健康云一直以来的使命,但起初系统设计时,这些功能并不需要同时支撑海量数据并发,直至今年3月上海遭遇突如其来的疫情。

随着核酸检测线上服务逐渐成为上海疫情防控的关键功能,健康云日承载的核酸登记、检测采样和结果查询量激增,健康云亟需升级。

短短20多天,从支撑100万用户到2500多万用户,天翼云不仅完成了主资源池快速扩容25倍,同时迅速建成交付第二节点,实现了同城资源互备,满足了系统双活和分流要求。

3月19日、4月1日、4月4日,上海连续几次进行全市性大规模核酸检测。面对庞大流量引发的高并发冲击波,健康云“撑住了”:天翼云搭建的健康码系统与核酸检查系统QPS(每秒查询率)达6万以上,每小时可响应2亿人次的健康码查询/核酸检查数据请求,每分钟支撑核酸采样能力突破76000+,系统处理规模达全国第一,远超《健康码和核酸系统安全平稳运行工作指引3.0》中提出的“每秒最大完成请求数应高于地区内最大城市人口数的千分之一”指标。

今年4月,工业和信息化部副部长王江平与上海市政府、市通信管理局、市网信办和市大数据中心等相关部门,现场“督战”健康云重点保障时,对整个重保团队付出的努力和取得的进展给予了充分肯定。

两颗同时跳动的“心脏”

这是一场急行军式的创新。

只要关注过今年年初的几次热搜,便知道这样的结果多么来之不易。

2022年年初,国内疫情再度呈现城市级传播,西安、广州等多地“健康码崩了”频繁成为热搜标题,细究起来,“全城核酸”是主要诱因,而更深层次的理由是,系统原始设计无法支撑短期快速扩容、或者是不同网络架构协同间出现问题,导致出现“堰塞湖”或者“堵点”。

在上海,同样的起点却走向了不同的终点。3月11日,上海健康云也崩过,但创新和坚持,最终为天翼云赢得了这场胜利。3月13日临危受命,3月25日第二节点交付,3月30日,10台I3全闪存服务器纳管上线,采样数据库读写性再提升一倍。

面对即将到来的“核酸采样海啸”,一切准备就绪。1506万、2570万……在随后“一浪高过一浪”的全市集中采样大挑战中,天翼云均稳稳“托”住了,直至今日,全球单日核酸检测采样记录的前三名仍写着上海健康云的名字。

上海电信、天翼云上海分公司、华为公司搭建了一道坚不可摧的屏障——“上海健康云双活中心创新方案”,它采用双活中心的方案架构设计,资源池数倍扩容,并利用天翼云IaaS(基础设施即服务)和PaaS(平台即服务)能力,通过对存储性能优化、数据库参数调优以及主机资源调整等特性,有效保障了超高并发场景下业务的稳定运行。

所谓“双活”,顾名思义,是指双数据中心同时对外提供服务,两颗“心脏”同时跳动,同时部署业务系统,互为灾备,不仅极大提高了资源的利用性和系统的工作效率,而且一旦一方节点出现故障,另一方节点无缝衔接,实时接管,用户完全无感知,从而确保了业务的连续性。

“传统的灾备中心往往是一主一辅,主数据中心承担用户业务,备份数据中心备份主数据中心的数据、配置、业务等,主中心挂掉,备份才会启动,但对用户而言,备份数据中心功能过于简单,资源显得有些浪费。”天翼云科技有限公司上海分公司副总经理邬来军告诉《IT时报》记者,此次获奖的双活方案,搭建了双系统容灾部署模式,基于负载均衡和分布式集群技术,实现了健康云系统的“逐层双活”——网络双活、应用双活、缓存双活以及数据库双活,“在目前已知的其他双活方案中,也是少见的。”

据了解,天翼云双活数据中心在资源配比到业务部署皆为1:1配置,且双中心从东西向网络,到核心交换、业务设备的物理链路层面,都处于完全隔离的状态。

同时,利用运营商独有的资源优势,天翼云选择了与主中心同在一个区域的资源池作为双活中心,彼此之间通过OTN(光传输网)专线进行互联,配套网络出口资源和安全防护能力与主节点完全一致,数据通过数据链以及IaaS层面的高可用方案保证通信。

迎接越来越高的流量峰值挑战过程,“依靠的绝不是大量堆砌资源,而是通过不断技术调优,挖掘设备、资源和系统潜力,把能力都用到刀刃上,以数倍的资源投入支撑起数十倍的能力提升,最终提升所有上海市民的应用体验。”邬来军说。

一个典型的“ICT中国样本”

这是一个典型的“ICT中国样本”。

ICT中国案例评选已经连续举办五届。这个由中国通信企业协会发起的评选,是中国最重要的通信展会——国际信息通信展览会(PT展)的重要组成部分,其每年力求寻找ICT行业“中国样本”,推进ICT应用基础研究,突出关键性技术、前沿引领技术、颠覆性技术创新,为建设制造强国、质量强国、网络强国、数字中国提供有力支撑。

2021国际信息通信展览会

每年评选出的年度案例不仅代表了行业最高水平,同时也为正在进入数字化转型期的中国“打样”,看新一代信息通信技术如何成为民众生活的稳定器和国家发展的驱动器。

以此来看“上海健康云的双活中心方案”,其重要之处在于,无论是疫情反复的上半年,还是即将迎来的防控优化阶段,健康云系统都呈现出越来越重要的数字价值,也因此成为重要的“关键信息基础设施”,而根据2021年9月1日实施的《关键信息基础设施安全保护条例》(以下简称《条例》),一旦出现故障,关键信息基础设施必须有相应的高可靠性系统与灾难备份系统等系统和应急保障机制启动。

据了解,上海健康云可支持5分钟内完成快速扩容需求。同时,在底层服务器出现故障时,天翼云能够在35秒内自动完成虚机漂移,通过快速将故障虚机的控制转到集群的另一台控制服务器上,使虚机保持正常运行,从而确保了整体系统的高可用性。

“上海健康云双活中心方案对于大型企业或者政府数字化转型有着标杆意义。”邬来军表示,随着全球进入数据爆炸时代,海量数据的治理和安全将变得越来越重要,容灾系统方案不仅是“必选项”,而且是必须要“答好的考卷”。

据了解,此次得奖方案中采用的天翼云,支持两地三中心架构,既可以在异地区域使用备份文件在异地恢复新实例,也可以同城容灾,支持多可用区部署,可用区之间内网互通,以确保各类重大系统具备应对未知技术风险的内核能力,保障业务连续性。

更具参考价值的是,即便主数据中心已经采用了一家云商产品,天翼云也可以借助中国电信云网融合优势,通过“云间高速专线”打通网络侧的不同云产品,从而形成高可用的异构云备份数据库。

显然,作为全球最大的电信运营商云,天翼云有着不同寻常的“独门武器”,而市场也给予了积极回应。中国电信2022年前三季度财报显示,中国电信产业数字化收入达到人民币856.32亿元,同比增长16.5%,天翼云收入继续保持翻番。

作者/ IT时报记者 郝俊慧

编辑/ 王昕 挨踢妹

排版/ 季嘉颖

图片/ 天翼云 采访对象 费锋 东方IC

来源/《IT时报》公众号vittimes

分享到:
全部评论

分享到微信朋友圈