java技术圈 为您找到相关结果 12

全栈混合云综合架构方案研究和落地

本文分享自天翼云开发者社区《全栈混合云综合架构方案研究和落地》,作者: y****n 链接: https://www.ctyun.cn/developer/article/354717063266373 (一)业务背景 随着云服务的便利性日益被市场接受,企业客户越来越倾向采用公有云服务补充其现有的企业内部部署的数据中心和私有云基础架构的不足。因此,混合云成为云服务市场的重要发展趋势。广义上讲,混合云的形态可以包括云与云的组合、云与传统IT系统的组合、云与虚拟化技术的组合等,它们可根据具体业务场景需求使用混合IT方式解决具体问题;狭义上讲,混合云指的是至少使用了两种不同部署模式(公有云、私有云、社区云)的云服务。当前,应用较多的混合云形式为公有云+私有云的组合。 现有混合云管理方法主要解决以下...阅读全文

HBase高可用原理与实践-社区博客

前言 前段时间有套线上HBase出了点小问题,导致该套HBase集群服务停止了2个小时,从而造成使用该套HBase作为数据存储的应用也出现了服务异常。在排查问题之余,我们不禁也在思考,以后再出现类似的问题怎么办?这种问题该如何避免?用惯了MySQL,于是乎想到了HBase是否跟MySQL一样,也有其高可用方案? 答案当然是肯定的,几乎所有的数据库(无论是关系型还是分布式的),都采用WAL的方式来保障服务异常时候的数据恢复,HBase同样也是通过WAL来保障数据不丢失。HBase在写数据前会先写HLog,HLog中记录的是所有数据的变动, HBase的高可用也正是通过HLog来实现的。 进阶 HBase是一个没有单点故障的分布式系统,上层(HBase层)和底层(HDFS层)都通过一定的技术手段...阅读全文

博文 2024-01-09 17:06:39 网易数帆

nvme磁盘故障注入方法

本文分享自天翼云开发者社区《nvme磁盘故障注入方法》,作者:曹****飞在存储系统中,磁盘的故障是很可能出现的问题。存储软件的设计需要对故障进行处理,提高系统的健壮性。然而磁盘的故障是不可控的,当我们想测试软件故障处理的分支时,不是很方便。用软件模拟的方法能覆盖的场景比较少,而且和实际故障的差距会比较大。因此,如果能让故障下沉到磁盘,尽可能的靠近磁盘,才能构造出尽可能真实的故障场景。本文针对nvme磁盘,在磁盘驱动这一层调研了几种可以注入磁盘故障的方法。1. write uncorrectable通过向nvme控制器发送write uncor命令,标记指定的LBA范围为invalid,当读到这个LBA范围时,ctrl会返回Unrecovered Read Error错误。可以用于模拟读的m...阅读全文

博文 2024-08-09 16:16:35 Tianyiyun

云灾备场景

本文分享自天翼云开发者社区《云灾备场景》,作者:l****n1、公有云灾备场景公有云云上灾备能力建设:1、容灾场景 -- 同城容灾演练(跨可用区)a.公共云形态:企业应用使用天翼云同地域的不同可用区搭建的同城容灾架构,保障容灾能力b.应用级:企业希望对整体的应用做容灾备份演练,而非单独的数据库或存储c.云上同城灾备:应对公共云上某地域可用区故障场景。例如:1) 企业正使用的云产品实例不可用2) 可用区的某产品的集群级别的性能衰减或不可用3) 基础设置故障导致的整个可用区故障d.容灾演练场景1) 单产品级:LB,ECS,redis,中间件,数据库,对象存储等 -- 通过单产品故障注入来模拟2) 应用级:整个应用链路的多组件出现问题 – 产品组合故障模拟3) 机房级:机房级出现问题–入口流量模拟...阅读全文

天翼云CDR基本概念

本文分享自天翼云开发者社区《天翼云CDR基本概念》,作者:f****n产品定义云容灾CT-CDR(Cloud Disaster Recovery)为云主机提供跨可用区的容灾保护能力,RPO可达秒级、RTO可达分钟级。支持容灾演练、一键切换等功能。当生产中心故障时,可在容灾中心快速恢复业务,保障客户数据安全和业务连续性。当前云容灾CT-CDR处于公测阶段。产品基本概念RPORecovery Point Objective(恢复点目标),指故障发生时数据可以恢复到的时间点,决定生产中心发生故障时的数据丢失量。例如,RPO = 30秒,表示在生产中心发生故障时,最近30秒的数据无法恢复。RTORecovery Time Objective(恢复时间目标),指故障发生后服务器从中断到恢复运行所需要的...阅读全文

一体机场景ceph高可用介绍

本文分享自天翼云开发者社区《一体机场景ceph高可用介绍》,作者:b****n一体机场景使用ceph开源架构作为存储系统的主体架构,原生方案支持存储数据高可用性,包括副本数可以灵活控制/支持故障域分隔,数据强一致性/多种故障场景自动进行修复自愈/没有单点故障,自动管理。部署形态​存储引擎组件部署形态​IO高可用-流程​组件高可用-心跳​存储数据高可用-备份​ 图像 小部...阅读全文

博文 2024-11-11 16:27:02 Tianyiyun

程序员基石必修课,计算机网络底层原理(高清完结)

程序员基石必修课,计算机网络底层原理(高清完结)​获课:程序员基石必修课,计算机网络底层原理(高清完结)获取ZY↑↑方打开链接↑↑掌握通过抓包解决问题的能力掌握通过抓包解决问题的能力,是网络工程师、Web前端开发人员以及网络安全专家等必备的技能之一。以下将详细介绍如何通过抓包来解决问题,并提升相关能力。一、抓包的基本概念抓包(Packet Capture)是指截获、记录和分析网络数据包的技术。通过抓包,可以深入了解网络流量,识别潜在问题,甚至发现安全隐患。二、抓包工具的选择在抓包过程中,选择合适的工具至关重要。以下是一些常用的抓包工具:Wireshark:一款功能强大的开源抓包工具,支持多种操作系统。它提供了丰富的分析功能,能够对捕获的数据包进行深度解析。tcpdump:一个命令行工具,适用...阅读全文

慕ke 高性能GO企业级APM监控系统实战(完结)

高性能GO企业级APM监控系统实战(完结)​获课:点我获取资源:上方URL获取资源APM工具选型选择合适的APM(Application Performance Management,应用性能管理)工具是确保应用高效、稳定运行的关键步骤之一。APM工具可以帮助监控应用的性能、诊断问题、优化资源使用,并提供实时的洞察和警报。以下是在选择APM工具时需要考虑的一些关键因素,以及一些市场上常见的APM工具推荐。选择APM工具的关键因素监控范围端到端监控:是否支持从客户端到服务器的全链路监控。组件监控:是否能监控数据库、缓存、消息队列等中间件的性能。第三方服务:是否能监控第三方API和服务的性能。性能指标响应时间:应用响应用户的请求所需的时间。吞吐量:单位时间内处理的请求数量。错误率:请求失败的比例...阅读全文

ELB UDP健康检查常见故障分析

本文分享自天翼云开发者社区《ELB UDP健康检查常见故障分析》,作者:王****宁 什么是UDP健康检查 UDP是面向非连接的一种协议,在发送数据前不会通过进行三次握手建立连接,UDP健康检查的实现过程如下: 1.健康检查的节点根据健康检查配置,向后端发送ICMP request 消息。 如果健康检查节点收到了后端服务器返回的ICMP reply消息,则认为服务正常,继续进行健康检查。 如果健康检查节点没有收到后端服务器返回的ICMP reply消息,则认为服务异常,判定健康检查失败。 2.健康检查的节点收到ICMP reply消息后,会给后端服务器发送UDP探测报文。 如果在【超时时间】之内,健康检查的节点服务器收到了后端服务器返回的port unreachable的ICMP消息,则认为...阅读全文

MQ大牛成长课–从0到1手写分布式消息队列中间件(完结)

MQ大牛成长课–从0到1手写分布式消息队列中间件(完结)​xia载ke:666it.top/5291/从0到1手写分布式消息队列中间件(MQ)是一个复杂且系统的过程,涉及多个方面,包括需求分析、设计架构、编码实现、测试优化以及部署运维等。以下将详细阐述这一过程及其结果。一、需求分析在构建分布式消息队列中间件之前,首先需要明确其基本功能需求:消息的发布与订阅:允许生产者发布消息到队列,消费者订阅并消费这些消息。消息的持久化:确保消息在系统故障时不会丢失,通过持久化存储实现。分布式部署:支持在多个节点上部署消息队列中间件,实现高可用性和负载均衡。消息的有序性和可靠性:保证消息按发布顺序被消费,同时确保消息在传输过程中的可靠性。二、设计架构基于需求分析,设计分布式消息队列中间件的架构如下:组件设计...阅读全文

故障测试之模拟网络丢包

本文分享自天翼云开发者社区《故障测试之模拟网络丢包》,作者:y****n​​​​​​​1、模拟网络丢包工具——TC(Traffic Control)TC(Traffic Control) 是linux自带的模块,一般不需要安装,TC要求内核2.4.18以上。Linux 操作系统中的流量控制器 TC用于Linux内核的流量控制,它利用队列规定建立处理数据包的队列,并定义队列中的数据包被发送的方式,从而实现对流量的控制。TC 模块实现流量控制功能使用的队列规定分为两类,一类是无类队列规定,另一类是分类队列规定。无类队列规定相对简单,而分类队列规定则引出了分类和过滤器等概念,使其流量控制功能增强。无类队列规定是对进入网络设备(网卡)的数据流不加区分统一对待的队列规定。使用无类队列规定形成的队列能够...阅读全文

博文 2025-02-14 18:29:33 Tianyiyun

马士兵 线上故障分析课

download: https://www.daxiacode.com/7350.html【资源目录】:├──01 生产故障分级概要| ├──01.事故等级定义.mp4 211.32M| └──02.混沌工程简介.mp4 251.55M├──02 线上排除故障方法+热身故障1| ├──01.DEA断点调试高阶.mp4 210.68M| └──02.故1-热身-Redis锁处理幂等.mp4 213.11M├──03 幂等性设计+CPU飙高(上)| ├──01.等性设计.mp4 185.76M| ├──02.PU指标描述.mp4 186.39M| ├──03.务间超时处理.mp4 81.26M| └──04.融场景幂等性思考.mp4 75.68M├──04 CPU飙高(下)+内存问题(上)| ├...阅读全文

博文 2023-09-19 15:28:43 xiaotu