
内核RAS通知机制的实现 - 知乎 - 知乎专栏
2023年9月19日 · RAS(Reliabilty,Availability,Serviceability)是对一台服务器可以被可靠使用的要求,即可靠性、可用性、可维护性,其实现需要软硬件结合息息相关。 R表示服务器提供正确输出的能力,要保证1+1=2;
CPU分支预测算法(基础篇) - 知乎专栏
当前大多数CPU会使用 BTB (Branch Target Buffer) 和 RAS (Return Address Stack) 等部件来分别预测程序中分支语句和函数返回的跳转地址。 另外,程序中某些跳转指令的目标地址有可能是不固定的,这就导致对其目标地址的预测变得更加复杂,追求高性能的CPU往往会 ...
RAS(二)Intel MCA初探 - 知乎 - 知乎专栏
MCA(Machine Check Architecture)是Intel Xeon,Intel Atom和P6 family系列Processors支持的硬件错误检测、上报机制,硬件错误包括system bus errors,ECC errors,parity errors,cache errors and TLB errors。 从硬件层面看,MCA通过一些MSR(Model Specific Register)来实现检测、记录错误信息等功能。 它包含了一组Global Control MSRs和多组Error-Reporting Bank Registers(Each Hardware Unit)记录和上报硬件错误。 如下图: 关于这一点,很多人开始都 …
RAS技术详解:MCA、AER在CPU、内存和PCIe中的应用-CSDN博客
2024年1月7日 · 本文详细介绍了RAS技术,包括MCA机制用于检测和修复硬件错误,如CPU的MCA、内存的ECC特性以及PCIe的AER机制。 MCA通过MSR寄存器处理硬件错误,AER提供高级错误报告以辅助软件定位和解决错误。 当发生可纠正错误时,系统会进行修复;面对不可纠正错误,系统可能采取隔离或重启策略。 RAS技术主要是通过MCA机制、AER机制实现的。 MCA(Machine Check Architecture)机制:MCA机制可以上报并尽可能地修复系统总线、 …
tuned RAS solution requires deep insights into platform’s RAS architecture and deployment’s fault handling approach. The purpose of this paper is to familiarize the audience with Intel Xeon server platform RAS philosophy and explain RAS capabilities of the processors. For a technical overview of
Reliability, Availability, and Serviceability (RAS) - Intel
2020年8月4日 · This document describes the high-level architecture of reliability, availability, and serviceability (RAS) features designed for persistent memory. Persistent memory RAS features were designed to support the unique error-handling strategy required for an application when persistent memory is used.
服务器RAS性能 - quenby - 博客园
2015年12月14日 · RAS性能指的是机器的可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)。 RAS能力主要看几个方面:System 级别的RAS特性、CPU RAS特性、内存RAS特性、I/O RAS特性等
Linux内核下RAS(Reliability, Availability and ... - CSDN博客
2024年5月14日 · RAS性能指的是机器的可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)。 RAS 能力主要看几个方面:System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性等。
ANCK ARM64 RAS机制简介 - OpenAnolis龙蜥操作系统开源社区
2023年9月18日 · RAS是评估服务器系统容错能力及可用性评测的一项关键指标。 错误等级可分为三级分别是可纠正错误(Corrected Error, CE)、可恢复错误(Uncorrected Error, UE)以及致命错误(Fatal),RAS机制实现对错误的分级处理。 2. RAS机制错误处理流程. RAS机制需要硬件、固件、OS内核协同工作才能得以支持,因此需要一个统一高效的接口来进行硬件错误的上报与处理。 ACPI Platform Error Interfaces(APEI)正是为解决这一问题而出现,APEI规范统一了软 …
Reliability, availability and serviceability - Wikipedia
Reliability, availability and serviceability (RAS), also known as reliability, availability, and maintainability (RAM), is a computer hardware engineering term involving reliability engineering, high availability, and serviceability design. The phrase was originally used by IBM as a term to describe the robustness of their mainframe computers.
- 某些结果已被删除