系统量化估算

破茧边缘

随着数据规模的日益壮大，数据规模的环境也变得更加复杂，现在我们大概可以把威协数据可靠性的因素归为几大类：硬件上的故障主要是磁盘故障、网络故障、服务器故障、IDC故障；软件上的隐患主要是内核BUG，软件设计上的BUG等；运维上的失误往往都是人为误操作。

我们经常见到到衡量分布式存储系统好坏的两个指标，可用性指的是系统服务的可用性。一般按全年可用时间除以全年时间来衡量可用性的好坏，平常我们说的 SLA指标就是可用性指标。

为了提高数据的可靠性，数据副本技术和EC编码冗余技术是分布式系统可靠性最常用的手段了。如果以多副本为例来谈的话，副本数量越多，数据的可靠性就会越高。为了能够对分布式系统的数据的可靠性作一个量化估算，可以分析得到影响存储数据可靠性的因素主要有以下几项。

N：分布式系统磁盘的总数，能够让人很直观的理解，磁盘的数量与可靠性密切相关，N的大小与数据的打散程度有十分紧密的关系。

R：副本数，副本数越高数据的可靠性肯定越高，但同时也会带来更大的存储成本。

T：这个是RecoveryTime的简称，就是表示RecoveryTime出现坏盘的情况时，数据恢复的时间，这个也十分好理解，数据恢复时间越短，就表明数据的可靠性越高。

AFR：AFR是Annualized Failure Rate的简称。Annualized Failure Rate磁盘的每一年的故障率和磁盘本身的质量相关，磁盘的质量越好，则AFR越低，那么数据的可靠性就会越高。

S：表明是CopySet数量，每一个盘上的数据的冗余在集群中的打散程度，打散程度越严重，则结果就是有可能任意坏3块盘时就灰刚好有数据的冗余，数据就会都丢失。所以，仅从打散程度这个维度来看，打散程度越小，数据丢失的越少。