VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法

VAF的概念和计算方法

VAF的全称是Variant Allele Frequency变异等位基因频率)或Variant Allele Fraction变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:

VAF=Allele DepthTotal Depth=ADDP

VAF用得比较多的地方是在二倍体germline的genotyping中,杂合位点的VAF在高深度(比如depth>80)情况下应该接近50%;如果VAF接近0.25/0.75说明基因组上可能还有另一份拷贝。另一个应用场景就是癌症基因组的somatic genotyping。肿瘤组织、cfDNA、ctDNA、CTC genotyping的结果中会包含正常的allele(与正常体细胞一致)以及突变的allele,其中突变allele的所占的比例就是VAF。VAF可以用于推断肿瘤的异质性和肿瘤纯度,此外VAF的高低可能会影响癌症的预后。

MAF的概念和计算方法

MAF的全称是Minor Allele Frequency次等位基因频率),是群体遗传学中的概念。MAF描述的是群体中丰度次高(第二高)的allele的频率。打个比方,在1000个人的群体中,某个位点有3种碱基类型:A、C、G。其中A碱基的频率是0.6,C碱基频率0.3,G碱基频率0.1,那么次等位基因频率指的就是C碱基的频率0.3。MAF可以用来区分某个allele是常见的多态性还是稀有变异。

要注意的是MAF在生物信息学中可能还指代Mutation Annotation Format、Multiple Alignment Format,也看到有人用mutant allele frequency表述VAF的概念,所以一定要注意区分。

肿瘤纯度的概念和计算方法

肿瘤纯度tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。因为取样过程很难保证取到的所有细胞都是肿瘤细胞,并且混杂的正常体细胞会对后续的分析产生影响(比如基因的表达水平),因此在生物信息学分析中最好计算肿瘤纯度并做相应的校正。常用的估算肿瘤纯度的生物信息学工具有:ABSOLUTE、PyClone、SciClone、EXPANDS、ESTIMATE等。

MCF的概念和计算方法

MCFMutant Cell Fraction)指的是包含某个SNV的细胞比例。在简化模型下——不考虑CNV,并且是二倍体杂合SNV的时候,MCF就是VAF的2倍:

MCF=VAF∗2

CCF的概念和计算方法

CCFCancer Cell Fraction)指的是肿瘤细胞中包含某个SNV的细胞所占比例。CCF和MCF之间也可以换算,设肿瘤纯度为α,在不考虑CNV,并且是二倍体杂合SNV时:

CCF=MCFα

参考

发表评论

匿名网友