maftools使用方法总结以及常见问题

本文作为总结篇,将在这里对已经写过的几篇文章内容进行概括,可作为整个系列文章的目录,此外还有一些常见问题的解决方法。加上本篇目前一共写了5篇maftools相关文章,基本上按照整个官方文档使用TCGA-LUAD的数据都跑了一遍,并且加上了一些数据整理、重要参数的解释以及自己遇到的问题,应该可以说是目前最完整的中文资料了。其实maftools本身使用起来很简单,在读入数据之后,基本可视化和数据分析通过1~2行代码就能实现,参考官方文档的example足够了。我写得比较细、花的篇幅较多是因为自己也是初学肿瘤的数据分析,通过学习maftools这样功能丰富的分析工具可以更快速入门。

目录 & 主要内容

1. 《肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求

  • maftools的简要介绍
  • maftools的安装方法
  • maftools对读入文件的一些要求

2. 《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化

  • 突变数据(MAF文件)以及临床数据的下载和处理方法
  • 突变数据的读入以及统计
  • 如何使用maftools对突变数据进行可视化,包括:汇总统计图、瀑布图(oncoplot、oncostrip)、Lollipop图、Rainfall图、TMB的统计和可视化、VAF的可视化、突变基因词云

3. 《肿瘤变异数据分析和可视化工具maftools:突变的数据分析

  • 突变的互斥性(exclusive)和共现性(Co-occurrence)分析
  • 预测癌症驱动基因
  • pfam注释和统计
  • 泛癌的比较分析
  • 生存分析(KM曲线)
  • 比较两个MAF文件(队列)
  • 药物基因互作
  • 致癌信号通路
  • 肿瘤异质性和MATH score
  • 突变特征分析

4. 《肿瘤变异数据分析和可视化工具maftools:CNV的可视化

  • CNV数据下载和处理
  • 使用maftools读取GISTIC输出的CNV数据并统计
  • CNV数据的可视化,包括:染色体图、气泡图、瀑布图、segment文件的可视化

常见问题

1. 安装的一些问题

(1)从Bioconductor还是GitHub安装

  • 这款软件目前迭代速度很快,基本上每隔几天就会在GitHub上有更新,并且Bioconductor上版本比较落后,所以建议还是从GitHub安装。

(2)安装总是失败

  • maftools安装起来还挺麻烦的,主要就是依赖包太多了。选择合适的源(比如地理位置离你最近的),失败就多试几次总是会成功的。

2. 数据读入报错 & 不知道如何处理数据

maftools内置了一些已经处理好的文件,如果数据读入报错或是不知道数据怎么处理,可以在R中找到这些文件的路径,然后仔细看看,对照修改自己的文件。比如:

> system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools')
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/tcga_laml.maf.gz"
> system.file("extdata", "TCGA.AB.3009.hg19.seg.txt", package = "maftools")
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/TCGA.AB.3009.hg19.seg.txt"

3. maftools中的BUG

maftools的BUG还挺多,但也在不断完善的过程中,如果遇到问题可以在maftools的GitHub中创建issue咨询作者,处理速度还挺快,也算是给开源社区做贡献。我目前遇到过的问题有:

  • typo,不光是图和统计的表中,连帮助和文档里都有不少typo。所以分析结果要放到文章里的话,务必仔细检查几遍。
  • 生成的图和官方文档的不一致,比如基因名没有斜体,没有背景的网格。最后发现可能是Bioconductor的版本太老,更新了GitHub最新版解决。
  • 有些图直接通过X11显示有问题(我用的Xmanager)。直接输出文件正常。
  • 图片中的字超出画布。可以生成矢量图(比如pdf)之后,再用Adobe Illustrator之类的软件进行调整。
  • 有些参数可能完全不起作用,遇到这类问题可以直接输入函数名看下源代码,有的时候真的没有做处理。

发表评论

匿名网友