陈连福的NGS生物信息学培训教材V2.1

序:

我是陈连福。于2005进入华中农业大学,开始进入生物学大门。至今(2014年)在生物信息学的NGS分析领域有了一点建树,对NGS分析有了一些摸索和经验。

有感于NGS生物信息分析入门艰难,精通更难,同时学习过的内容容易忘记。同时,生物信息学的重要性越来越大,又加其技术性较深,未来永远会缺乏精通生物信息学的人才。因此,我将一些个人经验和NGS生物信息分析技术记录了下来,逐渐形成了此教材。

在 2013年暑期,我个人在华中农业大学开办了一次培训班,当时教材版本是V1.0;2013年寒假时期,再次开办了一次培训班,其教材版本是V2.0;现 在,2014年初,将其略作修改,形成了本次的教材版本V2.1,并传播给对NGS生物信息分析感兴趣的同学和老师们!

本教材重在各个生物信息软件的操作技巧,将各种NGS数据分析方法贯穿一体。在本教材的指引下,相信会节约很多人1~3年的自行摸索时间!

同时,在生物信息学的道路上越走越远,本教材的版本会不断更新...

最后,本教材几乎所有的字都是本人亲自敲打出来的,难免会有各种错误,敬请谅解!因此,此教材版权仅属于我!此外,有少部分内容使用了华大的资料,后续版本中会删除!

此教材属于内部资料,仅限陈连福和其朋友们进行技术性交流,不可随意传播!

目录:

1.    安装CENOS 6 64位系统 (X86_64)    1
1.1.    本次生物信息学培训的电脑硬件和软件要求    1
1.2.    下载CENOS系统    1
1.3.    将CENTOS系统刻录到DVD光盘上    1
1.4.    安装CENTOS系统    2
2.    LINUX系统入门    9
2.1.    LINUX命令    9
2.2.    CENTOS系统初装整理    14
3.    NEXT GENERATION SEQUENCING TECHNOLOGY    18
3.1.    ILLUMINA测序的样品要求    18
3.2.    ILLUMINA文库制备与检测    18
3.3.    ILLUMINA CLUSTER STATION制备    19
3.4.    ILLUMINA HISEQ2000上机测序    20
4.    NGS数据及其质量控制    22
4.1.    NGS数据的特征    22
4.2.    NGS数据的过滤    24
4.3.    NGS READS的修正    31
5.    基因组DE NOVO组装    36
5.1.    基因组DE NOVO组装原理    36
5.2.    使用VELVET进行基因组DE NOVO组装    41
5.3.    使用SOAPDENOVO进行基因组DE NOVO组装    47
5.4.    使用ALLPATHS-LG进行基因组DE NOVO组装    50
5.5.    使用GAPFILLER对DE NOVO组装结果补洞处理    60
6.    GENOME REPEAT SEQUENCE PREDICTION    62
6.1.    REPEATS的分类和鉴定软件    62
6.2.    使用REPEATMASKER进行重复序列鉴定    64
6.3.    REPEATMODELER的安装与使用    66
7.    短序列的比对与分析    69
7.1.    使用BOWTIE2进行短序列比对    69
7.2.    使用TOPHAT将RNA-SEQ的READS比对到基因组序列    75
7.3.    SAM格式介绍    80
7.4.    使用SAMTOOLS操作SAM文件    81
7.5.    使用PICARD操作SAM文件    86
8.    VARIANTS 分析    88
8.1.    使用GATK进行VARIANTS CALLING    88
8.2.    SAMTOOLS用于VARIANTS CALLING    89
8.3.    结合GATK和SAMTOOLS进行VARIANTS CALLING    92
8.4.    VCF格式详解    94
9.    无参考基因组的转录组分析    97
9.1.    使用TRINITY进行转录组的DE NOVO组装    97
9.2.    差异表达分析    100
9.3.    蛋白编码区预测    103
10.    有参考基因组的转录组分析    105
10.1.    使用TRINITY进行有基因组指导的组装    105
10.2.    使用CUFFLINKS进行有参考基因组的基因表达分析    106
11.    基因预测    113
11.1.    GFF3格式介绍    113
11.2.    使用PASA进行依赖于表达序列的基因预测    114
11.3.    使用AUGUSTUS进行基因预测    121
11.4.    SNAP    126
11.5.    GENEMARK_ES    129
11.6.    使用EVM整合基因预测结果    131
11.7.    PASA结合EVM整合出完整基因预测结果    134
12.    基因组浏览器GBROWSE    137
12.1.    GBROWSE的安装    137
12.2.    GBROWSE的配置    140
12.3.    GBROWSE的数据的导入    143
12.4.    NGS数据的导入    144
12.5.    GBROWSE PRACTISE    147
13.    基因功能注释与富集分析    150
13.1.    NR注释    150
13.2.    SWISS-PROT注释    153
13.3.    COG注释    154
13.4.    INTERPRO注释    156
13.5.    GO注释和富集分析    157
13.6.    KEGG注释和PATHWAY富集分析    161
13.7.    CAZYME注释    162
14.    使用ORTHOMCL进行同源基因分析    165
14.1.    ORTHOMCL介绍    165
14.2.    ORTHOMCL的使用步骤    167
14.3.    使用单拷贝同源基因构建系统发育树    169
14.4.    使用FIGTREE来画进化树    171
14.5.    ORTHOMCL PRACTISE    171
15.    基因组的共线性分析    173
15.1.    MCSCANX安装    173
15.2.    MCSCANX使用    173
15.3.    MCSCANX PRACTISE    175
16.    生物信息学相关杂技    177
16.1.    PERL入门    177
16.2.    MYSQL的简单运用    188
16.3.    简易搭建WWW服务器    190
16.4.    简易HTML网页制作    191

交流:

谨将此教材邮寄给志同道合的人!

普通教材使用A4纸双面打印,打印费50元;精装加封皮教材,多需要5元;快递默认为韵达。

请勿随意传播本教材,以免版权纠纷,谢谢!

不提供电子版!

  • 文章来源: 未知。文章来源待更新,请等待。
  • 版权说明: 除非特殊说明,本站文章版权归于文章来源网站或投稿作者。未标记来源文章,请原作者联系管理员更新版权信息

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:12   其中:访客  12   博主  0

  1. Fred 0

    请问如何购买?

    • lq102021 1

      @Fred 淘宝上可以购买

      • birds 0

        @lq102021 cg626@163.com
        需要一份。

  2. lq102021 1

    淘宝上可以购买到

  3. abccnfh 0

    现在的淘宝获取网址:http://item.taobao.com/item.htm?spm=686.1000925.1000774.13.5CPwN8&id=38069597568

  4. bobo 0

    链接不行了,请问还有哪里有卖的?

  5. 徐云剑 0

    陈老师:
    您好!
    我是安农的研究生,最近接触生物信息学,对此领域颇有兴趣,一直想有本与此类相关的中文书,得知您的这本书,大致看了一下数目,着实吸引了我,几番查找您的资料,未找到联系方式,故借此留言。我也想拥有这本讲义,所以希望能和您进行沟通,我的邮箱是xuyunjian1992@163.com

  6. YULUO 1

    你好,我想请问repeatmodeler出现如下错误怎么办??

    FATAL: xdf_db_fopen failed code 22 (identifier index does not exist) on
    database “hmi”: the file “hmi.xni” was not found. To create a
    sequence identifier index, execute xdformat with the -I option or
    re-index the existing database (faster) using the -X option.
    RepeatModeler::sampleFromDB() Could not obtain sequence gi|245 from the database!

  7. YULUO 1

    请问这本教材哪里可以得到?我也想要

  8. laosiji 0

    您好,我是安徽农业大学的研究生。很想购买您的教材,想请问您如何购买

  9. joefish 0

    这个教材如何购买啊,同求

  10. hadeng 0

    老师您好,,哪里能购买您的教材?望回复,我的邮箱751492536@qq.com