上传测序数据到GEO

来源: 欧易生物评论7,213

首先向大家简单介绍下GEO数据库,它是为了共享基因表达数据而建立的一个在线数据库。很多文章发表都需要上传到GEO数据库,还不赶紧学习下,(*^__^*)。

如果要上传GEO数据库,首先要建立一个NCBI的账号,再建立一个GEO的账号。可以从https://www.ncbi.nlm.nih.gov/geo/LogintoSubmit进入创建。

上传测序数据到GEO-图片1

创建完成后,再点击Submission Guidelines进入GEO主页。

接下来,选择你要上传的数据类型,这里只介绍上传转录组测序数据。

点击High-throughput sequence submissions

上传测序数据到GEO-图片2

上传总共需要3类文件,

1.Metadata spreadsheet(上传所需要填写的表格,比较麻烦,后面详细介绍)

2.Processed datafiles(基因表达量文件,也就是FPKM)

如下图所示。因为这里有Novel类基因(预测基因),所以需要提供:

Chromosome(染色体号)Strand(链的正负)start(起始位置)length(长度)。

如果没有Novel类基因,只需要提供A、B列即可。

上传测序数据到GEO-图片3

3.Raw data files(原始的测序数据)

Metadata spreadsheet详细介绍

进入High-throughput sequence submissions页面后,下载Metadata spreadsheet

上传测序数据到GEO-图片4

1SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者(根据自己情况填写);

上传测序数据到GEO-图片5

2SAMPLES:跟样本信息相关的内容:样本名称,物种,特征,及对应的表达值数据和原始数据;

上传测序数据到GEO-图片6

3PROTOCOLS:样本的实验准备和文库构建的描述;

上传测序数据到GEO-图片7

4DATAPROCESSINGPIPELINE:数据处理方面的描述,如数据预处理,数据比对,采用的基因组版本等;

上传测序数据到GEO-图片8

5PROCESSEDDATAFILES:处理后数据名称,格式,及MD5码。即FPKM文件,其中file type一列可以统一写成abundance measurements。file checksum列即为MD5码(MD5码生成软件可以直接百度下载)。

上传测序数据到GEO-图片9

6RAWFILES:原始数据名称,格式,MD5码,平台类型,测序读长及单双端信息;

上传测序数据到GEO-图片10

7PAIRED-END EXPERIMENTS:如果是双端测序,还需要填写双端原始数据的名称,插入片段长度及插入长度的标准偏差。

上传测序数据到GEO-图片11

到这里METADATA TEMPLATE算是填写完成了,接下来就可以进行上传数据啦!

 

首先需要下载Filezilla软件,然后在Filezilla中输入GEO地址:ftp-private.ncbi.hlm.nih.gov并登陆(用户名和密码可进入High-throughput sequence submissions页面中寻找,有

可能定期更新),即可连接GEO数据库进行上传了。

上传测序数据到GEO-图片12

注:Filezilla软件的设置一定要根据下图重新设置,不然可能会一直中断

 

上传测序数据到GEO-图片13

 

上传测序数据到GEO-图片14

 

等待数据都上传完成后就可以写邮件告诉GEO数据上传完成了。邮件内容可以写成如下格式(仅供参考^_^)

Dear sir,

We had finished the raw data uploading.Please check according to the following information:

GEOaccount;你的GEO用户名

Path of the directory deposited;(存放数据的路径,例如/fasp/12345)

Public release date;例如2017/2/21(根据情况填写数据需要公开的日期)

Our data files were named as follows:

GX2_1.clean.fq.gz
GX2_2.clean.fq.gz
GX3_1.clean.fq.gz
GX3_2.clean.fq.gz
GX4_1.clean.fq.gz
GX4_2.clean.fq.gz
GX5_1.clean.fq.gz
GX5_2.clean.fq.gz
GX6_1.clean.fq.gz
GX6_2.clean.fq.gz

Our processed data files were named as follows:

GX2.txt,GX3.txt,GX4.txt,GX5.txt,GX6.txt

And METADATA TEMPLATE was named as: seq_template_v2.1.xls

最后,就大功告成啦,接下来两天内应该会收到邮件,如果上传成功就会给你GEO的登录号,不然也会告诉你哪里有错误,需要重新修改。

发表评论

匿名网友