admin on 十二月 23rd, 2011

这一节的目标是画出下面的图

连线

连线

所谓连线,就是连接染色体组两个不同位置的线。这是circos的最主要目的及用途之一。[......]

Read more

Tags: , , ,

admin on 十二月 22nd, 2011

这一节的目标是画出下面的图

亮显强调

亮显强调

所谓突出标记,或者说亮显强调,多是通过大的反差明显或者符合色彩心理学的色块来将数据分组强调出来。在使用circos绘制基因组时,可以使用这一办法,将不同区域同一组内的基因亮显出来。[......]

Read more

Tags: , , ,

admin on 十一月 15th, 2011

安装HTSeq,需要Python版本在2.5以上(但是在Python 3下不行),并且需要安装NumPy。如果已经安装了NumPy的话,安装HTSeq并不困难。但是如果没有安装的话,可能会比较麻烦。

首先,需要安装python 2.5以上的版本。因为centOS 5所带的Python版本是2.4,无法满足HTSeq的安装要求。但是,我并不建议直接升组安装python2.5以上的版本,因为yum等很多功能都由python来实现,所以我的办法是全新安装一个python的版本到一个指定的目录下面去。

下载并安装Python 2.7.2.

[ouj@qiuworld.com ~]$ tar -xzvf Python-2.7.2.tgz
[ouj@qiuworld.com ~]$ cd Python-2.7.2
[ouj@qiuworld.com Python-2.7.2]$ sudo yum install tcl #需要安装tcl/tk库
[ouj@qiuworld.com Python-2.7.2]$ sudo yum install tcl-devel
[ouj@qiuworld.com Python-2.7.2]$ sudo yum install tk
[ouj@qiuworld.com Python-2.7.2]$ sudo yum install tk-devel
[ouj@qiuworld.com Python-2.7.2]$ ./configure --prefix=/opt/python2.7 --with-threads --enable-shared
[ouj@qiuworld.com Python-2.7.2]$ make
[ouj@qiuworld.com Python-2.7.2]$ sudo make install
[ouj@qiuworld.com Python-2.7.2]$ sudo ln -s /opt/python2.7/bin/python /usr/bin/python2.7
[ouj@qiuworld.com Python-2.7.2]$ sudo echo '/opt/python2.7/lib'>> /etc/ld.so.conf.d/opt-python2.7.conf
[ouj@qiuworld.com Python-2.7.2]$ sudo /sbin/ldconfig
[ouj@qiuworld.com Python-2.7.2]$ python2.7
Python 2.7.2 (default, Nov 14 2011, 17:02:46) 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy
Traceback (most recent call last):
  File "", line 1, in 
ImportError: No module named numpy

如果不新建/etc/ld.so.conf.d/opt-python2.7.conf文件并在当中写入一行/opt/python2.7/lib,将会得到如下错误:[......]

Read more

Tags: , ,

admin on 十一月 4th, 2011

本节的目标就是画出如下的图

circos绘制简单的ideogram

基础:circos作业流程

circos流程图

定义:
The symbolic representation of chromosomes are called ideograms.

circos为了能准确地画出染色体示意图,染色体的定义,位置,大小,以及显示的形式都是circos需要考虑的。这些要素需要在数据文件当中定义出来。[......]

Read more

Tags: , , ,

admin on 十一月 2nd, 2011

引子

Circular genome and data visualization with Circos (950 x 234)

闲来无事,翻看CELL杂志,发现很多基因组的图都使用circos来作图,于是就去circos.ca网上看了一眼,发现果然是个基因组研究绘图强大工具,应该为生物信息员掌握。于是花了点时间,来试验它的每一个设置。上网搜索发现,它的中文资料少得可怜,于是将心得体会做一总结,形成这一系列教程。希望能对急于掌握circos又不擅长阅读英语的人有所帮助。--糗世界之糗糗

下载与安装

下载地址:http://circos.ca/software/download/circos/

circos是基于perl的脚本程序。它的安装难度在于安装好perl以及它所需要的模块。对于windows用户,可以试着安装Strawberry Perl或者ActiveState Perl。这两者都是不错的选择。对于Unix/linux/MacOS用户,很可能你已经安装了perl,否则,你可以到http://www.perl.org/get.html去下载安装。

我们需要测试一下perl的环境, UNIX/Linux/MacOS用户

> which perl
/usr/bin/perl
> perl -v
This is perl, v5.10.0 built for ...

Windows用户

> perl -v
This is perl, v5.10.0 built for ...

接着,我们将下载下来的circos程序解压,假设它的目录是circos-x.xx

> cd circos-x.xx
> bin/circos -man

你可能得到一个帮助页面,那么你安装circos已经成功。也可能得到是出错信息。[......]

Read more

Tags: , ,

admin on 九月 21st, 2011

任务:需要删除某一数据库内所有以数字开头的表格。

命令如下:

mysql> SELECT concat("drop tables ",group_concat(TABLE_NAME), ';') AS statement FROM information_schema.TABLES WHERE TABLE_SCHEMA="test" AND TABLE_NAME REGEXP '^[0-9]';
+------------------------------+
| statement |
+------------------------------+
| DROP TABLES 123_abc,123_cdf; |
+------------------------------+
1 ROW IN SET (0.00 sec)
 
mysql> DROP TABLES 123_abc,123_cdf;
Query OK, 0 ROWS affected (0.00 sec)

Tags: , ,

admin on 七月 18th, 2011

TopHat是一个基于Bowtie的RNA-Seq数据分析工具。它可以快速确认exon-exon剪切拼接事件。TopHat有Linux和OS X x86_64编译版本,当然也可以使用原代码编译适合自己操作系统的版本。

其上游软件是Bowtie,下游是Cufflinks。

理论上,TopHat是针对Illumina Genome Analyzer而设计的软件,它偶尔也能对其它来源的数据进[......]

Read more

Tags: ,

admin on 六月 20th, 2011

之前我介绍了illumina CASAVA 序列比对使用说明.如果现在的问题变成了,你想象使用命令一样直接分析任意的fastq, fasta,export, 或者qseq文件,而不需要由*.bcl经过转换而生成的fastq文件以及一些相关的辅助文件,应该怎么办?如果直接按照前文的作法,那么它一定会提醒你找不到DemultiplexedBustartdSummary.xml而无法继续运行。这个时候我[......]

Read more

Tags: ,

admin on 六月 17th, 2011

我们假设任务是序列比对,而不包括Bcl文件的转换,也不包括后期的数据处理,只单单是把序列比对的程序跑起来。

(一)设置参考序列文件

在安装好CASAVA后,我们需要做的是准备好reference文件。它有一定的目录格式和文件格式要求,具体需要参见其说明手册。但是主要的一些参考序列文件在illumina的网站上可以下载到。可以下载到的文件其中包括:

  1. Arabidopsis_thaliana/
  2. Bacillus_cereus_ATCC_10987/
  3. Bos_taurus/
  4. Caenorhabditis_elegans/
  5. Canis_familiaris
  6. Drosophila_melanogaster/
  7. Equus_caballus/
  8. Escherichia_coli_K_12_DH10B/
  9. Escherichia_coli_K_12_MG1655/
  10. Gallus_gallus/
  11. Homo_sapiens/
  12. Mus_musculus/
  13. Mycobacterium_tuberculosis_H37RV/
  14. Oryza_sativa_japonica/2
  15. Pan_troglodytes/
  16. PhiX/
  17. Pseudomonas_aeruginosa_PAO1/
  18. Rattus_norvegicus/
  19. Rhodobacter_sphaeroides_2.4.1/
  20. Saccharomyces_cerevisiae/
  21. Sorghum_bicolor/
  22. Staphylococcus_aureus_NCTC_8325/
  23. Sus_scrofa/
  24. Zea_mays/

使用ftp下载,地址:ftp.illumina.com

用户名: igenome

密码:G3nom3s4u

以人类基因组为例,我们使用命令:

wget –ftp-user=igenome –ftp-password=G3nom3s4u ftp://ftp.illumina.com/Homo_sapiens/UCSC/hg18/Homo_sapiens_UCSC_hg18.tar.gz

即可。文件4.28GB下载需要一段时间。

[......]

Read more

Tags: ,

admin on 五月 27th, 2011

MEME是用于从一堆序列中搜索功能结构域的工具。比如说当你拿到了许多CHIP-chip或者CHIP-seq的数据,当分析出峰所处的位置之后可以得到一些这些峰所代表的序列,这就是蛋白质与DNA相到作用所保护下来的片段。所以使用MEME搜索其中非常相似的序列片段就可能是有一定功能的结构域。

所以,MEME的输入必须至少有一个Pearson/FASTA格式的序列文件。

命令:meme <dataset> [optional arguments]

这里的<dataset>就是那个序列文件,必须是Pearson/FASTA格式,文件格式示例:

          >ICYA_MANSE INSECTICYANIN A FORM (BLUE BILIPROTEIN)
          GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
          LPLENENQGKCTIAEYKYDGKKASVYNSFVSNGVKEYMEGDLEIAPDA
          >LACB_BOVIN BETA-LACTOGLOBULIN PRECURSOR (BETA-LG)
          MKCLLLALALTCGAQALIVTQTMKGLDI
          QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

FASTA文件使用 “>”来进行注释,其后第一个单词为序列名,其后是一些说明性的文字。而后另起一行为序列,直到下一个注释符号截止。

MEME可以读取FASTA文件当中的权重。权重为单独的一行注释,以>WEIGHT这一注释符号开始,注意WEIGHT必须全部大写。其后是介于0~1的数字。这些数字按照序列的排序排布。

          >WEIGHTS 0.5 .5 1.0
          >seq1
          GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
          >seq2
          GDMFCPGYCPDVKPVGDFDLSAFAGAWHELAK
          >seq3
          QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

下面就是meme的相关参数的说明:[......]

Read more

Tags: ,