安装HTSeq,需要Python版本在2.5以上(但是在Python 3下不行),并且需要安装NumPy。如果已经安装了NumPy的话,安装HTSeq并不困难。但是如果没有安装的话,可能会比较麻烦。
首先,需要安装python 2.5以上的版本。因为centOS 5所带的Python版本是2.4,无法满足HTSeq的安装要求。但是,我并不建议直接升组安装python2.5以上的版本,因为yum等很多功能都由python来实现,所以我的办法是全新安装一个python的版本到一个指定的目录下面去。
下载并安装Python 2.7.2.
[ouj@qiuworld.com ~]$ tar -xzvf Python-2.7.2.tgz [ouj@qiuworld.com ~]$ cd Python-2.7.2 [ouj@qiuworld.com Python-2.7.2]$ sudo yum install tcl #需要安装tcl/tk库 [ouj@qiuworld.com Python-2.7.2]$ sudo yum install tcl-devel [ouj@qiuworld.com Python-2.7.2]$ sudo yum install tk [ouj@qiuworld.com Python-2.7.2]$ sudo yum install tk-devel [ouj@qiuworld.com Python-2.7.2]$ ./configure --prefix=/opt/python2.7 --with-threads --enable-shared [ouj@qiuworld.com Python-2.7.2]$ make [ouj@qiuworld.com Python-2.7.2]$ sudo make install [ouj@qiuworld.com Python-2.7.2]$ sudo ln -s /opt/python2.7/bin/python /usr/bin/python2.7 [ouj@qiuworld.com Python-2.7.2]$ sudo echo '/opt/python2.7/lib'>> /etc/ld.so.conf.d/opt-python2.7.conf [ouj@qiuworld.com Python-2.7.2]$ sudo /sbin/ldconfig [ouj@qiuworld.com Python-2.7.2]$ python2.7 Python 2.7.2 (default, Nov 14 2011, 17:02:46) [GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import numpy Traceback (most recent call last): File "", line 1, in ImportError: No module named numpy
如果不新建/etc/ld.so.conf.d/opt-python2.7.conf文件并在当中写入一行/opt/python2.7/lib,将会得到如下错误:[......]
引子

闲来无事,翻看CELL杂志,发现很多基因组的图都使用circos来作图,于是就去circos.ca网上看了一眼,发现果然是个基因组研究绘图强大工具,应该为生物信息员掌握。于是花了点时间,来试验它的每一个设置。上网搜索发现,它的中文资料少得可怜,于是将心得体会做一总结,形成这一系列教程。希望能对急于掌握circos又不擅长阅读英语的人有所帮助。--糗世界之糗糗
下载与安装
下载地址:http://circos.ca/software/download/circos/
circos是基于perl的脚本程序。它的安装难度在于安装好perl以及它所需要的模块。对于windows用户,可以试着安装Strawberry Perl或者ActiveState Perl。这两者都是不错的选择。对于Unix/linux/MacOS用户,很可能你已经安装了perl,否则,你可以到http://www.perl.org/get.html去下载安装。
我们需要测试一下perl的环境, UNIX/Linux/MacOS用户
> which perl /usr/bin/perl > perl -v This is perl, v5.10.0 built for ...
Windows用户
> perl -v This is perl, v5.10.0 built for ...
接着,我们将下载下来的circos程序解压,假设它的目录是circos-x.xx
> cd circos-x.xx > bin/circos -man
你可能得到一个帮助页面,那么你安装circos已经成功。也可能得到是出错信息。[......]
任务:需要删除某一数据库内所有以数字开头的表格。
命令如下:
mysql> SELECT concat("drop tables ",group_concat(TABLE_NAME), ';') AS statement FROM information_schema.TABLES WHERE TABLE_SCHEMA="test" AND TABLE_NAME REGEXP '^[0-9]'; +------------------------------+ | statement | +------------------------------+ | DROP TABLES 123_abc,123_cdf; | +------------------------------+ 1 ROW IN SET (0.00 sec) mysql> DROP TABLES 123_abc,123_cdf; Query OK, 0 ROWS affected (0.00 sec)
之前我介绍了illumina CASAVA 序列比对使用说明.如果现在的问题变成了,你想象使用命令一样直接分析任意的fastq, fasta,export, 或者qseq文件,而不需要由*.bcl经过转换而生成的fastq文件以及一些相关的辅助文件,应该怎么办?如果直接按照前文的作法,那么它一定会提醒你找不到DemultiplexedBustartdSummary.xml而无法继续运行。这个时候我[......]
我们假设任务是序列比对,而不包括Bcl文件的转换,也不包括后期的数据处理,只单单是把序列比对的程序跑起来。
(一)设置参考序列文件
在安装好CASAVA后,我们需要做的是准备好reference文件。它有一定的目录格式和文件格式要求,具体需要参见其说明手册。但是主要的一些参考序列文件在illumina的网站上可以下载到。可以下载到的文件其中包括:
- Arabidopsis_thaliana/
- Bacillus_cereus_ATCC_10987/
- Bos_taurus/
- Caenorhabditis_elegans/
- Canis_familiaris
- Drosophila_melanogaster/
- Equus_caballus/
- Escherichia_coli_K_12_DH10B/
- Escherichia_coli_K_12_MG1655/
- Gallus_gallus/
- Homo_sapiens/
- Mus_musculus/
- Mycobacterium_tuberculosis_H37RV/
- Oryza_sativa_japonica/2
- Pan_troglodytes/
- PhiX/
- Pseudomonas_aeruginosa_PAO1/
- Rattus_norvegicus/
- Rhodobacter_sphaeroides_2.4.1/
- Saccharomyces_cerevisiae/
- Sorghum_bicolor/
- Staphylococcus_aureus_NCTC_8325/
- Sus_scrofa/
- Zea_mays/
使用ftp下载,地址:ftp.illumina.com
用户名: igenome
密码:G3nom3s4u
以人类基因组为例,我们使用命令:
wget –ftp-user=igenome –ftp-password=G3nom3s4u ftp://ftp.illumina.com/Homo_sapiens/UCSC/hg18/Homo_sapiens_UCSC_hg18.tar.gz
即可。文件4.28GB下载需要一段时间。
[......]
MEME是用于从一堆序列中搜索功能结构域的工具。比如说当你拿到了许多CHIP-chip或者CHIP-seq的数据,当分析出峰所处的位置之后可以得到一些这些峰所代表的序列,这就是蛋白质与DNA相到作用所保护下来的片段。所以使用MEME搜索其中非常相似的序列片段就可能是有一定功能的结构域。
所以,MEME的输入必须至少有一个Pearson/FASTA格式的序列文件。
命令:meme <dataset> [optional arguments]
这里的<dataset>就是那个序列文件,必须是Pearson/FASTA格式,文件格式示例:
>ICYA_MANSE INSECTICYANIN A FORM (BLUE BILIPROTEIN)
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
LPLENENQGKCTIAEYKYDGKKASVYNSFVSNGVKEYMEGDLEIAPDA
>LACB_BOVIN BETA-LACTOGLOBULIN PRECURSOR (BETA-LG)
MKCLLLALALTCGAQALIVTQTMKGLDI
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW
FASTA文件使用 “>”来进行注释,其后第一个单词为序列名,其后是一些说明性的文字。而后另起一行为序列,直到下一个注释符号截止。
MEME可以读取FASTA文件当中的权重。权重为单独的一行注释,以>WEIGHT这一注释符号开始,注意WEIGHT必须全部大写。其后是介于0~1的数字。这些数字按照序列的排序排布。
>WEIGHTS 0.5 .5 1.0
>seq1
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
>seq2
GDMFCPGYCPDVKPVGDFDLSAFAGAWHELAK
>seq3
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW
下面就是meme的相关参数的说明:[......]





近期评论