随着ome为词尾的各种组学的出现,转录组学已经成为了人们了解生物信息的一个重要组成部分。人们使用了许多办法来掌握转录组的情况,主要分为两类,一类是基于杂交,一类是基于下一代测序技术(Next Generation Sequencing, NGS)。
基于杂交的办法,主要是依靠印刷有荧光标记探针的基因芯片来实现。比如说基因组芯片,它高密度的集成了分辨率高达几bp~100bp的探针,通过与样品杂交荧光显色的办法来勾画转录组的情况。虽然基因芯片高度集成,并且易于应用,成本低,但是,这一手段高度地依赖已知信息,这不利于发现新知,同时,它还存在着高背噪,非特异杂交所带来的无法分辨弱信号和过饱和信号的问题。当然,在不同样品的比较当中,甚至在同一芯片内部,都存在杂交不均匀带来的各种问题,需要诸如标准化等统计学手段来分析结果。
随着下一代测序技术的成熟,它很快就被应用到转录组学的研究上来,并被寄以厚望。相比于杂交来说,测序技术直接针对的是cDNA进行测序,所以基分辩率在理论上可以达到单碱基的水平。然而这在高通量的要求之下变得比较困难。人们使用deep-sequencing技术来解决这一问题。深度测序,顾名思意,其是基于已有的基因组水平上的测序,也就是说它需要完整的参考序列。从这个意义上来说,它也是依赖已知信息的,但是它不象基因芯片那来,还需要依赖开放阅读框ORF,或者外显子exon等信息。当然,你没有模板序列也一样能完成测序这一步,只不过比较麻烦的事情就变成了如何来拼接这些序列了。第二,对于Alternative splicing events以及SNP的研究也较基因芯片来说方便的多。第三,背噪小,不存在饱和问题。因为是基因于测序的,所以它可以很准确地比对到固定的基因组序列上去。当然,也不担心饱合问题,因为它是数个数的。这一点也直接导致了它的精确度比基因芯片要高,并且可重复性好。第四,它不需要克隆步骤,所以它对样品量的要求更低。[......]
首先需要安装:Superuser, terminal emulator,以及中文输入法,我安装的就是google pinyin。
然后启动terminal emulator,在terminal emulator中输入
su chmod 777 /data/app mount -o rw,remount -t yaffs2 /dev/block/mtdblock3 /system chmod 777 /system/app cp /data/app/com.google.android.inputmethod.pinyin-1.apk /system/app/
之后重启。
重启之后,打开任意一个可以激活输入法的地方,长按输入的区域,这时会跳出一个窗口[......]
通过上一节的介绍,我们了解了外显子分析的基本流程。这一节,我们关注一下质量分析。
其实直到目前为止,还没有什么很好的关于Affymetrix exon array的质量控制的分析手段。人们还是沿用了之前的一些统计分析方法,具体的来讲,就是看原图(image),看RLE和NUSE图像(参见:bioconductor系列教程之一分析基因芯片中(质量控制))。在实现上,仍然可以使用之前同样的R语句。
> setwd("~/Documents/exonArray/ExonarraysMCF7andMCF10Adata_cel") > library(affy) > library(simpleaffy) > pd< -read.AnnotatedDataFrame("filelist.txt",header=T,sep="\t",row.names=1) > pData(pd) group 0306_YH148_EX_exMCF7_r1.CEL a 0406_YH156_EX_exMCF7_r2.CEL a 0406_YH157_EX_exMCF7_r3.CEL a 0306_YH149_EX_exMCF10A_r1.CEL b 0406_YH158_EX_exMCF10A_r2.CEL b 0406_YH159_EX_exMCF10A_r3.CEL b > data< -ReadAffy(filenames=rownames(pData(pd)),phenoData=pd,verbose=T) 1 reading 0306_YH148_EX_exMCF7_r1.CEL ...instantiating an AffyBatch (intensity a 6553600x6 matrix)...done. Reading in : 0306_YH148_EX_exMCF7_r1.CEL Reading in : 0406_YH156_EX_exMCF7_r2.CEL Reading in : 0406_YH157_EX_exMCF7_r3.CEL Reading in : 0306_YH149_EX_exMCF10A_r1.CEL Reading in : 0406_YH158_EX_exMCF10A_r2.CEL Reading in : 0406_YH159_EX_exMCF10A_r3.CEL > library("exon.pmcdf") > data@cdfName< -"exon.pmcdf" > Pset< -fitPLM(data) > library(RColorBrewer) > colors< -brewer.pal(12,"Set3") > pdf("RLE.pdf") > Mbox(Pset,ylim=c(-1,1),col=colors,main="RLE") > dev.off() > pdf("NUSE.pdf") > boxplot(Pset,ylim=c(0.9, 1.25),col=colors,main="NUSE") > dev.off()
但是,使用这样的语句,即使你的机器非常的强大也会消耗很长的时间,就我的机器而言:2.66GHz Intel Core i7处理器,8GB 1067MHz DDR3内存,就处理上次教程一半的数据,就花掉大约两个半小时的时间来运行上面几行代码。
很明显,即使强大的处理能力,对于外显子分析来讲,依然是一个耗时的过程。反正是耗时,我们不如使用支持依机器配置的aroma.affymetrix库。上次我们有提到过这个库,它使用大量的IO操作来降低对内存的要求,你只需要有1.5GB的内存就足以应对外显子的分析了,还是很强大的。但是,时间上,你需要更强的耐心。
[......]
Tags: bioconductor, 生物信息学, 科技, 程序, 编程
必须假设,你已经有一定的mysql, R和BioConductor的使用经验。
首先,请阅读文章,《Comprehensive Analysis of Affymetrix Exon Arrays Using BioConductor》--Michał J. Okoniewski, Crispin J. Miller
我基本上是完全参照这篇文章来的,因为文章有些老,而当时的xmapcore还没有出来,所以加入了xmapcore的一些内容。在开始之前我必须强调使用xmapcore/exonmap需要大量的内存和64位运算,所以一定要先确定自己的机器的配置再决定是否使用它。如果你的机器配置没有这么高,那么我推荐你看以后的教程,在以后的教程中会介绍为低配置机器而准备的算法,它使用的是时间换空间的办法,使用大量I/O操作来完成运算,所以,速度会慢很多。
总结
[......]
Tags: bioconductor, 生物信息学, 科技, 程序, 编程
收集自己遇到的各类错误,以备资料。
exon altersplice analysis使用exonmap和xmapcore过程中,Mac OS X 10.6.5:
Error in mysqlNewConnection(dbDriver(drv), ...) : RS-DBI driver: (Failed to connect to database: Error: Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
错误提示无法正确使用mysql.sock连接MySql服务。解决办法,找到本机mysql.sock的安装目录,在/tmp/目录下创建一个它的链接,[......]
Tags: bioconductor, 生物信息学, 科技, 程序, 编程
家里新买了一台LG 42″LD450的高清电视机,由它替换掉以前台机的小显示器来看网络电视。为了方便看网络电视,还买得1TB硬盘一只,加上之前的NAS,整个家庭多媒体中心已经初具规模。
任务来了,装机。电脑是零五年的老机器,Dell E310,更换大硬盘之后,最先想到的就是重装一个Windows XP。家里有两张XP的正版,一张是日本买的日语版,一张是美国的的学生版。心想这应该很容易吧,因为之前装过没有一百次机,也有几十次了。没想到这次装机过程,真的是人生当中耗时最长,最为艰难的一次装机。
大约晚六点开始,一切都很平常,不用ghost,从光盘读,那慢是必然的。我趋它读盘的时间,吃了个晚饭,这一举动太明智了。装完后开始装驱动。问题来了,从DELL下载的声卡怎么都装不上。另外,1TB的硬盘只能认137G,这太让人郁闷了。不知道为什么,修改注册表让XP支持BigLAB也无法让它识别大硬盘。因为之前这个硬盘装过UBUNTU,又是用UBUNTU的工具重新分的区,可能我操作有小问题,XP无法正确识别硬盘容积。我手头又没有XP用的分区工具,就想着用UBUNTU live的碟下的分区工具把分区调整一下。不想,几个小时装的XP居然无法启动了。这时已经都半夜了。心下很是郁闷。之后试过修复引导区也不起作用。心想,反正声卡驱动也装不上,就不和自己较劲了。换思路。
第二方案,从原来E310的硬盘上读取恢复出厂状态用的镜像文件。读这个ghost文件,我还摸索了一下。我先下载了一个WinPE的镜像,刻了张光盘,然后用它先生成了一个可能启动的U盘。从WinPE的工具当中,可以读到原硬盘的两个隐藏分区,可是就是无法看到里面的内容。试了几次,放弃过程中。最后想,还是用UBUNTU live的碟试一下。结果加载隐藏分区之后,果然可以看到隐藏分区里的镜像文件。好激动。可是,把它拷贝出来的过程却是漫长无比的。不知道为什么UBUNTU似乎对拷贝大文件有BUG,奇慢无比。三个多小时就这样过去了。中间我都睡了一小觉了。
好容易拷贝完了,使用WINPE从U盘启动,然后把镜像文件写到新的大硬盘里去。等待永远是装机的主要任务。重启后居然无法从硬盘启动,出现了bad pbr signature错误提示,在WinPE下重新修复引导区才把它搞定。因为原来的镜像文件指向的硬盘位置之前还有一个小的隐藏分区,而我的新硬盘没有这个分区,所以必须修复它的引导,让它指向正确的操作系统地址。
终于,在第二天天微微亮的时候从硬盘启动让新显示器亮起来了。之后又是漫长的卸载随机软件,升级操作系统补丁和安装防病毒软件的过程。
之后就是修改显示器分辨率了。我们知道,高清显示分辨率是1920X1080,可是从分辨率设置的选项当中完全看不到这一选项,它只是兼容1280X1024等分辨率模式。这样看到的画面全部都变矮胖了。不爽。于是在网上搜索,终于让我找着一个可以工作的办法。原网址:http://komku.blogspot.com/2009/10/how-to-get-1920×1080-full-hd-resolution.html
首先下载并安装显示管理软件:Asset Manager (moninfo.exe)。
http://www.entechtaiwan.com/util/moninfo.shtm
确保电脑连接在高清电视上,并且安装了显卡驱动。然后运行Moninfo: start > All Programs > MonInfo > MonInfo
选择高清电视的ID,拷贝图中蓝色的部分至一个文本文档。这部分数字被称为DTD,它是一组保存着显示器相关描述信息的数字。对于LD450来说,这组数字是:[......]
上一节,我们了解了分析基因芯片的预处理的基本知识。其实那只是一个热身。这一节,我们来学习拿到基因芯片数据时更基本的操作:质量控制。只有通过质量检测合格的芯片数据才会真正地进入数据分析的步骤。本节将学习以下内容:
UTF8[......]
Tags: bioconductor, 生物信息学, 科技, 程序, 编程
我们先用一个图来描述一下基因芯片(通常指Affymetrix microarray chips)实验的流程。
在这个流程中,预处理当中图像分析所指的图像就是基因芯片实验完成之后由仪器对杂交结果照像生成的图片。生物芯片实际上就是一堆基因特异探针的集成。当mRNA或cDNA文库标记后与这些探针相杂交,经洗脱,与探针有特异性结合的cDNA就保留了下来,因为它本身带有荧光标计,所以可以被成像系统捕捉下来。为了减少实验产生的噪音,Affy基因芯片在设计时,对每个基因都集成了20组不同的探针,这些特异性探针每个都由25个碱基组成,被称为Perfect Match(PM)探针。与其直接相邻的,也是20组不同探针,这些探针与前面所提的探针序列基本相同,只是正中间的一个碱基被换成了非特异的碱基,理论上来讲,它们应该很难与特异性探针形成相同的阳性结果。而这20组探针被称为MisMatch(MM)探针。有了MM探针,基因芯片就有了阴对内参,可以用于对杂交效果的检测。[......]
Tags: bioconductor, 生物信息学, 科技, 程序, 编程
![intel-vga-control-panel[1] 没有1920X1080高清显示器分辨率](http://www.qiuworld.com/blog/wp-content/uploads/2010/11/intel-vga-control-panel1.png)


近期评论