第一百零一章生物与大数据的关系  学医路漫漫

关灯 护眼 舒适     字体:

上一章 目录 下一页(1/2) 繁体版

亲爱的书友,您现在访问的是转码页面,会导致更新不及时及无法正常下载,请访问真实地址:http://m.shubao1.cc/65427/103.html

前言:我们需要结合数学,计算机科学和生物才能对生物科研有更好的指导作用。

生物学的科研在经历一场科学范式的改变,如同开普勒对其老师第谷的天文数据的整理提出的开普勒三大定律,然后有牛顿进一步抽象得到的万有引力定律,甚至到了哈密顿体系,通过构造精巧的数学结构,我们能够基于有限的假设解释很多复杂的行为。当初物理学是这样走过来的,如今轮到生物学了,但是与之前的数学结构的抽象不同,我们更多的是数据驱动的模型开发,通过一系列的属性定义来过早高维空间,从而能够在这个层次进行各种分类聚类降维回归分析。也就是说,我们通过机器学习等等算法来理解复杂的数据,提取出一定的具有生物学意义的模式,我们运用到数学,但已经不是通过数学来直接解释。与还原论的数学公式不同,这实际上就是一种系统论的思路。在这个大数据的层次理解各种生物过程:将生命分为群体-个体-系统-器官-组织-细胞-细胞器-分子层次,在细胞的分子通路层次,我们可以进一步的进行分类,如将细胞这个生物实体分解为分化增殖凋亡分裂等等生物过程,找到相关的表达具有特异性的基因/蛋白质/信号通路,并且以这些可以定义的对象为基础,构建复杂的联系。以线性代数的思想,就是将这些分类视为线性无关的基底,然后具体的线性组合就对应于各种复杂的生物过程,我们以矩阵的形式来存储,而且我们可以以矩阵的变换来理解动态的生物过程,比如说山中伸弥将四个转录因子转入成纤维细胞使得其能够逆分化为多能干细胞ax=b,我们就可以理解为代表成纤维细胞的矩阵(基因表达图谱)乘以四个转录因子(高表达)得到的新矩阵与代表胚胎干细胞的矩阵有一定的相似性,即多能干细胞ips细胞。从而我们能够以这种思路来理解生物可能的所有机制。因此如何找到不同阶段的细胞乃至于不同细胞之间的处理矩阵就是我们理解的机制。

只是以所有基因来构建这样的矩阵维度太多,计算的复杂度也很高,因此,我们需要收缩这个矩阵,一般都是通过表达具有特异性的有限对象(如生物标记物分子。有显著的上下调表现),然后进行富集分析,将其整合到已有的信号通路(kegg数据库和go数据库),然后可以与更高层次的分化增殖凋亡分裂等等生物过程构建联系,最后上升到细胞层次,乃至于器官的健康层次。这就是微积分基本定理所解释的函数和原函数层次的关系,高维层次的简单运算可以等价于低维层次的复杂运算,如细胞的分裂在细胞层次是简单的分裂,但其底层涉及到很多的信号通路,所以,我们能够通过底层的基因表达变化加和起来,升维到高维层次的分化增殖凋亡分裂等等生物过程。我们可以通过构造一定的连续函数来代表这些过程,本质上这些矩阵的变化就是函数的映射。而我们假设这些过程的变化是连续的(我们认为分子层次处于亚微观层次,因此我们不必考虑到量子层次的离散),于是我们可以进一步地将这些函数展开为级数之和,最经典的就是傅里叶级数,能够将周期函数分解为正交的三角函数之和(还有系数)。这里存在一个隐含的假设,即函数是可积的,这样级数才能收敛到原来的函数。这是通过性质的存在性来最后找到具体存在形式的思路。因为我们假设无限细分时的变化的关系是固定的,如基因之间表达上下调(变化即导数,dx=da)。而且我们认为这些基因的表达关系可以以一定的函数表示(假设其存在性,以傅里叶级数表示),然后我们可以通过其具有的性质来找到具体的系数,如果能够收敛则我们视为成功构造这种关系。我们如果能够分解为三角函数的和,即提取出更为本质的属性即频率,然后我们就可以通过频率的选择性组合(频域)来作为原来函数(时域)的变换了。而这些频率可以就对应于生物中的信号通路,这种分解可以认为是还原论的思路。于是我们就可以在微积分和线性代数之间构建一定的联系:线性代数就是函数分解展开的一系列级数之和。

以上是理想情况下,我们以基因表达的水平来指代细胞,从而在这个层次进行各种复杂的变换运算来指代生物过程的变化,为我们挖掘出具有生物学意义的变化提供依据。但其基于太多假设,而实际上,基因的表达是受到多方面的调控的:基因的结构(内含子和外显子交替排列,还有一些其他的调控区域,如ccaat盒,tata盒,启动子,增强子),基于中心法则的rna和蛋白质的修饰(剪去内含子,使得外显子能够不断为蛋白质;核糖体翻译mrna得到的蛋白质需要进一步的修饰),染色质重塑子,组蛋白的修饰/表观遗传学(组蛋白-free区域方便转录因子结合从而开启转录)

因此,在数学的层次可以理解为乘以一个又一个的新矩阵,进行新的变换。因此基因表达网络是复杂的,有多种调节基因表达的方式,如核小体调节基因表达(ion组蛋白修饰e3;核小体定位,染色质重塑子,dna序列转录装置;组蛋白变体h2a.z和h3.3),这些表观遗传学的修饰可以视为一层层叠加的矩阵变换。在这个基础上可以探索更加细化的调节机制,如某些序列具有识别的作用。

我们需要开发一定的技术来产生这种大规模数据,幸运的是


第一百零一章生物与大数据的关系(1/2),点击下一页继续阅读。

『加入书签,方便阅读』

上一章 目录 下一页 TXT下载