barriers / 阅读 / 详情

tree-puzzle

2023-07-29 02:10:45
共1条回复
大鱼炖火锅

序列比对建议用ClustalX

建NJ或MP树,用MEGA就可以了,非常方便

若要建ML树推荐用phyML

建Bayes树推荐用Parallel MrBayes @ BioHPC

如果不是专业建树的话,MEGA足够用了,建议参考下面这篇文章:

一、引言

开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化 分析 求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有 3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:

1.涉及基本概念

例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。

2.关于构建进化树的方法的选择

例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。

3.关于软件的选择

例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用ClustalX做出来的进化树与 phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。

4.蛋白家族的分类问题

例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。

5.新基因功能的推断

例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。

6.计算基因分化的年代

例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。

7.进化树的编辑

例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。

由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint进行编辑,而 Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

这里,作者在这里对问题2-6进行简要地解释和讨论,并希望能够初步地解答初学者的一些疑问。

二、方法的选择

首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。

一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。

对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。

Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。

对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。

三、软件的选择

表1中列出了一些与构建分子进化树相关的软件。

构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p- distance模型,而且构建的树不够准确,一般不用来构建进化树。

构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。

构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。ML也可以使用 PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree- puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。

贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。由于该方法需要很多背景的知识,这里不作介绍。

表1 构建分子进化树相关的软件

软件 网址 说明

ClustalX 图形化的多序列比对工具

ClustalW 命令行格式的多序列比对工具

GeneDoc 多序列比对结果的美化工具(可以导入fasta格式的文件,出来的图可用于发表,我用过)

BioEdit 序列分析的综合工具

MEGA 图形化、集成的进化分析工具,不包括ML

PAUP 商业软件,集成的进化分析工具

PHYLIP 免费的、集成的进化分析工具

PHYML 最快的ML建树工具

PAML ML建树工具

Tree-puzzle 较快的ML建树工具

MrBayes 基于贝叶斯方法的建树工具

MAC5 基于贝叶斯方法的建树工具

TreeView 进化树显示工具

(加红色标注的为最通用的分析软件)

需要注意的几个问题是,其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。

其二,无论是核酸序列还是蛋白序列,一般应当先做成 FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。

另外,构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。

因此,作者推荐的软件组合为:MEGA + ClustalX + GeneDoc + BioEdit。

四、数据分析及结果推断

一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。关于这方面的文献非常多,这里作者仅做简要的介绍。

推断基因/蛋白的功能,一般先用Blast工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(ortholog)和旁系同源物(paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成FASTA格式的文件。一般通过NJ构建进化树,并且进行Bootstrap分析所得到的结果已足够。如果序列近缘,可以再使用MP构建进化树,进行比较。如果序列较远源,则可以做ML树比较。使用两种方法得到的树,如果差别不大,并且Bootstrap总体较高,则得到的进化树较为可靠。

基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用NJ、ME或者ML的方法。

计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择NJ或者MP即可。

如果使用MEGA进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。

五、总结

在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。

六、致谢

本文由mediocrebeing在2005年9月8日所发起的讨论《关于建树的经验》扩充、修改而来。文章的作者按原贴ID出现先后排名,由 lylover执笔。作者同时感谢所有参与讨论的战友。作者lylover感谢中国科大细胞动力学实验室的金长江博士所给的一些有益的建议。

来源:丁香园(mediocrebeing, rodger, lylover , klaus, oldfish, yzwpf)

相关推荐

pairwise independent是什么意思

pairwise independent events两两独立事件
2023-07-27 17:15:441

biopython - 比较两个序列的相似性

比较序列相似性(sequence similarity)可以考虑用biopython或者emboss的几种比对方法。 主要用到SeqIO.parse读取,然后用Bio.pairwise2.align.globalxx比对并输出两个序列一样的比例。 如果用局部比对,可以用Bio.pairwise2.align.localxx. 用了NeedleCommandline去比对,实测比上面的方法要快一点。不过都是python写的,又是基于DP,都不算很快。 本质与上面的方法一样,不过这个是在shell中运行的。
2023-07-27 17:15:591

关系的变量做格兰杰因果检验时是用原序列还是差?

步骤一:分析数据的平稳性(单位根检验)按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spuriousregression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,LevinandLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levinetal.(2002)的改进,提出了检验面板单位根的LLC法。Levinetal.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介于10~250之间)的面板单位根检验。Imetal.(1997)还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。MaddalaandWu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,LinChut*统计量、Breitungt统计量、lmPesaranShinW统计量、ADF-FisherChi-square统计量、PP-FisherChi-square统计量、HadriZ统计量,并且Levin,LinChut*统计量、Breitungt统计量的原假设为存在普通的单位根过程,lmPesaranShinW统计量、ADF-FisherChi-square统计量、PP-FisherChi-square统计量的原假设为存在有效的单位根过程,HadriZ统计量的检验原假设为不存在普通的单位根过程。有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,TI代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。步骤二:协整检验或模型修正情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。协整检验方法的文献综述:(1)Kao(1999)、KaoandChiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larssonetal(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。我们主要采用的是Pedroni、Kao、Johansen的方法。通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Grangercause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。Eviews好像没有在POOL窗口中提供Grangercausalitytest,而只有unitroottest和cointegrationtest。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/MakeGroup),再来试试。情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?步骤三:面板模型的选择与回归面板数据模型的选择通常有三种形式:一种是混合估计模型(PooledRegressionModel)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(FixedEffectsRegressionModel)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(RandomEffectsRegressionModel)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:在回归的时候,权数可以选择按截面加权(cross-sectionweights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(PanelCorrectedStandardErrors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。
2023-07-27 17:16:101

结构方程模型的假设条件

· 合理的样本量(James Stevens的Applied Multivariate Statistics for the Social Sciences一书中说平均一个自 变量大约需要15个case;Bentler and Chou (1987)说平均一个估计参数需要5个case就差不多了,但前提是数据质量非常好;这两种说法基本上是等价的;而Loehlin (1992)在进行蒙特卡罗模拟之后发现对于包含2~4个因子的模型,至少需要100个case,当然200更好;小样本量容易导致模型计算时收敛的失败进而影响到参数估计;特别要注意的是当数据质量不好比如不服从正态分布或者受到污染时,更需要大的样本量)· 连续的正态内生变量(注意一种表面不连续的特例:underlying continuous;对于内生变量的分布,理想情况是联合多元正态分布即JMVN)· 模型识别(识别方程)(比较有多少可用的输入和有多少需估计的参数;模型不可识别会带来参数估计的失败)· 完整的数据或者对不完整数据的适当处理(对于缺失值的处理,一般的统计软件给出的删除方式选项是pairwise和listwise,然而这又是一对普遍矛盾:pairwise式的删除虽然估计到尽量减少数据的损失,但会导致协方差阵或者相关系数阵的阶数n参差不齐从而为模型拟合带来巨大困难,甚至导致无法得出参数估计;listwise不会有pairwise的问题,因为凡是遇到case中有缺失值那么该case直接被全部删除,但是又带来了数据信息量利用不足的问题——全杀了吧,难免有冤枉的;不杀吧,又难免影响整体局势)· 模型的说明和因果关系的理论基础(实际上就是假设检验的逻辑——你只能说你的模型不能拒绝,而不能下定论说你的模型可以被接受)
2023-07-27 17:16:451

spss按检验排除个案和按列表排除个案有什么区别?

按检验排除个案??是不是翻译有误?或许是本人孤陋寡闻。。不知道你指的是不是按对排除个案?如果是,下面给出解释供参考:按对排除个案(exclude case pairwise),剔除其一对变量或其中一个变量具有缺失值的个案。按列表排除个案(exclude case listwise),是指剔除选用变量中带有缺失值的个案。
2023-07-27 17:17:073

R | ggpairs -- 可视化相关性

最近想要可视化样本间的相关性,但又不满足于常规的相关性热图。因此,就注意到 GGally 包中的 ggpairs 函数,可以方便地实现多方面的相关性可视化。 下面以 airway 数据集进行演示: 这里我们在前4个样本中随机选取1000个基因进行展示 ggpairs 将输出的图划分为三个区域,分别是左下角的 lower , 对角线的 diag , 以及右上角的 upper . 对于连续性数值变量,默认在 lower 区画pairwise scatter plot, diag 区画density plot, upper 区展示相应的pairwise Pearson"s correaltion coefficient. 进一步,我还希望在左下角的散点图中加入 y=x 的拟合线,并在对角线的加上直方图。我们可以通过自定义画图的函数实现这些操作。 再放一个高度修改的版本 在我看来 ggpairs 相当于是一个 ggplot2 的集成可视化方法,可以很方便的一次性展示多个方面的相关性信息。同时,它的可定制性也很高,可以满足许多额外的可视化需求。唯一的缺陷可能是需要耗费一定功夫写出包装的函数。
2023-07-27 17:17:181

用MEGA计算pairwise distances,出现n/c,求助

  您好,我来为您解答:  第一个关于n/c的问题我刚刚大致弄清楚了, 好像就是达到了mutation saturation,也就是ds太高了, 就出现这个结果。  如果我的回答没能帮助您,请继续追问。
2023-07-27 17:17:271

spss系列syntax教程之简单效应检验介绍

方法/步骤1、首先用spss21.0打开数据库,简单效应使用的条件范围就是自变量都是类别变量。而且两个自变量的交互作用对因变量影响显著。我们的数据如下图,研究目的为性别与思维方式的交互作用对个体的同伴交往的影响,我们假设男性假如在同伴交往中采用更多的感性思维,女性在同伴交往中采用更多的理性思维,也就是我们所说的互补,那么更容易脱光。那么要检验这样一个假设,首先要证明性别与思维方式的交互作用是显著的,然后进行简单效应检验。2、然后我们新建一个syntax,首先采用unianova对数据进行方差分析。UNIANOVA的syntax语句见下图,大家可以根据自己的数据类型对syntax进行修改,只需要修改几个变量就行了3、运行UNIANOVA,我们可以得到以下的结果,发现两者的交互作用显著,因此我们可以说性别与思维方式的交互作用对同伴交往的影响显著。4、在有交互作用显著的前提下,我们进行简单效应简单。我们只需要在UNIANOVA语句的基础上加上一个语句/EMMEANS=TABLES(性别*思维方式)COMPARE(思维方式)ADJ(SIDAK),emmeans表示边际均值,TABLES(性别*思维方式)表示图表中的,compare表示在性别的不同水平上比较思维方式的不同水平在同伴交往的差异是否显著。5、接下来运行这个syntax,我们可以得到如下图所示pairwisecomparisions,说明在女性群体中,理性思维的女性其同伴交往的得分显著大于感性思维的女性。但是男性群体感性理性对对同伴交往得分没有影响。只能说部分的验证了我们的假设。
2023-07-27 17:17:591

python 有Nemenyi 函数吗

没有,网上有人写好的,可以当成一个库来使用:import numpy as np from scipy import stats from itertools import combinations from statsmodels.stats.multitest import multipletests from statsmodels.stats.libqsturng import psturng import warnings def kw_nemenyi(groups, to_compare=None, alpha=0.05): """ Kruskal-Wallis 1-way ANOVA with Nemenyi"s multiple comparison test Arguments: --------------- groups: sequence arrays corresponding to k mutually independent samples from continuous populations to_compare: sequence tuples specifying the indices of pairs of groups to compare, e.g. [(0, 1), (0, 2)] would compare group 0 with 1 & 2. by default, all possible pairwise comparisons between groups are performed. alpha: float family-wise error rate used for correcting for multiple comparisons (see statsmodels.stats.multitest.multipletests for details) Returns: --------------- H: float Kruskal-Wallis H-statistic p_omnibus: float p-value corresponding to the global null hypothesis that the medians of the groups are all equal Z_pairs: float array Z-scores computed for the absolute difference in mean ranks for each pairwise comparison p_corrected: float array corrected p-values for each pairwise comparison, corresponding to the null hypothesis that the pair of groups has equal medians. note that these are only meaningful if the global null hypothesis is rejected. reject: bool array True for pairs where the null hypothesis can be rejected for the given alpha Reference: --------------- """ # omnibus test (K-W ANOVA) # ------------------------------------------------------------------------- groups = [np.array(gg) for gg in groups] k = len(groups) n = np.array([len(gg) for gg in groups]) if np.any(n < 5): warnings.warn("Sample sizes < 5 are not recommended (K-W test assumes " "a chi square distribution)") allgroups = np.concatenate(groups) N = len(allgroups) ranked = stats.rankdata(allgroups) # correction factor for ties T = stats.tiecorrect(ranked) if T == 0: raise ValueError("All numbers are identical in kruskal") # sum of ranks for each group j = np.insert(np.cumsum(n), 0, 0) R = np.empty(k, dtype=np.float) for ii in range(k): R[ii] = ranked[j[ii]:j[ii + 1]].sum() # the Kruskal-Wallis H-statistic H = (12. / (N * (N + 1.))) * ((R ** 2.) / n).sum() - 3 * (N + 1) # apply correction factor for ties H /= T df_omnibus = k - 1 p_omnibus = stats.chisqprob(H, df_omnibus) # multiple comparisons # ------------------------------------------------------------------------- # by default we compare every possible pair of groups if to_compare is None: to_compare = tuple(combinations(range(k), 2)) ncomp = len(to_compare) Z_pairs = np.empty(ncomp, dtype=np.float) p_uncorrected = np.empty(ncomp, dtype=np.float) Rmean = R / n for pp, (ii, jj) in enumerate(to_compare): # standardized score Zij = (np.abs(Rmean[ii] - Rmean[jj]) / np.sqrt((1. / 12.) * N * (N + 1) * (1. / n[ii] + 1. / n[jj]))) Z_pairs[pp] = Zij # corresponding p-values obtained from the upper quantiles of the # studentized range distribution p_corrected = psturng(Z_pairs * np.sqrt(2), ncomp, np.inf) reject = p_corrected <= alpha return H, p_omnibus, Z_pairs, p_corrected, reject
2023-07-27 17:18:261

NLP第九篇-句法分析

句法分析的基本任务是确定句子的 语法结构 或句子中 词汇之间的依存关系 。句法分析不是一个自然语言处理任务的最终目标,但它往往是实现最终目标的关键环节。 句法分析分为 句法结构分析 和 依存关系分析 两种。以获取整个句子的句法结构为目的的称为 完全句法分析 ,而以获得局部成分为目的的语法分析称为 局部分析 ,依存关系分析简称 依存分析 。 一般而言,句法分析的任务有三个: 判断输出的字符串是否属于某种语言 消除输入句子中词法和结构等方面的歧义 分析输入句子的内部结构,如成分构成、上下文关系等。 第二三个任务一般是句法分析的主要任务。 一般来说,构造一个句法分析器需要考虑两部分工作:一部分是语法的形式化表示和词条信息描述问题,形式化的语法规则构成了规则库,词条信息等由词典或同义词表等提供,规则库与词典或同义词表构成了句法分析的知识库;另一部分就是基于知识库的解析算法了。 语法形式化属于句法理论研究的范畴,目前在自然语言处理中广泛使用的是上下文无关文法(CFG)和基于约束的文法,后者又称合一文法。 简单的讲,句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。 基于规则的句法结构分析方法的基本思路是,由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除。 根据句法分析树形成方向的区别,人们通常将这些方法划分为三种类型:自顶向下的分析方法,自底向上的分析方法和两者相结合的分析方法。自顶向下分析算法实现的是规则推导的过程,分析树从根结点开始不断生长,最后形成分析句子的叶结点。而自底向上分析算法的实现过程恰好想法,它是从句子符号串开始,执行不断规约的过程,最后形成根节点。 基于规则的语法结构分析可以利用手工编写的规则分析出输入句子所有可能的句法结构;对于特定领域和目的,利用有针对性的规则能够较好的处理句子中的部分歧义和一些超语法(extra-grammatical)现象。 但对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,而且就算分析出来了,也难以实现有效的消歧,并选择出最有可能的分析结果;手工编写的规则带有一定的主观性,还需要考虑到泛化,在面对复杂语境时正确率难以保证;手工编写规则本身就是一件大工作量的复杂劳动,而且编写的规则领域有密切的相关性,不利于句法分析系统向其他领域移植。 基于规则的句法分析算法能够成功的处理程序设计语言的编译,而对于自然语言的处理却始终难以摆脱困境,是因为程序设计语言中使用的知识严格限制的上下文无关文法的子类,但自然语言处理系统中所使用的形式化描述方法远远超过了上下文无关文法的表达能力;而且人们在使用程序设计语言的时候,一切表达方式都必须服从机器的要求,是一个人服从机器的过程,这个过程是从语言的无限集到有限集的映射过程,而在自然语言处理中则恰恰相反,自然语言处理实现的是机器追踪和服从人的语言,从语言的有限集到无限集推演的过程。 完全语法分析 基于PCFG的基本分析方法 基于概率上下文无关文法的短语结构分析方法,可以说是目前最成功的语法驱动的统计句法分析方法,可以认为是规则方法与统计方法的结合。 PCFG是CFG的扩展,举个例子: PCFG 当然,同一个符号不同生成式的概率之和为1。NP是名词短语、VP是动词短语、PP是介词短语。 基于PCFG的句法分析模型,满足以下三个条件: 位置不变性:子树的概率不依赖于该子树所管辖的单词在句子中的位置 上下文无关性:子树的概率不依赖于子树控制范围以外的单词 祖先无关性:子树的概率不依赖于推导出子树的祖先节点 根据上述文法,『He met Jenny with flowers』有两种可能的语法结构: 而且我们可以通过将树中的所有概率相乘,得到两棵子树的整体概率,从中选择概率更大的子树作为最佳结构。 与HMM类似,PCFG也有三个基本问题: 给定一个句子W=w1w2…wn和文法G,如何快速计算概率P(W|G) 给定一个句子W=w1w2…wn和文法G,如何选择该句子的最佳结构?即选择句法结构树t使其具有最大概率 给定PCFG G和句子W=w1w2…wn,如何调节G的概率参数,使句子的概率最大 首先是第一个问题,HMM中我们用的是前向算法和后向算法来计算观察序列O概率,相似的,这里我们用的是内向算法和外向算法来计算P(W|G) 。 首先我们定义内向变量αij(A),与前向变量相似但又有不同,αij(A)即非终结符A推导出W中字串wiw(i+1)…wj的概率。那P(W|G)自然就等于α1n(S)了,S是起始符号,计算的就是由起始符号S推导出整个句子W=w1w2…wn的概率。 所以只要有αij(A)的递归公式就能计算出P(W|G),递归公式如下: 根据定义,αii(A)自然就等同于符号A输出wi的概率;而αij(A)的计算思路是,这个子串wiw(i+1)…wj可以被切成两部分处理,前一部分wiw(i+1)…wk由非终结符号B生成,后一部分wkw(k+1)…wj由非终结符号C生成,而BC由A生成。这样将概率依次相乘,即可将一个大问题划分为两个小问题处理,两个小问题又可以进一步划分直到不能划分为止,然后递归回来得到结果。 这里给一张内向变量计算方法示意图: 这个问题也可以用外向算法来解决。 首先定义外向变量,βij(A)是,初始符号S在推导出语句W=w1w2…wn的过程中,产生符号串w1w2…w(i-1)Aw(j+1)…wn的概率(隐含着A会生成wiw(i+1)…wj)。也就是说βij(A)是S推导出除了以A节点为根节点的子树以外的其他部分的概率。 《统计自然语言处理(第二版)》这本书里讲错了,这里我给出我自己的理解,书里给的算法步骤如下: 很明显的错误,初始化都把结果初始化了,那这个算法还算什么,直接等于1就完了呗。 这是作者对外向变量定义理解模糊的问题,上面给了外向变量的定义,里面有一句话『隐含着A会生成wiw(i+1)…wj』,那问题在于,A会生成wiw(i+1)…wj,这到底算是条件还是推论。 看这个算法的初始化的意思,说β1n(A),在A=S的时候,为1,不等于S为0,意思是什么?意思就是『隐含着A会生成wiw(i+1)…wj』这句话是条件,β1n(S)已经隐含了S生成W=w1w2…wn了,所谓的w1w2…w(i-1)Aw(j+1)…wn也就不存在了,只剩下一个S->S了,所以概率自然为1。 但是在第三步这个地方,作者理解成什么意思了呢?作者又把『隐含着A会生成wiw(i+1)…wj』这句话当成推论了,认为在β1n(S),里S会生成W=w1w2…wn是推论,那真是就正好了,要求的结果就是S生成W=w1w2…wn,这不就结束了吗,结果就导致了这个算法第一步初始化都把结果初始化了。 那我的理解是什么呢,通过这个公式计算出来的β1n(S),确实是正确的,意义实际上也是包含了『隐含着A会生成wiw(i+1)…wj』这句话是推论,但是右侧式子里由于不断递归而产生的β1n(S),是把『隐含着A会生成wiw(i+1)…wj』这句话当条件的,所以计算上没有问题。 我倾向于为第三步中的β1n(S)加一个星号,以表明意义的不同。 书中还给了个外向变量的计算方法示意图,我觉得也是莫名其妙: 他说βij(A)是这两种情况的概率和,这我们知道j比i大,那这图里这个k既比i小又比j大,这不是搞笑吗。只能说图上这俩C就不是一个C,k也不是一个k。 那我为什么会理解成一个呢,除了字母相同,他前面还这么讲『必定运用了形如B->AC或者B->CA的规则』、『运用B->AC或者B->CA两种规则的情况』,这明显就是给人以顺序交换的误解。 另外,还在内向变量的使用上前后不一,可以说这本书里对外向算法的讲解是非常失败的。而且对外向算法的计算仍然需要用到内向算法的递归,那真的直接用内向算法就好了,外向算法还要多定义变量。 然后是第二个问题,选择句子的最佳结构,也即给定一个句子W=w1w2…wn和文法G, 选定拥有最大概率的语法结构树。这一问题与HMM中类似,仍然采用动态规划的思想去解决。最后利用CYK算法去生成拥有最大概率的语法结构树。 第三个问题是给定PCFG G和句子W=w1w2…wn,如何调节G的概率参数,使句子的概率最大,与HMM相对的,PCFG这里采用的算法名叫内外向算法。与前后向算法相同,也属于一种EM算法,其基本思想是,首先给G的产生式随机地赋予一个概率值(满足归一化条件),得到文法G0,然后根据G0和训练数据,可以计算出每条规则使用次数的期望值,用期望值进行最大似然估计,得到语法G的新参数值,新的语法记作G1,然后循环执行该过程,G的参数概率将收敛于最大似然估计值。 PCFG只是一种特殊的上下文无关文法模型,根据PCFG的模型和句子,具体去对句子做语法分析,生成语法结构树,靠的是还是CYK算法。CYK算法是一个用来判定任意给定的字符串W是否属于一个上下文无关文法的算法。 基于PCFG的句法分析模型存在有许多问题,比如因为PCFG没有对词汇进行建模,所以存在对词汇信息不敏感的问题。因此人们提出了词汇化的短语结构分析器,有效的提升了基于PCFG的句法分析器的能力。 而且,我们上面也提到了PCFG的三个独立性假设,这也导致了规则之间缺乏结构依赖关系(就像HMM的三个假设也不完全合理一样),而在自然语言中,生成每个非终结符的概率往往是与其上下文结构有关系的,所以有人提出了一种细化非终结符的方法,为每个非终结符标注上其父节点的句法标记信息。 D. Klein提出了带有隐含标记的上下文无关文法(PCFG with latent annotations,PCFG-LA),使得非终结符的细化过程可以自动进行,并且在使用EM算法优化时,为避免到达局部最优,对其进行了改进,提出了一种层次化的『分裂-合并』策略,以期获取一个准确并且紧凑的PCFG-LA模型。基于PCFG-LA的Berkeley Parser作为非词汇化句法分析器的代表,无论是性能表现还是运行速度,都是目前开源的短语结构分析器中最好的。其语法树如下图: 普通句法树与PCFG-LA句法树对照实例 这个x就是隐含标记,xi的取值范围一般是人为设定的,一般取1~16之间的整数。而且PCFG-LA也类似于HMM模型,原始非终结符对应HMM模型中的观察输出,而隐含标记对应HMM模型中的隐含状态。 浅层语法分析(局部语法分析) 由于完全语法分析要确定句子所包含的全部句法信息,并确定句子中各成分之间的关系,这是一项十分苦难的任务。到目前为止,句法分析器的各方面都难以达到令人满意的程度,为了降低问题的复杂度,同时获得一定的句法结构信息,浅层句法分析应运而生。 浅层语法分析只要求识别句子中的某些结构相对简单的独立成为,例如非递归的名词短语、动词短语等,这些被识别出来的结构通常称为语块(chunk)。 浅层句法分析将句法分析分解为两个主要子任务,一个是语块的识别和分析,另一个是语块之间的依附关系分析。其中,语块的识别和分析是主要任务。在某种程度上说,浅层句法分析使句法分析的任务得到了简化,同时也有利于句法分析系统在大规模真实文本处理系统中迅速得到应用。 基本名词短语(base NP)是语块中的一个重要类别,它指的是简单的、非嵌套的名词短语,不含有其他子项短语,并且base NP之间结构上是独立的。示例如下: base NP识别就是从句子中识别出所有的base NP,根据这种理解,一个句子中的成分和简单的分为baseNP和非base NP两类,那么base NP识别就成了一个分类问题。 base NP的表示方法有两种,一种是括号分隔法,一种是IOB标注法。括号分隔法就是将base NP用方括号界定边界,内部的是base NP,外部的不属于base NP。IOB标注法中,字母B表示base NP的开端,I表示当前词语在base NP内,O表示词语位于base NP之外。 基于SVM的base NP识别方法 由于base NP识别是多值分类问题,而基础SVM算法解决的是二值分类问题,所以一般可以采用配对策略(pairwise method)和一比其余策略(one vs. other method)。 SVM一般要从上下文的词、词性、base NP标志中提取特征来完成判断。一般使用的词语窗口的长度为5(当前词及其前后各两个词)时识别的效果最好。 基于WINNOW的base NP识别方法 WINNOW是解决二分问题的错误驱动的机器学习方法,该方法能从大量不相关的特征中快速学习。 WINNOW的稀疏网络(SNoW)学习结构是一种多类分类器,专门用于处理特征识别领域的大规模学习任务。WINNOW算法具有处理高维度独立特征空间的能力,而在自然语言处理中的特征向量恰好具有这种特点,因此WINNOW算法也常用于词性标注、拼写错误检查和文本分类等等。 简单WINNOW的基本思想是,已知特征向量和参数向量和实数阈值θ,先将参数向量均初始化为1,将训练样本代入,求特征向量和参数向量的内积,将其与θ比较,如果大于θ,则判定为正例,小于θ则判定为反例,将结果与正确答案作比较,依据结果来改变权值。 如果将正例估计成了反例,那么对于原来值为1的x,把它的权值扩大。如果将反例估计成了正例,那么对于原来值为1的x,把它的权值缩小。然后重新估计重新更改权重,直到训练完成。 这其实让我想到了LR算法,因为LR算法也是特征向量与参数向量的内积,最后将其送到Sigmoid函数中去拿到判定结果,然后大于0.5的为正例,小于0.5的为反例,实际上只要反过来,Sigmod函数输出0.5时候的输入就是WINNOW算法里的那个实数阈值θ。但是区别在于WINNOW算法只判定大小,不判定概率,而LR利用Sigmoid函数给出了概率。LR利用这给出的概率,通过使训练集的生成概率最大化来调整参数,而WINNOW则是直接朴素的错误情况来增大或缩小相关参数。目测LR因为使用了梯度下降,它的收敛速度要快于WINNOW,而WINNOW的优势则在于可以处理大量特征。 基于CRF的base NP识别方法 基于CRF的base NP识别方法拥有与SVM方法几乎一样的效果,优于基于WINNOW的识别方法、基于MEMM的识别方法和感知机方法,而且基于CRF的base NP识别方法在运行速度上较其他方法具有明显优势。 依存语法理论 在自然语言处理中,我们有时不需要或者不仅仅需要整个句子的短语结构树,而且要知道句子中 词与词之间的依存关系 。用词与词之间的依存关系来描述语言结构的框架成为依存语法,又称从属关系语法。利用依存语法进行句法分析也是自然语言理解的重要手段之一。 有人认为,一切结构语法现象可以概括为关联、组合和转位这三大核心。句法关联建立起词与词之间的从属关系,这种从属关系由 支配词 和 从属词 联结而成, 谓语中的动词是句子的中心并支配别的成分,它本身不受其他任何成分支配 。 依存语法的本质是一种结构语法,它主要研究以谓词为中心而构句时由深层语义结构映现为表层语法结构的状况及条件,谓词与体词之间的同现关系,并据此划分谓词的词类。 常用的依存于法结构图示有三种: 计算机语言学家J. Robinson提出了依存语法的四条公理: 一个句子只有一个独立的成分 句子的其他成分都从属于某一成分 任何一个成分都不能依存于两个或两个以上的成分 如果成分A直接从属于成分B,而成分C在句子中位于A和B之间,那么,成分C或者属于成分A,或者从属于B,或者从属于A和B之间的某一成分。 这四条公理相当于对依存图和依存树的形式约束:单一父节点、连通、无环和可投射,由此来保证句子的依存分析结果是一棵有根的树结构。 这里提一下可投射,如果单词之间的依存弧画出来没有任何的交叉,就是可投射的(参考上面的两个有向图)。 为了便于理解,我国学者提出了依存结构树应满足的5个条件: 单纯结点条件:只有终结点,没有非终结点 单一父结点条件:除根节点没有父结点外,所有的结点都只有一个父结点 独根结点条件:一个依存树只能有一个根结点,它支配其他结点 非交条件:依存树的树枝不能彼此相交 互斥条件:从上到下的支配关系和从左到右的前于关系之间是相互排斥的,如果两个结点之间存在着支配关系,它们就不能存在于前于关系 这五个条件是有交集的,但它们完全从依存表达的空间结构出发,比四条公理更直观更实用。 Gaifman 1965年给出了依存语法的形式化表示,证明了依存语法与上下文无关文法没有什么不同.. 类似于上下文无关文法的语言形式对被分析的语言的投射性进行了限制,很难直接处理包含非投射现象的自由语序的语言。20世纪90年代发展起来了约束语法和相应的基于约束满足的依存分析方法,可以处理此类非投射性语言问题。 基于约束满足的分析方法建立在约束依存语法之上,将依存句法分析看做可以用约束满足问题来描述的有限构造问题。 约束依存语法用一系列形式化、描述性的约束将不符合约束的依存分析去掉,直到留下一棵合法的依存树。 生成式依存分析方法、判别式依存分析方法和确定性依存分析方法是数据驱动的统计依存分析中具有代表性的三种方法。 生成性依存分析方法 生成式依存分析方法采用联合概率模型生成一系列依存语法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后输出。 生成式依存分析模型使用起来比较方便,它的参数训练时只在训练集中寻找相关成分的计数,计算出先验概率。但是,生成式方法采用联合概率模型,再进行概率乘积分解时做了近似性假设和估计,而且,由于采用全局搜索,算法的复杂度较高,因此效率较低,但此类算法在准确率上有一定优势。但是类似于CYK算法的推理方法使得此类模型不易处理非投射性问题。 判别式依存分析方法 判别式依存分析方法采用条件概率模型,避开了联合概率模型所要求的独立性假设(考虑判别模型CRF舍弃了生成模型HMM的独立性假设),训练过程即寻找使目标函数(训练样本生成概率)最大的参数θ(类似Logistic回归和CRF)。 判别式方法不仅在推理时进行穷尽搜索,而且在训练算法上也具有全局最优性,需要在训练实例上重复句法分析过程来迭代参数,训练过程也是推理过程,训练和分析的时间复杂度一致。 确定性依存方法 确定性依存分析方法以特定的方向逐次取一个待分析的词,为每次输入的词产生一个单一的分析结果,直至序列的最后一个词。 这类算法在每一步的分析中都要根据当前分析状态做出决策(如判断其是否与前一个词发生依存关系),因此,这种方法又称决策式分析方法。 通过一个确定的分析动作序列来得到一个唯一的句法表达,即依存图(有时可能会有回溯和修补),这是确定性句法分析方法的基本思想。 短语结构与依存结构之间的关系 短语结构树可以被一一对应地转换成依存关系树,反之则不然。因为一棵依存关系树可能会对应多棵短语结构树。
2023-07-27 17:19:001

用mega做进化树事错误提示: No common nucleotide sites

应该是序列差别太大,根本就没同源性可言把相差太大的序列去掉再重新做树看看我以前也碰到这种情况,随便拿几条来试的话就会是要有同源性的序列来比对才可以的吧
2023-07-27 17:19:112

简单的转录组差异基因表达分析 -- DESeq2

经典的转录组差异分析通常会使用到三个工具 limma/voom , edgeR 和 DESeq2 。今天我们就通过一个小规模的转录组测序数据来演示 DESeq2 的简单流程。 对于 DESeq2 的分析流程而言,我们需要输入的数据包括: u200b 下面就以 mobData 中的数据为例简单介绍 DESeq2 的分析流程 u200b 由于 mobData 中的行名没有提供基因的ID,我们也不是为了探究生物学问题,就以 mobData 的行数作为其ID DESeqDataSet 是 DESeq2 流程中储存read counts和中间统计分析数据的对象,之后的分析都建立在该对象之上进行。 u200b 在进行差异分析之前,需要对样本数据的表达矩阵进行预处理,包括: u200b 通过PCA结果来看各组样本分组情况还是不错的,但hclust的聚类结果反映的分组就略微有点混杂了,可能要聚类计算的距离函数选用不当有关。 使用 DESeq() 函数进行差异分析时,该函数干了以下三件事: u200b counts() 可以提取 DESeq object 中的表达矩阵,而 results() 可以提取差异分析的结果,其中包括了: 样本间的均值, log2 fold changes, standard errors, test statistics, p-values and adjusted p-values. u200b 使用 results() 函数时需要指明进行比较的样本,这里用 contrast=c("group_list","MM","WW") 提取 MM 组和 WW 组进行差异分析的结果。如果想要比较 WM 组和 WW 组,只要改变 contrast=c("group_list","WM","WW") 即可。 u200b 检查结果中是否包含 NA 值 u200b 这里 padj 中有1142个 NA 值是因为使用 results() 提取差异分析结果时,大于 alpha 值(这里是0.1)的矫正后p-value都会被当做是 NA 。因此,我们将这些 padj 值都设为 1 排序后以 log2FoldChange 绝对值大于1, padj 小于0.05为条件筛选显著的差异表达基因 u200b 至此,便筛选出了 217个 在 MM 组和 WW 组之间的显著差异表达基因。至于后续的可视化分析则是因课题而异了,等以后有空了再补坑吧! u200b 有同学可能注意到,虽然我们的样本有多个组,但在差异分析时进行的还是pairwise的分析,为什么我们不可以三个组一起分析呢?学过ANOVA的同学应该都知道,ANOVA就是可以应对这种多组差异分析的情况。但要注意的是,ANOVA只可以告诉我们对于某个基因在这三组中是否存在差异,想要找出是哪一组有其他组别有差异还是需要进行pairwise t-test之类的分析。所以,在这里我们两组两组地进行分析正是出于这个考虑,并且有更方便我们解释差异分析的结果,说明在A组基因的表达量相对于B组的是上调还是下调。另外,本文的差异分析还是处于单因子水平(只有一个变量),至于多因子的差异分析以后研究透了再和大家进行分享。 完。
2023-07-27 17:19:281

如何利用spss进行相关性分析

飞秒检测的步骤为第一步:建立数据文件。 定义变量:序号为Number,假设年份用y表示,零售总额用r表示,居民收入用i表示,全市总人口用p表示,输入数据,例如某市从1978年至1992年社会商品零售总额、居民收入和全市总人口统计数字表,试分析它们之间是否存在线性关系。第二步:进行数据分析。 在数据文件管理窗口中,点击Analyze,展开下拉菜单,再点击Correlate中的Bivariate项,进入Bivariate Correlations对话框,在对话框中,有两项选择项。 (1)Statistics:统计量选择项 在该栏中有两个有关统计量的选择项,只有在主对话框中选择了Pearson相关分析方法时才可以选择这两个选择项,如果选择了这些项,在输出结果中就会得到样本的相应的统计量数值。它们是: Means and standard deviations:均值与标准差; Cross-product deviations and covariances:叉积离差阵和协方差阵。 (2)missing values:缺失值的处理方法选择项,在该栏中有两个关于缺失值的处理方法选择项: Exclude cases pairwise:仅剔除正在参与计算的两个变量值是缺失值的观测量。这样在多元相关分析中或多对两两分析中,有可能相关系数矩阵中的相关系数是根据不同数量的观测量计算出来的,系统默认为此项; Exclude cases listwise:剔除在主对话框中Variables矩形阵中列出的变量带有缺失值的所有观测量。这样计算出来的相关系数矩阵,每个相关系数都是一句相同数量的观测量计算出来的。从表中可以看出,社会零售总额与居民收入之间的相关系数为0.991,双尾检验的概率值为0,小于1%,即相关程度是显著的,叉积离差值为42403.443,协方差为3028.817,;社会零售总额与总人口的相关系数为0.850,双尾检验的概率值为0,小于1%,即相关程度也是显著的,叉积离差值为4141.919,协方差为295.851;居民收入与总人口的相关系数为0.790,双尾检验的概率值为0,小于1%,即相关程度是显著的,叉积离差值为3498.399,协方差为249.886。因此可以说,该市从1978年到1992年社会零售总额、居民收入和总人口两两之间有着明显的线性关系。
2023-07-27 17:19:551

统计学(65)-多重比较的形式

在这里,对多重比较仅仅进行一个概括,其中会有多种方法,在这里不做一一解释,一是太多公式和思想,即使理解,估计也记不住,二是最近文章又被催了,没有太多时间学习,只能抓住最重点的东西。 多重比较是一个比较宽泛的名词,具有很多种比较形式,常见的有: (1) 多组中任意的其中两组进行比较。 如A 、B 、C 三组, A 与B 、A 与C 、B 与C分别比较,共3次。这种比较方式也就是Pairwise Comparison 。常用的比较方法有TukeyHSD法、SNK法、LSD法等。 (2) 多组中所有可能的比较。 如A、B、C、D四组,A与B、C、D的均值比较,A、B的均值与C、D的均值比较,这些统称为Multiple Comparison。常用的比较方法有Bonferroni法、Scheffe法等。 (3) 对照组与其他所有试验组进行比较。 如设立A(对照组)、B(试验组1) 、C(试验组2)三组,分别对B和A、C和A进行比较,但B和C之间不进行比较。主要的比较方法是Dunnett t检验。 (4) 根据研究目的,只选择其中部分组别进行比较。 如A 、B 、C 三组,根据专业知识,只想比较A和B 、B和C两对。这种比较也称为事先计划的比较(Planned Comparison)。与此相对应,研究开始时没有任何计划,收集完数据之后,根据数据结果的提示,再想做一些多重比较,这就称为事后比较(Post-hoc Comparison) 。
2023-07-27 17:20:031

如何构造相似度矩阵

求解高维相似度矩阵(All Pairs Similarity Search,or Pairwise Similarity),或者在大规模数据集上挖掘Top-K最相似的items(K-Nearest Neighbor Graph Construction, or TopK Set expansion),主要有如下几种方法(以Document Similarity为例):Brute Force:最直接、暴力的方法,两个for循环,计算任意两篇文档之间的相似度,时间复杂度为O(n^2)。这种方法可以得到最好的效果,但是计算量太大,效率较差,往往作为baseline。 Inverted Index Based:由于大量文档之间没有交集term,为了优化算法性能,只需计算那些包含相同term文档之间的相似度即可,算法伪代码如下:基于MapReduce的分布式计算框架如下:为了进一步优化计算,节省空间,研究人员提出了一系列剪枝策略和近似算法,详细见:《Scaling Up All Pairs Similarity Search》、《Pairwise document similarity in large collections with MapReduce》、《Brute Force and Indexed Approaches to Pairwise Document Similarity Comparisons with MapReduce》。Locality Sensitive Hashing(LSH):通过对文档进行某种度量操作后将其分组散列在不同的桶中。在这种度量下相似度较高的文档被分在同一个桶中的可能性较高。主要用于Near-duplicate detection和Image similarity identification等,详细见:《Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality》、《Google news personalization: scalable online collaborative filtering》。
2023-07-27 17:20:521

请教各位大神 WifiManager的enableNetwork方法问题

[mw_shl_code=java,true] WifiConfiguration wc = new WifiConfiguration(); wc.SSID = """ + ssid + """; wc.preSharedKey = """ + 密码 + """; wc.status = WifiConfiguration.Status.ENABLED; wc.allowedGroupCiphers.set(WifiConfiguration.GroupCipher.TKIP); wc.allowedGroupCiphers.set(WifiConfiguration.GroupCipher.CCMP); wc.allowedKeyManagement.set(WifiConfiguration.KeyMgmt.WPA_PSK); wc.allowedPairwiseCiphers.set(WifiConfiguration.PairwiseCipher.TKIP); wc.allowedPairwiseCiphers.set(WifiConfiguration.PairwiseCipher.CCMP); wc.allowedProtocols.set(WifiConfiguration.Protocol.RSN); Log.i("wc", wc+""); wifilei2.addNetWordLink(wc);[/mw_shl_code]其中addNetWordLink(wc)就包含了addnetwork[mw_shl_code=java,true] public boolean addNetWordLink(WifiConfiguration config) { int NetId = wifiManager.addNetwork(config); Log.e("返回的ID",NetId+""); System.out.println(NetId); return wifiManager.enableNetwork(NetId, true); }[/mw_shl_code]
2023-07-27 17:21:021

跪求,坐等!!!!两组数据格兰杰因果检验结果怎么看

在5%显著性水平上,X不是Y的格兰杰原因,Y也不是X的格兰杰原因
2023-07-27 17:21:112

双序列比对工具

https://www.ebi.ac.uk/Tools/psa/ EMBI 的在线双序列比对工具提供了三种选项,1)全局比对;2)局部比对;3)全基因组比对。 并且每一个比对工具下提供了不同算法的选择。 这里我使用的uniprot 中的ABCB1 的两种亚型的数据。 https://www.uniprot.org/uniprot/P08183#sequences 选择Needleman-Wunsch 算法的全局比对,先来试试看。 这一步非常简单,将蛋白质序列贴在输入框即可。 可以手动输入,也可以上传文件。 但是embi 对文件格式也做了一定的要求。 遇事不绝,BLOSUM62 就完事儿拉。(embi 也帮我们设定好了默认的参数) gap 为罚分情况,而这里的gap 也分了很多种。 返回的结果分为两个部分。 第一个部分是比对相关设定的参数,以及最终比对的概要,如长度,一致度、相似度、空格,得分。 第二部分则是序列比对的具体信息 左边是序列的名字(ps:实际使用发现,对于序列名称较长时,工具无法读完整,因此尽量不要把两条序列的名称弄得太长) 右边则是序列部分。 上下分别是两条序列的信息。而连接两条序列的中间部分,则表示序列匹配的具体情况。 左右分别表示起始或末尾的字母,实际在序列中的位置。还记得在操作时,第二步提供了gap 罚分的参数选项吗? 实际上,这些gap 也有不同的类型。针对不同类型的gap,调整不同的罚分,可以使结果更加准确。 gap open,便是一系列空格中,开头的那个空格。领头的自然牛一些,因此分数也罚的高。 gap extend,便是跟着gap open 的一系列延伸的空格。跟班的自然比不过打头的,分也低了不少。 结尾也可以设定gap 罚分 end gap penalty 默认为false,若设定为true 则可以使用结尾的gap 罚分。但一般亲缘关系较近且大多数情况下,一般不使用结尾gap 罚分。 当我们给gap open 大 ,如 10分,gap extend 小,如0.5分的时候。 结果里的空格在序列比对中的位置就相对非常集中。 自然是因为分散的gap 代价太大了。 而同理,当我们给gap open 小 ,如 1分,gap extend 大,如5分的时候。结果里的空格也相应的非常分散。 既然两种不同的罚分设定会造成序列比对结果的差异,该选择哪种方式呢? 比如下面就有两个很典型的情况。gap 集中 or gap 分散? 1)有两条相似的待比对序列,是同源序列,因此它们的功能和结构也相似。其中一条序列结构已知,而另一条未知。想通过序列比对,用已知结构序列作为模版,预测另一个序列的结构。(分散) 2)有两条待比对序列,且已知它们大部分区域都是非常相似的,但其中一个序列的功能区,在另一个序列中是缺失的。想要通过序列比对,将另一个序列的功能区找出来。(集中) 如果你对于结果没有什么预期,例如只是为了单纯地比较两个不同的序列,则可以使用默认的罚分参数,即 gap open = 10, gap extend = 0.5。 局部比对提供了三种算法 选择最经典的 Simith-Waterman 算法 其他所有的步骤都和全局比对是差不多的。 我们可以使用PSA 提供的范例数据 从比对结果来看,长度也少了不少,因为只把黑色的相似部分做了序列比对。 一般来说,除了当一长一短的情况时,当两条序列长度差不多时,也可以使用局部比对,以发现两条序列最相似的部分。 有的时候,两条序列并不同源,只是有相似的功能区域,使用局部比对可以非常快速的定位该区域在序列中的位置。 除了之前介绍的EMBL pairwise sequence alignment 外,还有其他许多平台提供 全局/局部 双序列比对的算法。 而主要应用的也是 Simith-Waterman 算法(局部) 以及Needleman-Wunsch 算法(全局)。只是在基础上有所变化。 一个老师开发的比embl 只多不少的双序列比对工具(滑稽.jpg) 还可以给出得分矩阵的作图结果
2023-07-27 17:21:261

driver=nl80211 怎么设置

第一步,调出ubuntu的terminal  输入  sudo apt-get install hostapd  然后  sudo apt-get install dhcp3-server  这一步可能不是必须到,不过我没试,大家可以试试看  创建一个hosapd.conf文档,放在任意位置  sudo gedit hostapd.conf  然后复制粘贴一下内容到文档  interface=wlan0  driver=nl80211  ssid=Any_SSID_name  hw_mode=g  channel=1  macaddr_acl=0  auth_algs=1  ignore_broadcast_ssid=0  wpa=2  wpa_passphrase=Any_password  wpa_key_mgmt=WPA-PSK  wpa_pairwise=TKIP  rsn_pairwise=CCMP  可以在wpa_passphrase处修改你到无线热点密码,在ssid处修改热点到名称。还有driver根据实际情况需要修改。大家可以参考其他关于网卡驱动到资料  然后,就可以开启热点了  su root,获取root权限  接着输入 sudo hostapd ./hostapd.conf  开启成功  用手机或者其他无线设备搜索wifi后输入密码即可。
2023-07-27 17:21:332

双因素方差分析SPSS实现流程

双因素方差分析SPSS实现流程有一水稻施肥的盆栽试验,设置了5个处理:A1和A2分别施用两种不同工艺流程的氨水,A3施碳酸氢铵,A4施尿素,A5为对照。每个处理各4盆,随机置于同一试验大棚。水稻稻谷产量见下表。现分析不同施肥处理下,水稻稻谷产量之间是否有显著差异。1.1.3 课程实习任务①按课程设计题目要求设计脚本;   ②脚本能够完成对水稻数据的单因素方差分析;   ③编写代码;   ④脚本分析与调试;   ⑤撰写实验报告。1.1.4 课程实习目标①巩固并加深对R语言的理解和掌握;   ②通过课外学习拓展课程知识面;   ③提高运用R语言解决生活实际问题的能力;   ④初步掌握开发简单脚本的基本方法;   ⑤掌握书写程序设计与软件开发的阐述性、总结性文档。2. 程序设计层次及说明展示由于采用代码注释的方法,形式上不太美观,且不容易直接看到结果,造成阅览不变,故笔者采用了将脚本文件分部分执行,截图进行说明的方法,让每部操作清晰明了,结果明显。再在本节末尾附上代码文件以供阅览。2.1 数据录入  此处是直接进行了程序录入,将数据录入参数shuidaodata中。其中,每行数据对应一个组别。   而这里可以也可使用scan函数进行交互键入,又或者将数据保存为csv格式,再用read.csv函数根据途径录入也可以。2.2 转化为数据框  这里根据每行对应的类型不同分别命名。命名的列量名称为参数name,数据框名为参数shuidao。2.3 数据融化和冗杂数据处理由于水稻数据内容构成比较简单,因素单一,所以不需要再融化数据框操作了,因为在数据框形成时已经完成了融化处理的结果,再进行转化反而繁琐,故不需要使用melt函数。同理,此份水稻数据中不包含冗余成分,故也同样不需要冗杂数据处理。2.4 数据分析  此处直接使用aov函数进行单因素方差分析,得到结果参数result的F值为11.18,p值小于0.05,且各因子水平的均值之间存在十分显著差异。2.5 初步结论经过单因素方差分析可得知,肥料因素对产量的结果影响十分显著,也因此可以再做一些步骤来确认其真实性,以及深入了解其差异性的特质。2.6 正态性检验2.6.1 Q-Q图  这里先用lm函数进行线性回归模型拟合,将结果参数mo录入qqPlot函数中,得到下图:   可见回归曲线在范围内,故数据符合正态性检验。2.6.2 其他方法检验正态性的方法不唯一,在网上资料查询中,还有如下方法: 1.ks.test函数,但是由于数据中包含重复数值,故前提假设不成立,不便使用。 2.W检验的shapiro.test函数,得出p值大于0.05时数据正态性得到检验。   可见水稻数据正态性依旧得到检验。 3. fBasics包里的shapiroTest函数   可见水稻数据正态性依旧得到检验。2.7 方差齐性检验  由于数据满足正态性,故使用bartlett.test函数进行方差齐性检验,得出结果p值远大于显著性水平0.05,因此不能拒绝原假设,认为不同水平下的水稻数据是等方差的。故等方差性得到检验。   而当数据不满足正态性时,也可以使用leveneTest函数进行方差齐性检验。2.8 各组均值差异2.8.1 TukeyHSD函数的杜奇检验为更深一步探索每组之间的差异,采用TukeyHSD函数检验,如下:   其中修改了par中的绘图参数,以便图形更加简洁清晰,绘图如下:   在这里可以清晰的看出,与0坐标线是值信水平,与其相交的部分就是效果不显著的组别,反之则是效果显著的组别。也因此可以得出结论:A1-A5、A2-A4、A3-A5、A4-A5之间有显著的差异。2.8.2 其他方法同样的,在网络搜索中,还有其他的方法可以揭示组别之间的差异,此处我使用的是多重t检验法:   在这里可以清晰的看出,p值小于0.05的就是差异较为显著的组别,和上一小节的结论一致。2.9 结论从水稻数据的单因素方差分析结果得知,肥料因素对产量的结果影响十分显著,且结果经检验符合正态性、等方差性,故结果较为可信。   最后经过各组均值差异检测后得知,A1-A5、A2-A4、A3-A5、A4-A5四组之间差异较为显著,且由题干可知,A5为对照组,故可知A1、A3、A4三组肥料效果较好。2.10 代码展示#数据录入  shuidaodata<-c(24,30,28,26,        27,24,21,26,        31,28,25,30,        32,33,33,28,        21,22,16,21) #转化为数据框  name<-rep(paste(“A”,1:5,sep=”“),each=4)  shuidao<-data.frame(name,shuidaodata) #单因素方差分析  result<-aov(shuidaodata~name,data=shuidao)  summary(result)#正态性检验 #Q-Q图  mo<-lm(shuidaodata~name,data=shuidao)  library(car)  qqPlot(mo,main=”Q-Qplot图”,las=T) #W检验  #shapiro.test(shuidaodata) #fBasics包的shapiroTest  #library(fBasics)  #shapiroTest(shuidaodata)#方差齐性检验  bartlett.test(shuidaodata~name,data=shuidao)#各组均值差异 #杜奇检验  duqi<-TukeyHSD(result)  par(lwd=2,cex.lab=1.5,cex.axis=1.5,col.axis=”blue”,las=1)  plot(duqi,mgp=c(3,0.5,0)) #多重t检验法  #pairwise.t.text(shuidaodata,name)
2023-07-27 17:21:401

方差分析(一元单因素)

本例中像素数pixel便是影响因变量的一个因素,其具有5个水平。 如销售人员奖金对销售量的影响,奖金可作为影响销售量的一个协变量。 把每一类不同像素的数码相机总销量分别看成是不同的总体,该问题便转化为如下的假设检验问题: 得到数据透视表 可以看到数据的箱型图分布 一元单因素方差分析应当满足方差齐性假设,其原假设是不同水平所代表总体的方差是相同的。对于医院方差分析常用levene"s检验,多元方差分析多使用Bartlett"s球形检验法。 组内离差平方和为4682.125,组内方差为133.7750,组间离差平方和为10472.850,组间方差为2618.2125,于是得出F统计量为19.57。对应的P值几乎为0,所以可以认为像素大小对相机销量影响是非常显著的。 得出结论:在显著性a=0.05水平下,可以拒绝根据像素变量划分的各总体均值相等的原假设。即,不同的像素大小对相机销量影响非常显著。 进一步研究因素的哪一水平对观测变量产生了显著影响,即那种像素大小对销量有显著影响。这就是单因素方差分析的均值多重比较检验。 statsmodels.stats.multicomp中提供了pairwise_tukeyhsd函数可进行TukeyHSD事后多重比较检验。 系统自动将不同像素进行两两对比,并在reject列给出了是否应该拒绝原假设--两组属性没有差异的检验结果。(meandiff表示二者对应的因变量均值差,返回True表示二者对销量的影响有差异) 结果表明600万像素以下的数码相机由于技术比较落后,消费者需求不大,与中高像素的数码相机进行对比,销量明显萎缩,且差异最为显著;消费者对于像素数量的要求不同,对销售量也产生了显著影响,像素高的相机明显比像素低的相机销量大。 方差分析实际上是对一般线性模型进行分析,其还可以对于用方差分析的线性模型进行参数估计和假设检验。根据参数估计结果,可以得出当从一个水平变为另一个水平时对因变量产生的具体影响,并据此进行预测。 第一张表主要展示模型诊断的总体信息,如拟合优度判定系数R2,F统计量值、P值、AIC和BIC等信息指数等。第二章表主要反映方差分析模型的参数估计结果及其检验结果。 这个图中的C(pixel)[500万像素及以下] 没有出现,而是由截距项intercept表示该像素下对因变量的影响:销量为81.125台。其他水平对于因变量的影响都是一截距项为基准进行衡量,其对应的参数估计代表了各个水平对因变量影响与截距项对因变量影响的差距。 为了避免手工繁琐的计算,需要估计不含截距项的模型参数的绝对数值,在程序定义formula的右边加上‘-1"即可。 这样的出的结果更清晰明了,高像素(800万以上)的数码相机销量比较大,中低像素(500-800万)的相机销售一般,低像素(500万以下)销量最小。 使用模型的参数估计值对 因变量进行预测 确保预测较为准确的前提就是估计出的模型要依据统计理论模型进行模型诊断。本利模型参数估计均非常显著,且拟合优度与F值均较大,可以认为该模型适合进行检测。 数据预处理 画数据箱型图 方差同质性检验 对方差来源进行分解 多重比较检验 参数估计和预测 方差分析模型的预测
2023-07-27 17:21:471

10X单细胞(10X空间转录组)通讯分析CellChat之多样本通讯差异分析

这个地方我看了一下,每个样本都是单独分析出来的结果,其实对于细胞通讯一直有一个争议,那就是先整合后再分析呢,还是单样本分析完了进行比较,不知道大家怎么看,Cellchat这里是建议分开做 CellChat从全局出发,以预测细胞间通信的一般原理。 比较多种生物学条件之间的细胞间通讯时,它可以回答以下生物学问题: 首先是上述第一个问题 ,CellChat compares the the total number of interactions and interaction strength of the inferred cell-cell communication networks from different biological conditions. To identify the interaction between which cell populations showing significant changes, CellChat compares the number of interactions and interaction strength among different cell populations.( 配受体数量和通讯强度的差异 ) The differential number of interactions or interaction strength in the cell-cell communication network between two datasets can be visualized using circle plot, where red (or blue) colored edges represent increased (or decreased) signaling in the second dataset compared to the first one.( 红色加强,绿色降低 ) 如果我们不止两个样本呢?? The differential network analysis only works for pairwise datasets. If there are more datasets for comparison, we can directly show the number of interactions or interaction strength between any two cell populations in each dataset. 为了更好地控制不同数据集上的推断网络的节点大小和边缘权重,我们计算了每个单元格组的最大单元数以及所有数据集之间的最大交互数(或交互权重)。 To simplify the complicated network and gain insights into the cell-cell communication at the cell type level, we can aggregate the cell-cell communication based on the defined cell groups. Here we categorize the cell populations into three cell types, and then re-merge the list of CellChat object.( 细胞类型水平上分析 ) 比较二维空间中的传出和传入交互强度,可以轻松识别出具有不同数据集之间发送或接收信号的显着变化的细胞群体。 然后,CellChat可以基于它们在多种生物学条件下的细胞间通信网络,识别具有更大(或更少)差异的信号网络,信号组以及保守的和context-specific 的信号通路。 CellChat performs joint manifold learning and classification of the inferred communication networks based on their functional and topological similarity. NB: Such analysis is applicable to more than two datasets. Functional similarity: High degree of functional similarity indicates major senders and receivers are similar, and it can be interpreted as the two signaling pathways or two ligand-receptor pairs exhibit similar and/or redundant roles. NB: Functional similarity analysis is not applicable to multiple datsets with different cell type composition.( 这个地方还是要注意一下,我们来看一下功能相似性的定义 ) Structural similarity: A structural similarity was used to compare their signaling network structure, without considering the similarity of senders and receivers. NB: Structural similarity analysis is applicable to multiple datsets with the same cell type composition or the vastly different cell type composition. 这里要注意的是A structural similarity was used to compare their signaling network structure, without considering the similarity of senders and receivers, using a previously developed measure for structural topological differences ( 算法在单样本时候已经分享过 ) Here we can run the manifold and classification learning analysis based on the functional similarity because the two datasets have the the same cell type composition.( 这一部分单样本已经介绍过了 )。 We can identify the signaling networks with larger (or less) difference based on their Euclidean distance in the shared two-dimensions space( 我们可以在共享二维空间中基于它们的欧几里得距离来识别具有较大(或较小)差异的信令网络 ). Larger distance implies larger difference of the communication networks between two datasets in terms of either functional or structure similarity. NB : We only compute the distance of overlapped signaling pathways between two datasets. Those signaling pathways that are only identified in one dataset are not considered here. If there are more than three datasets, one can do pairwise comparisons by defining comparison in the function rankSimilarity . By comparing the information flow/interaction strengh of each signaling pathway, we can identify signaling pathways, (i) turn off, (ii) decrease, (iii) turn on or (iv) increase, by change their information flow at one condition as compared to another condition.( 这才是我们细胞通讯分析的重点,高低开合四个方向 ) We can identify the conserved and context-specific signaling pathways by simply comparing the information flow for each signaling pathway( 没怎么变的通讯 ), which is defined by the sum of communication probability among all pairs of cell groups in the inferred network (i.e., the total weights in the network). This bar graph can be plotted in a stacked mode or not. Significant signaling pathways were ranked based on differences in the overall information flow within the inferred networks between NL and LS skin. The top signaling pathways colored red are enriched in NL skin, and these colored green were enriched in the LS skin. The above analysis summarize the information from the outgoing and incoming signaling together. We can also compare the outgoing (or incoming) signaling pattern between two datasets, allowing to identify signaling pathways/ligand-receptors that exhibit different signaling patterns. We can combine all the identified signaling pathways from different datasets and thus compare them side by side, including outgoing signaling, incoming signaling and overall signaling by aggregating outgoing and incoming signaling together. NB: rankNet also shows the comparison of overall signaling, but it does not show the signaling strength in specific cell populations. We can compare the communication probabilities mediated by ligand-receptor pairs from some cell groups to other cell groups. This can be done by setting comparison in the function netVisual_bubble . Moreover, we can identify the upgulated (increased) and down-regulated (decreased) signaling ligand-receptor pairs in one dataset compared to the other dataset. This can be done by specifying max.dataset and min.dataset in the function netVisual_bubble . The increased signaling means these signaling have higher communication probability (strength) in one dataset compared to the other dataset. NB: The ligand-receptor pairs shown in the bubble plot can be accessed via signaling.LSIncreased = gg1$data . The above method for identifying the upgulated and down-regulated signaling is perfomed by comparing the communication probability between two datasets for each L-R pair and each pair of cell groups. Alternative, we can identify the upgulated and down-regulated signaling ligand-receptor pairs based on the differential gene expression analysis. Specifically, we perform differential expression analysis between two biological conditions (i.e., NL and LS) for each cell group, and then obtain the upgulated and down-regulated signaling based on the fold change of ligands in the sender cells and receptors in the receiver cells. Such analysis can be done as follows. Since the signaling genes in the net.up and net.down might be complex with multi-subunits, we can do further deconvolution to obtain the individual signaling genes. We then visualize the upgulated and down-regulated signaling ligand-receptor pairs using bubble plot or chord diagram. Visualize the upgulated and down-regulated signaling ligand-receptor pairs using Chord diagram Similar to the CellChat analysis of individual dataset, we can visualize the cell-cell communication network using Hierarchy plot, Circle plot or Chord diagram. Edge color/weight, node color/size/shape : In all visualization plots, edge colors are consistent with the sources as sender, and edge weights are proportional to the interaction strength. Thicker edge line indicates a stronger signal. In the Hierarchy plot and Circle plot , circle sizes are proportional to the number of cells in each cell group. In the hierarchy plot, solid and open circles represent source and target, respectively. In the Chord diagram , the inner thinner bar colors represent the targets that receive signal from the corresponding outer bar. The inner bar size is proportional to the signal strength received by the targets. Such inner bar is helpful for interpreting the complex chord diagram. Note that there exist some inner bars without any chord for some cell groups, please just igore it because this is an issue that has not been addressed by circlize package. For the chord diagram, CellChat has an independent function netVisual_chord_cell to flexibly visualize the signaling network by adjusting different parameters in the circlize package. For example, we can define a named char vector group to create multiple-group chord diagram, e.g., grouping cell clusters into different cell types. Using chord diagram, CellChat provides two functions netVisual_chord_cell and netVisual_chord_gene for visualizing cell-cell communication with different purposes and different levels. netVisual_chord_cell is used for visualizing the cell-cell communication between different cell groups (where each sector in the chord diagram is a cell group), and netVisual_chord_gene is used for visualizing the cell-cell communication mediated by mutiple ligand-receptors or signaling pathways (where each sector in the chord diagram is a ligand, receptor or signaling pathway.) NB: Please ignore the note when generating the plot such as “Note: The first link end is drawn out of sector ‘MIF".”. If the gene names are overlapped, you can adjust the argument small.gap by decreasing the value. We can plot the gene expression distribution of signaling genes related to L-R pairs or signaling pathway using a Seurat wrapper function plotGeneExpression . 相当不错,大家多多尝试分析 生活很好,有你更好
2023-07-27 17:21:541

spss软件聚类分析怎么用,从输入数据到结果,树状图结果。整个操作怎么进行。需要基本思路。

excel表:整理一份excel数据表,第一列为材料或数据的名称,后几列为各项数值导入数据:打开SPSS,点击File——Open——DATA, 选择已经编辑好的excel表点击analyze——Classify——Hierarchical cluster analysis——数据导入variables,表头项导入label case by;选择Method 项,根据需要选择方法,点击Plots选择dendrogram(打对勾),其余各项根据自己需要选择要计算的统计量,点击ok即可。
2023-07-27 17:22:044

SpSs能不能做分组回归

可以的用于选择需要计算的相关分析指标,有: Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析 Kendall"s tau-b复选框 计算Kendall"s等级相关系数 Spearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关) 【Test of Significance单选框组】 用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。 【Flag significant correlations】 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。 【Options钮】 弹出Options对话框,选择需要计算的描述统计量和统计分析: Statistics复选框组 可选的描述统计量。它们是: Means and standard deviations每个变量的均数和标准差 Cross-product deviations and covariances各对变量的交叉积和以及协方差阵 Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。 线性回归分析 线性回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析的任务就是通过样本数据推算回归方程并检验方程是否成立。SPSS的线性回归分析功能被集中在Statistics菜单的Regression==>liner Linear过程 一、单线性回归的基本操作 调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。直线回归为二元线性回归分析。 2、界面详解 在菜单中选择Regression==>liner,系统弹出线性回归对话框如下:除了大家熟悉的内容以外,里面还出现了一些特色框或按钮。 【Dependent框】 用于选入回归分析的应变量:肺活量。
2023-07-27 17:24:251

amos潜变量之间的相关系数多少比较好

取值范围在0-1之间比较好。Amos标准化路径系数类似于回归中的标准化回归系数,取值范围在0-1之间。路径系数的平方表示潜变量对测量题目方差的解释比率,如果Amos标准化路径系数大于1,一种可能的情况是外源变量之间的相关性太强,考虑把两个相关性很强的因子合并在一起。另外,数据质量差也有可能导致标准化路径系数大于1。这种情况比较麻烦,可能需要你去做一次数据清洗工作,提升数据的质量。在路径系数都显著的前提下,直接比较标准化路径系数,或者用amos自带的pairwise parameters功能,若CR值大于1.96,差异显著,设置完全自由模型与部分限制条件模型,两个进行对比,看是否存在显著差异。
2023-07-27 17:24:331

nana进来~

遗传基因的多形为每 popu 被估计?每一被观察 heterozygosity(引人注意) 而且期望了被使用 GENEPOP 3.1(雷蒙德 andRousset,1995) 和 ARLEQUIN 2.000 计算的 heterozygosity(他) 的场所 (一) 的作为等位基因的数字的 lation.(Schneider 及其研究同仁,2000) 可能性测试 Guo 和汤普生 (1992) 用来为 genotypic 连合 dis 测试?平衡为每人口里面的现场的所有双和为对难-Weinberg 平衡的场所适合测试.(雷蒙德和 Rousset,1995) dis?人口-特性等位基因的 tribution 发现在一。 hispanica 被分析下列的 Gibbs 及其研究同仁。 (1997) 由于大的不同在各种不同的样品之间在大小方面, 一, 引人注意和他在 popu 之间被比较?lations 使用一个蒙地卡罗模拟, 再用 sam 抽取样品来自每一个较大的样品的 1000 次?ple 大小被抽取样品 popula 的最小的对那等于?tion, 使用软件 POPTOOLS v.2 的 Degebe(15个个体).1.(头巾,2000) nificance 每一场所被估计使用 FSTAT(Gou?det,2000). 在人口之中的遗传基因区别的范围也被藉由成对地计算 FST 定量评价和藉由表演全球测试不一致?在样品 (雷蒙德和 Rousset,1995) 之中的 entiation 使用 ARLEQUIN 在人口之中的重要性的空间变化的基因不同被估计被每一-形成在使用分子不一致的分析模型 (AMOVA) 的人口之中的一项遗传基因不同的阶层分析, 如 Michalakis 和 Excoffier(1996) 所描述和可得的在 ARLEQUIN GENEPOP 也用来计算没有偏见的 esti?同种的 p 价值的配偶测试 (光线?mond 和 Rousset,1995) 在所有的现场样品的所有双之中。 堰和 Cockerham(1984) 建造者 F 的统计学、 FIS(f) 和 FST(y) 和他们的 sig 的类似物- 计画 MANTEL 2.0(Liedloff,1999) 用来测试 geo 之间的关系的重要性?图解式的距离和 FST 为人口的所有对评价。最后, AMOVA(Michalakis 和 Excoffier,1996) 被运行和分开了全部的先验的设计一起使用 ARLEQUIN 人口进入三个先前对占优势的 mtDNA 血统符合的团体之内建议如 ESUs 。
2023-07-27 17:24:425

我的GWAS高级曼哈顿图折腾过程

如果说别人画图是折腾自己,那我画图可能就是折腾自己兼折腾群主....... 首先在这里感谢何大哥哈(知乎:hewm2008)、很耐心的为我解答了许多问题。 RectChr 主要用于基于Chr染色体水平上 多层次 的可视工具,对一些统计变量用 点,线,柱状和heatmap、高亮,文本文字,彩虹链接, 连接,动态热度图,动态柱状图 以及 结合颜色 【即线,散点,直方图,热图,文本, line, scatter/point, histogram , PairWiseLink,link, heatmap(highlights)和text/ 】等 可视化各chr上各区域这个统计量,达到快速一眼看出规律,识别结果。 并且各种可以自己组合 自由修改相关参数,使用方法极像circos的一样。 简单点说 circos 可以画的, 这儿均可以画,只是把圈圈图改为长方型的 。其中自己搭配层颜色等,同时也比circos多了一些默认配置,用起来十分简单,如SNP GC密度 直接输入文件即可。 可以在多个场景应用,其中官方简要提供了10个实列,程序网址提供了这些实例的配置文件和输入文件。用法用法简单,在有相关数据的前提下,主要 定义层数 和 各层的画图方式 。具体内容可见软件介绍。 其中 site.text.info 如下格式(第四列没有用到) 现画高级点的GWAS的曼哈顿图,主要要点如下: 1、RectChr多层,各层高度可以设不同,chr横放,其中chr间隙小点 2、Gwas的点层用point(PType = point)来画,高度高点(ChrWidth=100),不画背景(crBG="#FFFFFF"),和设置一下阈值线(Cutline=5) 3、其中用 Pairwiselink标同点的线,用text层画出gene名(Rotate=-90 # 旋转 90度 文字) 4、其中text层和Pairwiselink画线的方式和颜色可以自己调,我这为了省事,用默认的。 拥有图层的概念,拥有一个好导师,可以给你一定的自由,用于一个领路人,多认识几个大佬。
2023-07-27 17:24:561

2道关于概率的题,拜托帮忙了!!

1.Because the ith can not affect the probability of the jth, the events{A_ij ; 1 <= i<= j<=n} are pairwise independent2. There is without re-release, therefore each animal is not able to escape more then twice, and the domain of variation is going to be captured.a=c+m+r,r/c is probability of escape and X/r=P is the probability of recapture, because obtain m marked animals, m will be c. the probability mass function is X/(b-a+m)你还是再看看貌似有点奇葩若需追问请便若无请采纳
2023-07-27 17:25:031

分子进化树构建及数据分析方法介绍

转自: https://www.plob.org/article/994.html 首先是方法的选择。 基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。 一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰 进化树 的构建。贝叶斯的方法则太慢。对于各种方法构建分子 进化树 的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。 对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。 Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的 进化树 较为可靠。如果Bootstrap的值太低,则有可能 进化树 的拓扑结构有错误,进化树是不可靠的。 对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。 表1中列出了一些与构建分子进化树相关的软件。 构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。 构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。 构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。 ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。 贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。由于该方法需要很多背景的知识,这里不作介绍。 需要注意的几个问题是: 其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。 其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。 文件格式如图1所示: 图1 FASTA格式的序列因此,作者推荐的软件组合为:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。 一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。关于这方面的文献非常多,这里作者仅做简要的介绍。 推断基因/蛋白的功能,一般先用BLAST工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(ortholog)和旁系同源物(paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成FASTA格式的文件。一般通过NJ构建进化树,并且进行Bootstrap分析所得到的结果已足够。如果序列近缘,可以再使用MP构建进化树,进行比较。如果序列较远源,则可以做ML树比较。使用两种方法得到的树,如果差别不大,并且Bootstrap总体较高,则得到的进化树较为可靠。 基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用NJ、ME或者ML的方法。 计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择NJ或者MP即可。 如果使用MEGA进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。 在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。 序列比对建议用ClustalX 建NJ或MP树,用MEGA就可以了,非常方便 若要建ML树推荐用phyML 建Bayes树推荐用Parallel MrBayes
2023-07-27 17:25:101

contextcapture一直等待运行

不用,看报错的代码是什么进行相应的方式解决,比如tile刚运行就报错:failedtocreate就可以通过点击Resubmitproduction重新提交,或者先点击Cancelproduction取消建模再点击Resubmitproduction重新提交解决;tile刚运行就报错:FailedduringPhotosPairwisematching更改工程中照片链接路径:在工程名上右键,选择Referencemanager,如下图所示,原本图片在F盘,现在在I盘里,则更改图片映射路径解决。
2023-07-27 17:25:171

关系的变量做格兰杰因果检验时是用原序列还是差?

步骤一:分析数据的平稳性(单位根检验)按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin Chu t* 统计量、Breitung t 统计量、lm Pesaran Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin- Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,TI代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。步骤二:协整检验或模型修正情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。我们主要采用的是Pedroni、Kao、Johansen的方法。通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。” 下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X 的滞后对X自身的影响)。 Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?步骤三:面板模型的选择与回归面板数据模型的选择通常有三种形式: 一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:在回归的时候,权数可以选择按截面加权(cross- section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。
2023-07-27 17:25:271

人体骨骼关键点检测综述

什么是人体骨骼关键点检测? 应用 挑战 人体骨骼关键点检测方法主要分两周:自上而下和自下而上。 coordinate :坐标 直接将关键点坐标作为最后网络需要回归的目标,这样可以得到每个坐标点的直接位置信息 heatmap :热图 每一类坐标用一个概率图来表示,对图片中的每个像素位置都给一个概率,表示该点属于对应类别关键点的概率。距离关键点位置越近的像素点的概率越接近于1,距离关键点越远的像素点的概率越接近于0。具体的一般使用高斯函数来模拟。 offset :偏移量 表示距离目标关键点一定范围内的像素位置与目标关键点之间的关系。 Convolutional Pose Machines :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[1])所示。 Cascaded Pyramid Network for Multi-Person Pose Estimation :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[2])所示。 RMPE :本论文主要考虑的是自上而下的关键点检测算法在目标检测产生Proposals的过程中,可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差,会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小,造成接下来的单人人体骨骼关键点检测错误;对同一个物体重复检测,虽然目标人体是一样的,但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题,即通过空间变换网络将同一个人体的产生的不同裁剪区域(Proposals)都变换到一个较好的结果,如人体在裁剪区域的正中央,这样就不会产生对于一个人体的产生的不同Proposals有不同关键点检测效果。具体Pipeline如下图(摘自论文[14])所示。 Part Segmentation :即对人体进行不同部位分割,而关键点都落在分割区域的特定位置,通过部位分割对关键点之间的关系进行建模,既可以显式的提供人体关键点的空间先验知识,指导网络的学习,同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。如下图(论文[4])所示。 Part Affinity Fields : 网络分为两路结构,一路是上面的卷积层,用来获得置信图;一路是下面的卷积层,用来获得PAFs。网络分为多个stage,每一个stage结束的时候都有中继监督。每一个stage结束之后,S以及L都和stage1中的F合并。上下两路的loss都是计算预测和理想值之间的L2 loss。 personlab是一个自下而上的人体检测和姿态估计算法。包括两个步骤: 关键点检测阶段的目标是检测属于图像(可能不止一个人)中任何人体的关键点。该阶段生成一个热图和一个偏移量: 假设 是图像中二维位置中的一个,其中 是图像的位置索引, 是像素点的个数。 使用Hough投票集合热图和偏移量,聚合成hough分数映射 , 其中 为图像的每个位置, 为双线性插值核。 的局部最大值作为关键点的候选位置点,但是 没有与个体相关的信息,当图像中有多个个体存在时,我们需要一个机制将关键点聚合在其对应的个体上。 Mid-range pairwise offsets 为了达到以上目的,在网络上加入一个分离的成对中射程2-D偏移域输出 用来连接成对的关键点。训练集中 ,表示对于同一个个体 从第 个关键点到第 个关键点。 对于具有大量个体的情况,很难准确的回归 ,使用更准确的短射程偏移来递归的修正: [1] Convolutional Pose Machines [2] Cascaded Pyramid Network for Multi-Person Pose Estimation [3] RMPE: Regional Multi-Person Pose Estimation
2023-07-27 17:25:521

Android WiFi开发,如何自动连接的代码

public class WifiAutoConnectManager {private static final String TAG = WifiAutoConnectManager.class.getSimpleName();WifiManager wifiManager; // 定义几种加密方式,一种是WEP,一种是WPA,还有没有密码的情况 public enum WifiCipherType { WIFICIPHER_WEP, WIFICIPHER_WPA, WIFICIPHER_NOPASS, WIFICIPHER_INVALID } // 构造函数 public WifiAutoConnectManager(WifiManager wifiManager) { this.wifiManager = wifiManager; } // 提供一个外部接口,传入要连接的无线网 public void connect(String ssid, String password, WifiCipherType type) { Thread thread = new Thread(new ConnectRunnable(ssid, password, type)); thread.start(); } // 查看以前是否也配置过这个网络 private WifiConfiguration isExsits(String SSID) { List<WifiConfiguration> existingConfigs = wifiManager.getConfiguredNetworks(); for (WifiConfiguration existingConfig : existingConfigs) { if (existingConfig.SSID.equals(""" + SSID + """)) { return existingConfig; } } return null; } private WifiConfiguration createWifiInfo(String SSID, String Password, WifiCipherType Type) { WifiConfiguration config = new WifiConfiguration(); config.allowedAuthAlgorithms.clear(); config.allowedGroupCiphers.clear(); config.allowedKeyManagement.clear(); config.allowedPairwiseCiphers.clear(); config.allowedProtocols.clear(); config.SSID = """ + SSID + """; // nopass if (Type == WifiCipherType.WIFICIPHER_NOPASS) { config.wepKeys[0] = ""; config.allowedKeyManagement.set(WifiConfiguration.KeyMgmt.NONE); config.wepTxKeyIndex = 0; } // wep if (Type == WifiCipherType.WIFICIPHER_WEP) { if (!TextUtils.isEmpty(Password)) { if (isHexWepKey(Password)) { config.wepKeys[0] = Password; } else { config.wepKeys[0] = """ + Password + """; } } config.allowedAuthAlgorithms.set(AuthAlgorithm.OPEN); config.allowedAuthAlgorithms.set(AuthAlgorithm.SHARED); config.allowedKeyManagement.set(KeyMgmt.NONE); config.wepTxKeyIndex = 0; } // wpa if (Type == WifiCipherType.WIFICIPHER_WPA) { config.preSharedKey = """ + Password + """; config.hiddenSSID = true; config.allowedAuthAlgorithms.set(WifiConfiguration.AuthAlgorithm.OPEN); config.allowedGroupCiphers.set(WifiConfiguration.GroupCipher.TKIP); config.allowedKeyManagement.set(WifiConfiguration.KeyMgmt.WPA_PSK); config.allowedPairwiseCiphers.set(WifiConfiguration.PairwiseCipher.TKIP); // 此处需要修改否则不能自动重联 // config.allowedProtocols.set(WifiConfiguration.Protocol.WPA); config.allowedGroupCiphers.set(WifiConfiguration.GroupCipher.CCMP); config.allowedPairwiseCiphers.set(WifiConfiguration.PairwiseCipher.CCMP); config.status = WifiConfiguration.Status.ENABLED; } return config; } // 打开wifi功能 private boolean openWifi() { boolean bRet = true; if (!wifiManager.isWifiEnabled()) { bRet = wifiManager.setWifiEnabled(true); } return bRet; } class ConnectRunnable implements Runnable { private String ssid;private String password;private WifiCipherType type; public ConnectRunnable(String ssid, String password, WifiCipherType type) { this.ssid = ssid; this.password = password; this.type = type; } @Override public void run() { // 打开wifi openWifi(); // 开启wifi功能需要一段时间(我在手机上测试一般需要1-3秒左右),所以要等到wifi // 状态变成WIFI_STATE_ENABLED的时候才能执行下面的语句 while (wifiManager.getWifiState() == WifiManager.WIFI_STATE_ENABLING) { try { // 为了避免程序一直while循环,让它睡个100毫秒检测…… Thread.sleep(100); } catch (InterruptedException ie) { } } WifiConfiguration wifiConfig = createWifiInfo(ssid, password, type); // if (wifiConfig == null) { Log.d(TAG, "wifiConfig is null!"); return; }WifiConfiguration tempConfig = isExsits(ssid); if (tempConfig != null) { wifiManager.removeNetwork(tempConfig.networkId); } int netID = wifiManager.addNetwork(wifiConfig); boolean enabled = wifiManager.enableNetwork(netID, true); Log.d(TAG, "enableNetwork status enable=" + enabled); boolean connected = wifiManager.reconnect(); Log.d(TAG, "enableNetwork connected=" + connected); } } private static boolean isHexWepKey(String wepKey) { final int len = wepKey.length(); // WEP-40, WEP-104, and some vendors using 256-bit WEP (WEP-232?) if (len != 10 && len != 26 && len != 58) { return false; } return isHex(wepKey); } private static boolean isHex(String key) { for (int i = key.length() - 1; i >= 0; i--) { final char c = key.charAt(i); if (!(c >= "0" && c <= "9" || c >= "A" && c <= "F" || c >= "a" && c <= "f")) { return false; } } return true; }}
2023-07-27 17:26:011

确定聚类分析中的类别个数的方法

以k-means聚类为例,对于一个聚类个数k,首先利用k-means聚类将样本聚成k类,然后计算k类中各类内各点与类中心的距离加和W(ki),进而计算k类的距离加和W(k)=sum(W(k1),…,W(ki),…,W(kk));根据原始数据的特点产生B个均匀分布的参考数据集,对于每个数据集都计算W(sk),计算B个数据集的平均E.W(k)=mean(W(1k),…,W(sk),…,W(bk)); 那么对于每个k就有:gap(k)=log(E.W(k))-log(W(k));然后选取最小的k,使得gap(k)为局部最大值,并且超出了其邻居1个标准差,即gap(k)-gap(k+1)>0.25*sd(W(s(k+1))) 参考文献:Single-cell messenger RNA sequencing reveals rare intestinal celltypes. Nature 2015 这里需要注意的是,gap statistic适用于可以直接设定聚类个数的聚类方法,如k均值和层次聚类,而类似密度聚类和PhenoGraph聚类方法,这两者是用参数(半径,resolution)来划分样本,无法直接设定类别个数。[谨慎!!!可以先调整参数使得得出的聚类个数和该方法得出的结果相同!!!] 轮廓系数,是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 1. 计算样本i到同簇其他样本的平均距离ai。ai 越小,说明样本i越应该被聚类到该簇。将ai 称为样本i的簇内不相似度。簇C中所有样本的a i 均值称为簇C的簇不相似度。 2. 计算样本i到其他某簇Cj 的所有样本的平均距离bij,称为样本i与簇Cj 的不相似度。定义为样本i的簇间不相似度:bi =min{bi1, bi2, ..., bik}。bi越大,说明样本i越不属于其他簇。 3. 根据样本i的簇内不相似度ai和簇间不相似度bi,定义样本i的轮廓系数:4. 判断: a) si接近1,则说明样本i聚类合理; b) si接近-1,则说明样本i更应该分类到另外的簇; c) 若si近似为0,则说明样本i在两个簇的边界上。 所有样本的si的均值称为聚类结果的轮廓系数,si越大,说明聚类效果越好。 参考自: CSDN 引用文献: Cluster analysis of novel isometric strength measures produces a valid and evidence-based classification structure for wheelchair track racing. (Br J Sports Med. 2018 11.645) mclust使用高斯混合模型对数据进行聚类分析。具体算法过于复杂,这里不详细解释。mclust包方法有点“暴力”,聚类数目可以自定义,比如选取从1到20,然后一共有14种模型,每一种模型都计算聚类数目从1到20的BIC值,最终确定最佳聚类数目。该方法弊端在于时间消耗特别高。使用的数据为R自带数据集wine。这些分别代表着相关性(完全正负相关——对角线、稍强正负相关——椭圆、无关——圆)等参数的改变对应的模型。简单的看,BIC值越大则说明所选取的变量集合拟合效果越好。上图中除了两个模型一直递增,其他的12模型数基本上都是在聚类数目为3的时候达到峰值,所以该算法由此得出最佳聚类数目为3的结论。 这里的BIC的定义为:和贝叶斯信息准则不是一回事!!! 相关文献: mclust version 4 for R: normal mixture modeling for model-based clustering, classification, and density estimation. (2012,引用次数877) 类似mclust,也是自己定义了几十种评估指标,然后遍历每一个设定的聚类数目,然后通过这些指标看分别在聚类数为多少时达到最优,最后选择指标支持数最多的聚类数目就是最佳聚类数目。 大体过程是用某种已有的聚类算法或者是划分类别的方法Kmeans,Ward(最小化类内方差),Single(最小距离),Complete(最大距离)和Average(平均距离)等,对每一个设定的类别个数进行聚类,得出聚类结果后用评估指标评估。 评价指标有: "kl", "ch", "hartigan", "ccc", "scott", "marriot", "trcovw", "tracew", "friedman", "rubin", "cindex", "db", "silhouette"(轮廓系数), "duda", "pseudot2", "beale", "ratkowsky", "ball", "ptbiserial", "gap", "frey", "mcclain", "gamma", "gplus", "tau", "dunn", "hubert", "sdindex", "dindex", "sdbw" "all" (all indices except GAP, Gamma, Gplus and Tau), "alllong" (all indices with Gap, Gamma, Gplus and Tau included). 这里不详细解释每一种评估指标。 相关文献: NbClust Package: finding the relevant number of clusters in a dataset. (2012,引用次数 25); Package "nbclust". (2014,引用次数 676) 一个简单可行的指标,SSE(sum of squared error组内平方误差)library(factoextra) library(ggplot2) set.seed(1234) fviz_nbclust(scale(wine[,-1]), kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)选用簇中位置最中心的对象,试图对n个对象给出k个划分;代表对象也被称为是中心点,其他对象则被称为非代表对象;最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量;在每次迭代中,所有可能的对象对被分析,每个对中的一个对象是中心点,而另一个是非代表对象。对可能的各种组合,估算聚类结果的质量;一个对象Oi可以被使最大平方-误差值减少的对象代替;在一次迭代中产生的最佳对象集合成为下次迭代的中心点。 对比kmeans:k-means是每次选簇的均值作为新的中心,迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的,因为一个具有很大极端值的对象会扭曲数据分布。而PAM考虑新的簇中心不选择均值而是选择簇内的某个对象,只要使总的代价降低就可以。kmedoids算法比kmenas对于噪声和孤立点更鲁棒,因为它最小化相异点对的和(minimizes a sum of pairwise dissimilarities )而不是欧式距离的平方和(sum of squared Euclidean distances.)。一个中心点(medoid)可以这么定义:簇中某点的平均差异性在这一簇中所有点中最小。 R包fpc中的pamk函数可以确定最佳聚类个数,原理是通过尝试每一个设定的聚类数,用评价标准来看哪一个聚类数最佳,评价标准有: 1."asw" : average silhouette(平均轮廓系数) width given out by pam/clara 2."multiasw": average silhouette width computed by distcritmulti 3."ch": Calinski-Harabasz Calinski-Harabasz公式:其中,n表示聚类的数目 ,k 表示当前的类, trB(k)表示类间离差矩阵的迹, trW(k) 表示类内离差矩阵的迹。 相关文献: A new and efficient k-medoid algorithm for spatial clustering. (2005 引用次数: 87) 引用文献: A simple and fast algorithm for K-medoids clustering. (2009 引用数: 993) Calinski-Harabasz准则有时称为方差比准则 (VRC),它可以用来确定聚类的最佳K值。 Calinski Harabasz 指数定义为:其中,K是聚类数,N是样本数,SSB是组与组之间的平方和误差,SSw是组内平方和误差。因此,如果SSw越小、SSB越大,那么聚类效果就会越好,即Calinsky criterion值越大,聚类效果越好。 相关文献: A dendrite method for cluster analysis. (1974 引用数4447) 相关文献: Clustering using flower pollination algorithm and Calinski-Harabasz index. (2016 引用数19) 这个本质上是类似kmeans或者层次聚类一样,是一种聚类方法。 AP算法的基本思想是将全部样本看作网络的节点,然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability)。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的Exemplar(类似于质心),同时将其余的数据点分配到相应的聚类中。相关文献: APCluster: an R package for affinity propagation clustering. (2011 引用数240)以上内容撰写时间较早,如有参考其他文章而未标注引用的部分,实在抱歉,请及时告知,我立即修改。
2023-07-27 17:26:081

centos连接WiFi后(使用wpa_supplicant)如何不使用DHCP,使用静态配置设置IP?

静态IP可以的,先要知道你路由器的IP,确认无关,一般是192.168.1.1然后进到WiFi设置里,IP设置选择静态。然后下面的IP、路由器、域名1都可以改。IP:192.168.1.2(2~254都可以)路由器:192.168.1.1域名1:168.168.1.1
2023-07-27 17:26:272

【急】华南理工大学商务统计学求教,在线等!!!

统计数据看样品和人口之间的区别吗?看统计数据和参数的区别?Whatis分类变量和数值变量的区别?Whatis描述性统计和推论统计学的区别?Compareand对比柱状图的分类数据的直方图numericaldata吗?Whatis时序图和散点图的区别?之间的差别呀的意思是,中位数和模式?呀的优点和缺点的意思是,中位数和模式?Whatis意思集中趋势的财产吗?Whatis意思变化的属性?为什么人口样本均值一个无偏估计量的意思吗? 之间的区别是什么抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样?为什么平均数标准误差降低为样本量增加?Underwhat情况的抽样分布proportionapproximately遵循正态分布?Whenare您能够使用t分布开发的信心intervalestimate意味着什么?Whenare您能够使用z分布开发的信心intervalestimate意味着什么?一切错误的区别和II型错误?看意思假定值吗?
2023-07-27 17:26:341

方差分析中方差齐性时常用的多重比较检验方法有哪些

snk,lsd,b校正,都是方差齐性的常用两两比较方法
2023-07-27 17:26:543

话说matlab 中spear函数可以求出两个向量或矩阵的spearman 相关系数,但是数理统计工具箱中并没有这个函数

的确没有spear函数,我们是用corr来计算的:[RHO,PVAL] = corr(X,Y,"name",value)其中name可以是type,rows,tail,而value分别如下:type: "Pearson" (the default) computes Pearson"s linear correlation coefficient "Kendall" computes Kendall"s tau "Spearman" computes Spearman"s rhorows "all" (the default) uses all rows regardless of missing values (NaNs) "complete" uses only rows with no missing values "pairwise"computes RHO(i,j) using rows with no missing values in column i or jtail "both" — Correlation is not zero (the default) "right" — Correlation is greater than zero "left" — Correlation is less than zero希望能帮到你。
2023-07-27 17:27:121

Linux mint 15怎样创建wifi热点,给android手机使用

第一步:安装应用;apt-get install hostapd dnsmasq第二步:配置文件;修改/etc/hostapd/hostapd.conf修改/etc/dnsmasq.conf第三步:添加脚本;将以下脚本添加到/etc/network/if-up.d/wapstart:将以下脚本添加到/etc/network/if-post-down.d/wapstop:为这两个脚本加上可执行权限:chmod +x /etc/network/if-up.d/wapstartchmod +x /etc/network/if-post-down.d/wapstop最后一步:使用咯;ifconfig eth0 downifconfig eth0 up
2023-07-27 17:27:191

如何学习r语言 知乎

第一,理解代码的含义。第二,执行代码。这里是R进行数据分析的一些代码,希望对你有用。1.1导入数据install.packages("xslx")library(xlsx)Sys.setlocale("LC_ALL", "zh_cn.utf-8")a=read.xlsx2("d:/1.xlsx",1,header=F)head(a)显示前六行class(a$y)/str(a)查看列/全集数据类型a$y=as.numeric(a$y)转换数据类型1.2方差分析(F test)with(a,tapply(liqi,tan,shapiro.test))正态性检验library(car)leveneTest(liqi~tan,a)方差齐性检验q=aov(liqi~tan*chong,a)方差分析(正态型)summary(q)TukeyHSD(q)多重比较1.3卡方测验(Pearson Chisq)a1=summarySE(a,measurevar="y", groupvars=c("x1","x2"))卡方检验(逻辑型/计数型)aa=a1$yaaa=matrix(a2,ncol=2)aaa= as.table(rbind(c(56,44), c(36,64), c(48,52),c(58,42)))dimnames(aaa)= list(group=c("不添加抗性","不添加敏感","添加抗性","添加敏感"),effect=c("存活","死亡"))aaa=xtabs(data=a,~x+y)chisq.test(a)误差分析(卡方测验,Pearson法)install.packages("rcompanion")library(rcompanion)pairwiseNominalIndependence(a)多重比较1.4线性模型及其误差分析(Wald Chisq)q=lm(data=a,y~x1*x2)一般线性模型(正态性)summary(q)q=glm(data=a,y~x1*x2,family = gaussian(link="identity"))广义线性模型(正态性)summary(q)q=glm(data=a,y~x1*x2,family = binomial(link="logit"))广义线性模型(逻辑型,二项分布)summary(q)q=glm(data=a,y~x1*x2,family = poisson(link="log"))广义线性模型(计数型,泊松分布)summary(q)install.packages("lmerTest")一般线性混合效应模型(正态性)library(lmerTest)install packages(‘lme4")library(lme4)q=lmer(data=a,y~x1*(1|x2))q=lmer(data=a,y~x1*(1|x2),family = gaussian(link="identity"))广义线性混合效应模型(正态性)q=glmer(data=a,y~x1*(1|x2),family = binomial(link="logit"))广义线性混合效应模型(逻辑型,二项分布)q=glmer(data=a,y~x1*(1|x2),family = poisson(link="log"))广义线性混合效应模型(计数型,泊松分布)summary(q)install.packages("car")install.packages("openxlsx")library(car)install.packages("nlme")library(nlme)Anova(q,test="Chisq")线性模型的误差分析(似然比卡方测验,Wald法)lsmeans(q,pairwise~chuli,adjust = "tukey")线性模型的多重比较(tukey法)
2023-07-27 17:27:501

谁帮我用eviews对以下数据做下ADF检验 协整检验和格兰杰因果检验

(一)、ADF是单位根检验,第一列数据y做ADF检验,结果如下Null Hypothesis: Y has a unit root Exogenous: Constant, Linear Trend Lag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -3.820038 0.0213Test critical values: 1% level -4.098741 5% level -3.477275 10% level -3.166190 在1%水平上拒绝原假设,序列y存在单位根,为不平稳序列。但在5%、10%水平上均接受原假设,认为y平稳。对y进行一阶差分,差分后进行ADF检验:Null Hypothesis: Y has a unit root Exogenous: None Lag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -9.328245 0.0000Test critical values: 1% level -2.599934 5% level -1.945745 10% level -1.613633 可见,在各水平上y都是平稳的。因此,可以把原序列y看做一阶单整。第二列xADF检验如下:Null Hypothesis: X has a unit root Exogenous: Constant, Linear Trend Lag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -3.216737 0.0898Test critical values: 1% level -4.098741 5% level -3.477275 10% level -3.166190 在1%、5%水平上拒绝原假设,序列x存在单位根,为不平稳序列。但在10%水平上均接受原假设,认为x是平稳的。对y进行一阶差分,差分后进行ADF检验:Null Hypothesis: X has a unit root Exogenous: None Lag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -7.627041 0.0000Test critical values: 1% level -2.599934 5% level -1.945745 10% level -1.613633 可见,在各水平上x都是平稳的。因此,可以把原序列x看做一阶单整。(二)、只有一阶单整的序列才可以进行协整检验:利用engle和granger提出的两步检验法:首先建立模型:y=ax+c+e,结果为Y = 0.720902361403*X + 788.046309221再对方程的残差进行ADF检验:Null Hypothesis: E has a unit root Exogenous: None Lag Length: 0 (Automatic based on SIC, MAXLAG=10)t-Statistic Prob.*Augmented Dickey-Fuller test statistic -4.093534 0.0001Test critical values: 1% level -2.599413 5% level -1.945669 10% level -1.613677 从检验结果可以看出残差序列是平稳的,因此x和y之间存在协整关系。(三)、granger因果检验:Pairwise Granger Causality TestsDate: 03/13/11 Time: 14:15Sample: 1 69 Lags: 2 Null Hypothesis: Obs F-Statistic Prob. Y does not Granger Cause X 67 1.11304 0.3350 X does not Granger Cause Y 5.72061 0.0052从结果可知拒绝y不能granger x的假设,即y granger引起x;但是不能拒绝x不能g引起y,即接受x不能granger引起y。
2023-07-27 17:27:591

【转载】推荐系统论文整理和导读

此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括: 还有些研究点也是值得一读的,比如推荐系统中的 冷启动 , 偏差与纠偏 , 序列推荐 , 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。 下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 、 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。 信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: https://zhuanlan.zhihu.com/p/71844281。有四篇文章探讨了这样的问题。 此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。 涉及排序学习的纠偏、用户的偏差探索等。 Debiased Explainable Pairwise Ranking from Implicit Feedback Khalil Damak, Sami Khenissi, and Olfa Nasraoui Mitigating Confounding Bias in Recommendation via Information Bottleneck Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms Ningxia Wang, and Li Chen 利用图学习、表征学习等做冷启动。 Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis Shared Neural Item Representations for Completely Cold Start Problem Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung 涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。 Evaluating Off-Policy Evaluation: Sensitivity and Robustness Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno Fast Multi-Step Critiquing for VAE-based Recommender Systems Diego Antognini and Boi Faltings Online Evaluation Methods for the Causal Effect of Recommendations Masahiro Sato Towards Unified Metrics for Accuracy and Diversity for Recommender Systems Javier Parapar and Filip Radlinski 涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下! 结合联邦学习做隐私保护等。 Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley Large-scale Interactive Conversational Recommendation System Ali Montazeralghaem, James Allan, and Philip S. Thomas EX3: Explainable Attribute-aware Item-set Recommendations Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang Towards Source-Aligned Variational Models for Cross-Domain Recommendation Aghiles Salah, Thanh Binh Tran, and Hady Lauw 利用视觉信息做推荐。 Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang 探讨了美食场景下,多用户意图的推荐系统的交互设计。 “Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface Alain Starke, Edis Asotic, and Christoph Trattner 涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。 Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All Florian Wilhelm Negative Interactions for Improved Collaborative-Filtering: Don"t go Deeper, go Higher Harald Steck and Dawen Liang ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram 知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。 Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro 涉及训练、优化、检索、实时流等。 Jeremie Rappaz, Julian McAuley, and Karl Aberer Reproducibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 ; 神经网络 推荐系统和 矩阵分解 推荐系统的对比。 通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;
2023-07-27 17:28:061

Eviews5.0软件,格兰杰因果检验的详细步骤及如何看数据解说

(一)、ADF是单位根检验,第一列数据y做ADF检验,结果如下NullHypothesis:YhasaunitrootExogenous:Constant,LinearTrendLagLength: (AutomaticbasedonSIC,MAXLAG= )t-StatisticProb.*AugmentedDickey-Fullerteststatistic- . . Testcriticalvalues: %level- . %level- . %level- . 在 %水平上拒绝原假设,序列y存在单位根,为不平稳序列。但在 %、 %水平上均接受原假设,认为y平稳。对y进行一阶差分,差分后进行ADF检验:NullHypothesis:YhasaunitrootExogenous:NoneLagLength: (AutomaticbasedonSIC,MAXLAG= )t-StatisticProb.*AugmentedDickey-Fullerteststatistic- . . Testcriticalvalues: %level- . %level- . %level- . 可见,在各水平上y都是平稳的。因此,可以把原序列y看做一阶单整。第二列xADF检验如下:NullHypothesis:XhasaunitrootExogenous:Constant,LinearTrendLagLength: (AutomaticbasedonSIC,MAXLAG= )t-StatisticProb.*AugmentedDickey-Fullerteststatistic- . . Testcriticalvalues: %level- . %level- . %level- . 在 %、 %水平上拒绝原假设,序列x存在单位根,为不平稳序列。但在 %水平上均接受原假设,认为x是平稳的。对y进行一阶差分,差分后进行ADF检验:NullHypothesis:XhasaunitrootExogenous:NoneLagLength: (AutomaticbasedonSIC,MAXLAG= )t-StatisticProb.*AugmentedDickey-Fullerteststatistic- . . Testcriticalvalues: %level- . %level- . %level- . 可见,在各水平上x都是平稳的。因此,可以把原序列x看做一阶单整。(二)、只有一阶单整的序列才可以进行协整检验:利用engle和granger提出的两步检验法:首先建立模型:y=ax+c+e,结果为Y= . *X+ . 再对方程的残差进行ADF检验:NullHypothesis:EhasaunitrootExogenous:NoneLagLength: (AutomaticbasedonSIC,MAXLAG= )t-StatisticProb.*AugmentedDickey-Fullerteststatistic- . . Testcriticalvalues: %level- . %level- . %level- . 从检验结果可以看出残差序列是平稳的,因此x和y之间存在协整关系。(三)、granger因果检验:PairwiseGrangerCausalityTestsDate: / / Time: : Sample: Lags: NullHypothesis:ObsF-StatisticProb.YdoesnotGrangerCauseX . . XdoesnotGrangerCauseY . . 从结果可知拒绝y不能grangerx的假设,即ygranger引起x;但是不能拒绝x不能g引起y,即接受x不能granger引起y。
2023-07-27 17:28:161

广告学毕业论文题目

意境在平面广告设计中的营造一、“意境美”的内涵   “意境”是中国传统美学中的一个重要范畴,是中华民族审美理念的集中表现,同时也是表征设计作品审美品位和审美感受的概念。王国维在其《人世词话》这样写到:“有境地自成高格,自有名句。”可见,“意境”是权衡艺术作品优劣的重要标志。   所谓意境,首先强调的是意与境的分离,这种境地贯注了作者的思想和感情,构成情形融合的肉体境地,在实物与空间的效应分离之下,产生空间感,调动观赏者的想象力,由实入虚,由虚入实,在此之中构成具有意境的审美空间,同时将这种意境升华,从而更具感染力,使人耐人寻味。因而,意境具有情形融合、真假相生的艺术特征,是内容与方式圆满统一的有机整体,“如空中之音,相中之色,水中之象,言而尽无量”。   二、“意境美”在当代平面广告中的表现   当代的平面广告设计疾速开展于80年代后期,它的开展离不开传统美学观潜移默化的影响。平面广告设计是以激烈的视觉美感为根底的,是一种视觉传达艺术,具有共同的审美价值。平面广告中表现的意境美毫无疑问的将平面广告设计推向到“一个有意味的群众空间” [1]。   1、中国传统文化元素的运用   中国的传统文化博大精深,无论是文论、画论、诗论还是民间艺术都具有较深的文化意蕴。如水墨艺术,经过长期的开展曾经颇为成熟,其画面简约,寓意深远,构成了具有中国特征的表达言语。另外如书法、剪纸、年画、雕琢、皮影等艺术方式,都是现代平面设计研讨的重要课题。这些传统艺术方式无不表现着人类的丰厚审美思想,和当代设计不分彼此,难解难分。面对丰厚的民族文化资源,我们能够多层次、多角度地停止再认识、再开掘,精确把握其文化底蕴和审美肉体的内涵,从而推进现代设计的长足开展。   当代著名设计师靳埭强的平面作品十分擅长运用中国传统绘画中的水墨元素,他追求构图其作品可称之为水墨设计中的模范。这种与传统文化元素的圆满分离,表现了设计师本身的文化涵养,同时丰厚了我们的外乡设计言语,构成外乡化的设计特征。   2、构图留白真假相生   中国绘画中有“计白当黑”的手法。空白可以惹起无限思想、想象的空间美感,正由于没有任何有形物可作为我们视觉with respect to a Borel probability measure /& any r~ c N+ and any e > O, one can find a measurable set R ( a so called (r; of A TER。 http://www.txlunwenw.com。TERremainder,e) Rohlin set) such that, for ] 0, 1, ..., r; 1, the sets T JR are pairwise disjoint and exhaust X with exception set whose mass is smaller than e. In particular, Rohlin"s Lemma is indispensable for the canonical construction of gener度量空间的规范,所以就使这空白空间具有了一种似乎含有无限包容才能的意义。它是一种“有意味的方式” [2]。 应用视知觉的这种心理,不只将得到更精练笼统的外型,同时在作品的发明上更能增加我们视觉的生疏感、新颖感和兴趣性。 在平面广告设计中巧妙天时用空白,可以引导人们的视觉,到达与作品心灵上的互动,深化设计中传达的信息内容,协助观众了解其作品,同时又能发明出新的视觉表达方式,使作品惹起观众的留意。正是这种空白“得益我们知觉活动本身向简化构造开展倾向。”[3]发明出一种新的视觉表达方式,表现平面广告作品的圆满意境。   3、图文分离情形融合   传达广告主题的图像是一种图形言语,可以有效惹起购置者的兴味和愿望,使得商品在消费者心中留下深入的印象,树立一种消费观念。运用创新思想方式,取得超凡的创意来突破观赏者视觉上的“常规性”,寓意于景,唤起设计作品的意境美,正所谓“取精于宏”、“厚积薄发”,取得超乎寻常的传播效果。   因而,在平面广告设计中,意境美是一种设身处地的心灵对话,是“用外在的东西把内在的东西圆满的表现出来” [4],它以故事的方式来表达信息与人的关系,以多样的艺术处置手法表达广告的内容,从而使观赏者产生设身处地的印象,进而唤起消费者潜认识的欲求。平面广告只要以情动人,才会有激烈的感化力。“意境美”在平面广告设计中的圆满表现基于平常却发挥出非同寻常的内涵,构成“言语简单却意蕴深入”的好作品。
2023-07-27 17:28:351

格兰杰因果检验的数据是用原始数据还是平稳后的数据

用原始数据即可
2023-07-27 17:29:032

组间、组内分析,是用方差分析还是t检验?

若是前测后测2个水平,只需配对t检验变量的水平数目超过2个,需要用方差分析。(当只有2水平时候,也可用方差分析,结果的统计量与t检验是相同的)本质上是一样的,当不能用多次重复的两两t检验,因为这样会放大alpha类错误。方差分析不会。不过严格来说,方差分析要求个变量方差齐。不过看你描述的题目要求,应该是采用重复测量方差分析的,组间变量是实验组-对照组;组内是重复的这若干次测量。是否你的方差齐次检验有误?缺失值处理俺不会,若不多的话是不是用pairwise即可了。
2023-07-27 17:29:261

无线网卡可以做蓝牙接收器吗?

不可以,因为蓝牙适配器不具备无线网卡的功能,换句话说,若给蓝牙适配器一个MAC地址的话,那蓝牙适配器就可以当无线网卡来使用。无线网卡是一种无线终端设备,是无线局域网的无线覆盖下通过无线连接网络进行上网使用的无线终端设备。通俗的说无线网卡是一种不需要连接网线即可实现上网的设备比如我们最常见的笔记本、智能手机、平板电脑等数码产品内部都集成有无线网卡。扩展资料“预共享的密钥”PSK(即密码)可以是8~63之间任意长度的可打印的ASCII码字符。使用“Wi-Fi保护访问”的加密算法依赖于“成对主密钥”(Pairwise Master Key,PMK),该PMK是由“预共享密钥”和“服务集标识”计算生成的。一旦客户端获得了PMK,客户端就会与AP接入点开始协商一个新的、临时的密钥,该密钥称为“成对临时密钥”(Pairwise Transient Key,PTK)。这些成对临时密钥PTK在每次客户端进行连接的时候被动态创建,在之后每次连接的时候进行定期更换。从编程的角度来看,PTK的生成可以看成是由5个参数组成的函数,其参数有:“成对主密钥”,一个随机数字(由AP接入点提供,称为A-nonce),另一个随机数(由客户端提供,称为S-nonce),以及客户端与AP接入点各自的MAC地址。PTK的生成之所以需要这么多的变量,究其原因是为了使每次创建的PTK值都独一无二,不会重复。
2023-07-27 17:29:531

amos路径系数多大合理

Amos标准化路径系数类似于回归中的标准化回归系数,取值范围在0-1之间。路径系数的平方表示潜变量对测量题目方差的解释比率,如果Amos标准化路径系数大于1,一种可能的情况是外源变量之间的相关性太强,考虑把两个相关性很强的因子合并在一起。另外,数据质量差也有可能导致标准化路径系数大于1。这种情况比较麻烦,可能需要你去做一次数据清洗工作,提升数据的质量。在路径系数都显著的前提下,直接比较标准化路径系数,或者用amos自带的pairwise parameters功能,若CR值大于1.96,差异显著,设置完全自由模型与部分限制条件模型,两个进行对比,看是否存在显著差异。
2023-07-27 17:30:091

生物统计学什么是多重比较?多重比较有哪些方法

多重比较法是指多个等方差正态总体均值的比较方法。经过方差分析法可以说明各总体均值间的差异是否显著,即只能说明均值不全相等,但不能具体说明哪几个均值之间有显著差异。多重比较法包括:1、图基法这种方法的基础是学生化的极差分布( studentized range distribution)。令r为从均值为μ、方差为σ2的正态分布中得到的一些独立观察的极差(即最大值减最小值),令v为误差的自由度数目(多重比较中为N-G)。2、谢弗法谢弗法( Scheffé"s method) 又称S多重比较法,也为多重比较构建一个100(1 -α) %的联立置信区间( Scheffé,1953,1959)。扩展资料:图基法和谢弗法的比较1、谢弗法可应用于样本量不等时的多重比较,而原始的图基法只适用于样本量相同时的比较。2、在比较简单成对差异( simple pairwise differences)时,图基法最具效力,给出更窄的置信区间,虽然它对于广义比对( general contrasts) 也可适用。3、与此相比,对于涉及广义比对的比较,谢弗法更具效力,给出更窄的置信区间。4、如果F检验显著,那么谢弗法将从所有可能的比对(contrasts)中至少检测出一对比对是统计显著的。5、谢弗法应用起来更为方便,因为F分布表比图基法中使用的学生化极差分布更容易得到。6、正态性假定和同方差性假定对于图基法比对于谢弗法更加重要。参考资料来源:百度百科-多重比较法
2023-07-27 17:30:181

smart 3D空三解算到53%后电脑自动重启,重启电脑打开引擎还是毫无征兆的自动重启为什么?

1.问题:tile刚运行就报错:failed to create “C:UsersADMINISTRATORAppDataLocalTempBentleyContextCapture Desktop****-****-****-**** ask_log_0.log”原因:未知解决:点击Resubmit production重新提交,或者先点击Cancel production取消建模再点击Resubmit production重新提交2 问题:tile刚运行就报错:Failed during Photos Pairwise matching原因:用于建模的照片的路径与当初上传照片时的路径不一致解决:更改工程中照片链接路径:在工程名上右键,选择Reference manager,如下图所示,原本图片在F盘,现在在I盘里,则更改图片映射路径。2.1 问题:刚运行tile就报错:Failed.原因:一般情况下,只报错Failed而没有任何其他提示,这种情况出现在联机建模时,一些电脑运行成功,一些电脑运行失败。通常情况下,工程文件所在主机运行成功,其他引擎电脑(下称副机)运行失败。这时可以在该tile上右键,输出运行日志(Export log file for technical support),解压日志后,打开.xml文件,在文件最后可以看到报错内容。根据报错内容解决问题。2.2 问题:刚运行tile就报错:Failed.引擎报错为Error:task failed (returned:285491202),如下图1所示;在该tile上右键,输出运行日志(Export log file for technical support),如下图2所示(即报错Failed during Photos Pairwise matching)。解决:上述问题代表该电脑上通过共享文件读取的路径与工程文件中设置的路径不匹配(而主机运行成功往往是因为主机是使用本机路径而非共享路径)假设,工程文件所在主机名为desktop,共享文件夹为pro,该文件夹中有照片文件夹photos,工程文件文件夹project(该文件夹下有该工程的所有文件),引擎文件夹jobs,那么:(1)首先,检查照片的引用路径(在工程名上右键,选择Reference manager),见上面2.0的解决方法,Reference manager里的所有路径不能如2.0中所示显示本机路径,而应通过网络读取共享路径(Smart3D集群建模步骤-方法二),如 //desktop/pro/photos/1.jpg,或者使用共享驱动器路径(Smart3D集群建模步骤);(2)然后,检查工程路径和引擎路径,如图所示,确认工程文件.ccm路径为共享路径(Smart3D集群建模步骤-方法二),//desktop/pro/project/project.ccm,引擎路径为//desktop/pro/jobs,或者使用共享驱动器路径(Smart3D集群建模步骤);3.问题:导入其他工程中运行的空三结果后仍需进行空三原因:空三文件中没有连接点(tie points)解决:导入含有连接点(tie points)的空三文件4.问题:空三结果显示模型整体弯曲,实际上模型应该是平地原因:相机镜头是鱼眼、超广角等,相片具有变形,Smart3D相机库中没有对应相机,因此不能计算相片畸变。请参阅用户指南:Preparing the Imagery Dataset(英文版)或 准备影像数据集(中文版)解决:在相机官网或数码摄影评论网站上找到该相机参数:传感器大小(Sensor size)和焦距(Focal length)5.问题:Windows Timeout Detection and Recovery(TDR)is activated. ContextCapture performs intensive GPU computations and may be impacted by the display driver recovery mecanism. We recommend to re-install the software to restore the required system configuration. 如图:原因:GPU进行了重置,导致某些旧版 Microsoft DirectX 应用程序 (例如,早于 9.0 符合 DirectX 版本的 DirectX 应用)需要重启。解决:重启软件,若依旧提醒则重启服务,若依旧提醒则重装软件。也可直接重装软件(用控制面板卸载即可),重装软件也是ContextCapture推荐的方法(见图片中倒数第二行)。重装软件后,需要重新提交重建任务,否则可能报下面第6点的错误。6.问题:submit computer mismatch. working on a cluster is not allowed in this edition.(提交计算机不匹配, 在此版本中不允许在群集上工作。Engine中报错:task failed 281280514 )原因:重装软件,导致之前的和之后的是两个软件。在重装前提交的任务,重装后被认为是另一个电脑上的软件提交的,因此会显示提交电脑不匹配(submit computer mismatch)。 在此版本中不允许在群集上工作可能是版本差异问题。报这个错误的版本是:ContextCapture v4.4.10.336解决:重新提交重建任务。7.问题:为什么有的软件是ContextCapture,有的是ContextCapture Center?回答:这是两个不同的版本,ContextCapture Center比ContextCapture应用更广。具体差别看ContextCapture User Guide V4.4.11 ContextCapture(Smart3D 帮助文档 第三章 认识软件)第7点:软件版本。8.问题:在引擎执行界面报错:Semaphore file: timeout after 00:01:00, reason=5Error: failed to unlock “…JobsEnginesdesktop.xml”Error: failed to create Engine information原因:这是集群建模时,文件共享没有设置为“读/写”(一般默认共享为只读),不能写入因此报错。解决:设置共享文件格式为读写。9.问题:在引擎执行界面报错:Ignoring job …,“//test.ccm” not found 忽略任务,.ccm工程找不到原因:这是集群建模时,工程文件.ccm的路径设置错误。解决:在工程中修改.ccm的路径 。10.问题:运行完空三后,提交模型报错Failed to resubmit production. (Details:Failed to create output root file)如图所示:报错后该模型依旧会创建,但是点击打开模型文件夹,会报错Failed to open directory原因:一般这种情况是将工程路径修改了解决:先查看该工程提交后生成的路径是什么,如图所示,一般这个路径错了,而这个路径错误是由于工程路径错误,因此需要按照上面2.0的方法(在工程名上右键,选择Reference manager)将Reference manager里面的所有路径核对一遍,改成正确的路径。11.问题:tile运行时报错:Failed: Failed during 3D mesh refinement.原因:很大可能是电脑配置导致的,配置较低并且运行很长一段时间后会影响其功能。解决:关机一段时间后重新提交该tile可能运行成功。但最好是换一台GPU更好的电脑(现在内存基本都是16G/32G/64G了,所以其实基本够用,尤其是GPU性能较差时)。
2023-07-27 17:30:341