barriers / 阅读 / 详情

朴素贝叶斯(Naive Bayes)算法

2023-05-20 02:04:53
TAG: ba bay naive a
共1条回复
wpBeta

朴素贝叶斯算法属于分类算法。发源于古典数学理论,对缺失数据不太敏感,有稳定的分类效率,模型所需估计的参数很少,算法比较简单。

朴素贝叶斯算法 贝叶斯 是说明这个算法和贝叶斯定理有联系,而 朴素 是因为处理实际的需要,做了一个简化—— 假设每个特征之间是独立的 (如果研究的对象互相之间的影响很强,计算概率时考虑的问题非常复杂,做了独立假设,就可以分解后进行研究),这是这个算法模型与贝叶斯定理的区别。

将 x 作为特征,y 作为类别,那公式左边的 P(yi|x)就是说在知道特征 x 的情况下,计算这个特征属于 yi 类的可能性大小。通过比较找出这个可能性的值最大的属于哪一类,就将特征 x 归为这一类。

第3步的计算就是整个关键所在,计算依据是上面的贝叶斯公式。

对于每一个类的概率计算,公式右边的分母的 P(x)都是相同的,所以可以不计算(我们只是对最终结果进行比较,不影响)。

P(yi)也称为先验概率,是 x 属于 yi 类的一个概率,这个是通过历史信息得到的(在程序实现的时候,历史信息或者说先验信息就是我们的训练数据集),我们通过对训练样本数据进行统计,分别算出 x 属于 y1,y2,...,yn 类的概率是多少,这个是比较容易得到的。

所以,主要是求 P(x|yi)= P(a1,a2,...,am|yi)

这个时候对于贝叶斯模型的 朴素 的独立性假设就发挥作用了(综合的计算变成了独立计算后的综合,简化模型,极大地减少了计算的复杂程度):

P(a1,a2,...,am|yi) = P(a1|yi)P(a2|yi)...P(am|yi)

所以计算想要得到的东西如下:

一个程序简例

相关推荐

贝叶斯概率公式

贝叶斯概率公式:贝叶斯概率公式由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。
2023-01-13 21:14:511

贝叶斯公式的通俗解释

贝叶斯法则通俗解释是:通常,事件 A 在事件 B (发生)的条件下的概率,与事件 B 在事件 A 的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。贝叶斯定理由英国数学家贝叶斯发展,用来描述两个条件概率之间的关系,比如 P ( A|B )和 P ( B|A )。按照乘法法则,可以立刻导出: P ( AnB )= P ( A ) P ( B|A )= P ( B)*P ( A|B )。如上公式也可变形为:P ( A|B )= P (A)*P( B|A )= P ( B )* P ( A|B )。贝叶斯公式的用途在于通过己知三个概率来推测第四个概率。它的内容是:在 B 出现的前提下,A 出现的概率等于 A 出现的前提下 B 出现的概率乘以 A 出现的概率再除以 B 出现的概率。通过联系 A 与 B,计算从一个事件发生的情况下另一事件发生的概率,即从结果上溯到源头(也即逆向概率)。通俗地讲就是当你不能确定某一个事件发生的概率时,你可以依靠与该事件本质属性相关的事件发生的概率去推测该事件发生的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该事件发生的的可能性就愈大。这个推理过程有时候也叫贝叶斯推理。
2023-01-13 21:14:571

贝叶斯公式的通俗解释

贝叶斯法则通俗解释是:通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。 贝叶斯公式 贝叶斯定理由英国数学家贝叶斯发展,用来描述两个条件概率之间的关系,比如P(A|B)和P(B|A)。按照乘法法则,可以立刻导出:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。 定义 贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则,尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。 这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。 托马斯·贝叶斯介绍 托马斯·贝叶斯(ThomasBayes),英国神学家、数学家、数理统计学家和哲学家,1702年出生于英国伦敦,做过神甫,1742年成为英国皇家学会会员。贝叶斯曾是对概率论与统计的早期发展有重大影响的两位人物之一。
2023-01-13 21:15:101

贝叶斯定理计算怎么做?

贝叶斯定理  在引出贝叶斯定理之前,先学习几个定义:边缘概率(又称先验概率):某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A∩B)或者P(A,B)。条件概率(又称后验概率):事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”,。接着,考虑一个问题:P(A|B)是在B发生的情况下A发生的可能性。首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示。贝叶斯定理便是基于下述贝叶斯公式:请点击输入图片描述P(A|B)=P(B|A)P(A)/P(B)上述公式的推导其实非常简单,就是从条件概率推出。根据条件概率的定义,在事件B发生的条件下事件A发生的概率是P(A|B)=P(A∩B)/P(B)同样地,在事件A发生的条件下事件B发生的概率P(B|A)=P(A∩B)/P(A)整理与合并上述两个方程式,便可以得到:P(A|B)P(B)=P(A∩B)=P(B|A)P(A)接着,上式两边同除以P(B),若P(B)是非零的,我们便可以得到贝叶斯定理的公式表达式:P(A|B)=P(B|A)*P(A)/P(B)笔者在看《从贝叶斯方法谈到贝叶斯网络》的时候,看到这里,其实已经晕晕的了。P(A|B) 和 P(B|A) 之类的经常让人混淆,@待字闺中的陈老师给出了理解的一个关键点,区分出规律和现象,就是将A看成“规律”,B看成“现象”,那么贝叶斯公式看成:例如, 病人有明显的症状, 贝叶斯公式可以用来计算诊断正确的概率, 鉴于观察. 简单的说,假设医生对一个人是否患有癌症,并且知道此人的年龄.如果癌症与年龄有关, 然后利用贝叶斯定理, 病人的年龄可以用来获得病人患癌症的更准确的概率。如果我们已经知道B已经发生并且被称为可能性的概率是A。P(A/B) A的概率 假设我们已经知道B已经发生。P(B) 被称为先验概率, P(B/A)是后验概率。
2023-01-13 21:15:141

贝叶斯公式是什么

百度一下!google一下!
2023-01-13 21:15:264

数学题 贝叶斯公式?

认真听讲,才是王道!贝叶斯公式是概率论中的一个重要公式,用来解决已知各种情况发生下的某事件发生的条件概率,求这事件发生情况下各种情况发生的条件概率。各种情况的事件用Hi表示,某事件用A表示,各种情况事件要求两两不相容,所有的并构成事件全集。用数学语言表示为:若H1+H2+……+Hn=U,HiHj=V (i≠j),则P(Hi|A)=P(Hi)P(A|Hi)/Σ(i=1,n)[P(Hi)P(A|Hi)]
2023-01-13 21:15:332

什么是贝叶斯定理?请简述其公式?

贝叶斯公式的数学表示: 其中P(A|B)是在B发生的情况下A发生的可能性。  其中 , ,.. ...... 为完备事件组,即其预测的是B事件已经发生的情况下,A事件发生的概率。 对于P(A)和P(A|B)来说,前者表示在没有任何前提的情况下,去预测A事件发生的概率,而后者可以认为是有了一个与之有关的事件发生,在这个事件的推动下,去预测A事件发生的概率。 通俗的理解下,假设A1,A2,.......代表患者患上不同种类的病,此时对患者的各项指标进行检查,发现有一项指标超标,即B事件发生,问患者是不是得了A1这种病。或者就是患上A1这种病的概率。
2023-01-13 21:15:361

贝叶斯公式通俗理解

贝叶斯公式: 推导之前,我们需要先了解一下 条件概率 : 已知数据如下: P(A) 表是人为光头的概率,P(B) 表示为人为程序员的概率。 则 P(A) = 4/9 ,P(B) = 3/9 = 1/3 ,P(A, B) = 2/9 P(A|B) 则为程序员中光头的概率为:2/3 P(B|A) 则为光头中程序员的概率:2/4 = 1/2 则按照条件概率:P(A|B) = P(A, B)/ P(B) = 2/3 贝叶斯公式:P(A|B) = P(A)·P(B|A)/P(B) = 2/3 通过上面连个公式推导发现 条件概率 和 贝叶斯 的结果是一样的。
2023-01-13 21:15:401

贝叶斯公式及经典例子有哪些?

公式:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),贝叶斯公式其实就是找事件发生的原因的概率。贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。如果用数学语言描绘,即当已知事件Bi的概率P(Bi)和事件Bi已发生条件下事件A的概率P(A│Bi),则可运用贝叶斯定理计算出在事件A发生条件下事件Bi的概率P(Bi│A)。贝叶斯法则通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。
2023-01-13 21:15:431

全概率公式和贝叶斯公式

一、全概率公式全概率公式为概率论中的重要公式,它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。内容:如果事件B1、B2、B3…Bi构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bi)P(Bi)。或者:p(A)=P(AB1)+P(AB2)+...+P(ABi)),其中A与Bi的关系为交)。二、贝叶斯公式贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。全概率公式和Bayes公式:概率论的一个重要内容是研究怎样从一些较简单事件概率的计算来推算较复杂事件的概率,全概率公式和Bayes公式正好起到了这样的作用。对一个较复杂的事件A,如果能找到一伴随A发生的完备事件组B1、B2```,而计算各个B的概率与条件概率P(A/Bi)相对又要容易些,这是为了计算与事件A有关的概率,可能需要使用全概率公式和Bayes公式。
2023-01-13 21:15:561

贝叶斯公式的现实应用

观点应该跟着事实不断修订。坚定不移不对,听风就是雨也不对——科学的修订,就是贝叶斯方法。贝叶斯公式在概率论与数理统计中必学的概念,要真正的达到应用这个概念还得稍微理解一下公式: 贝叶斯公式完全是建立在一个等式P(A)*P(B|A) = P(B) * P(A|B)之上,而P(A)*P(B|A)和P(B)*P(A|B)的结果都是P(AB),意思是事件A和事件B同时发生的概率。等式中P(A|B)指的是条件概率,即在B已经发生的情况下,A发生的概率,如果B代表下雨的概率,A代表一个人出门带伞的概率,那P(A|B)本质上还是带伞的概率,不过是下雨天的情况下一个人出门带伞的概率。根据经验可以得出,P(A|B)应该是大于P(A)的。平时我们对存在外星人(记作事件A)这一观点的相信的概率可以用P(A)来表示,一般而言咱都不怎么相信外星人存在的,P(A)应该无限趋于0,可是突然有一天一个正儿八经的专家说证明确实有外星人存在(记为事件B),那此时,我们相信外星人存在的概率已经不是P(A)了,而是P(A|B),而这个值可能就要比0大不少了。要是某一天,大半个地球的人都说看到了外星人(记为C),那我们此时相信外星人存在的概率P(A|C)可能就要提高到1,也就是几乎确定就是有外星人存在。 对上面的等式稍微一变形,就可以得到贝叶斯公式 : P(A|B) = P(A) * P(B|A) / P(B) ,其中P(A)是我们原来对一件事的原有的判断,叫做先验概率;P(A|B)就代表了我们在得到一些证据B之后对原来事物的概率,叫做后验概率。别看公式形式比较复杂,但是有个简单的理解方法:我们把等式右边 P(B|A) / P(B) 看作一个整体,称之为似然比(可以简单理解成证据的有效程度),那么整个公式便可以简单理解成P(你后来的观点)= 似然比 * P(你一开始的观点)。当有新的证据出现之后,别忙着不变,也别忙着立马推翻自己的态度,看看证据的有效性如何,如果真的有效,那就多调整一点自己的态度,如果证据的力度不大,那就少调整一点。卡尔·萨根说过一句话:“超乎寻常的论断需要超乎寻常的证据”,在贝叶斯看来这句话的意思不过是,要想从根本上说服我,你必须拿出唬得住我的东西来。而佛说:哪有什么一定之论,在我眼里,全是概率。 如果只想知道哲学上的东西,看官可就此打住,可如果看知道贝叶斯的具体威力,我们不妨来搞一下数学。在狼来了的故事中,我们用A表示小孩可信,B表示小孩说谎。不妨设我们过去对小孩子的印象为P(A)=0.8,P(~A)=0.2。现在我们来计算P(A|B),即小孩说了一次慌滞后的可信程度。在公式中P(B)表示在任何条件下小孩子说谎的概率,可以拆分为P(A)*P(B|A)和P(~A)*P(B|~A),P(B|A)和P(B|~A)分别表示在我们相信他时他说谎的概率和我们不相信他时他说谎的概率,分为设之为0.1和0.5。有一天小孩是说狼来了,80%的可能性狼来了,我们想吃狼肉,于是我们第一次上山打狼,发现狼没有来,即小孩子说了谎。此时P(A|B) = P(A) * P(B|A) / P(B) = 0.8*0.1 / (0.8*0.1 + 0.2*0.5) = 0.444,表明我们上一次当之后对这个小孩的可信程度从0.8下降到了0.444。在此基础之上,有一天小孩又说狼来了,有44.4%的可能性狼来了,本来不想去的,但是上次没吃到狼肉心里痒痒,于是我们又上山打狼,结果小孩又对我们撒了一次谎,狼没有来。我们对他的可信程度P(A|B) =0.444*0.1 /(0.444*0.1 +0.556*0.5) = 0.138,我们上了这小孩两次当,对小孩的可信程度由原来的0.8下降到了0.138。第三次小孩又喊狼来了,我们把小孩子吃了。 有时候明明可以很快用贝叶斯公式解决问题谋得巨大财富,结果我们却迟迟不动,很多时候,并不是贝叶斯公式太难,只不过是我们不知道贝叶斯公式使用的时机。贝叶斯的应用领域极其广泛,语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、Xbox给你的游戏水平打分……各种你想到和想不到的应用,都在使用贝叶斯方法。但是扯这些东西和我们有点儿远,我们的市井生活中什么时候该用贝叶斯公式呢?很简单: 只要还没得到最终结果,就可以请贝叶斯爸爸出场帮你作弊。 你和两位猥琐而胆小的基友在操场上看到了一位身材火辣的性感女神,决定写纸条抽签选一人去要联系方式。每人抽到一个签,中彩概率都是1/3,很公平。你抽到了一张签,觉得自己不会那么背中彩,刚准备看,突然一个基友摊出了自己的纸条,哈哈大笑说:“看不是我,你们两个其中之一中彩了。”此时,天真的你觉得那有啥,反正大家中彩的概率 依旧 还是1/3,而且我运气好,不可能是我。在准备亮出你的纸条的一刹那见,你虎躯一震,隐隐约约感到有些不对劲: 三个人只有一个出了结果,还没有得到最终结果,我可以叫贝叶斯爸爸来帮忙算一下概率 。 贝叶斯看了,笑了,说:我们记你中彩为事件A,P(A)=1/3,那个已经摊出纸条的基友没有中彩为事件B,P(B)=2/3,傻子,你现在中彩的概率P(A|B)=P(A) * P(B|A) / P(B) = (1/3) * 1 /(2/3)= 1/2。心中暗自骂到:卧槽,他看了一眼他自己的纸条,我的gay率就由1/3变成1/2了,还好发现得早。于是机智的你抢过另一个基友还没看的纸条,把它和你的纸条一起吃掉,说:“我太饿了,我们重新抽签吧。“
2023-01-13 21:16:031

怎么简单理解贝叶斯公式?

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1761)曾提出计算条件概率的公式用来解决如下一类问题:假设H,H…,H互斥且构成一个完全事件,已知它们的概率P(H),i=1,2,…,n,现观察到某事件A与H,H…,H相伴随机出现,且已知条件概率P(A|H),求P(H|A)。按贝叶斯定理进行投资决策的基本步骤是:1、列出在已知项目B条件下项目A的发生概率,即将P(A│B)转换为P(B│A);2、绘制树型图;3、求各状态结点的期望收益值,并将结果填入树型图;4、根据对树型图的分析,进行投资项目决策。
2023-01-13 21:16:061

贝叶斯公式

最近因为听播客,对概率学产生了极大的兴趣的。 吐槽一下:没想到我一个从高中开始就不愿意学数学的人会有对概率学产生兴趣的一天。不过话说回来,如果当初的数学老师把那些理论结合到生活实例上的话,我想我不会如此厌弃数学。毕竟我从高中开始不喜欢数学的原因就是“学这跟我的生活有什么关系,我买菜需要用代数、微积分吗” 思考题:胡润富豪榜国内上榜人士半数没有高学历,所以读书无用吗? 你觉得这句话有道理吗? 接下来先了解一下贝叶斯公式,然后我们再来讨论这道题。 贝叶斯定理是关于 随机 事件A和B的 条件概率 (或 边缘概率 )的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。再来一个比较直观的, 经典例子: 两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大? 首先分清楚现象和规律。 拿出来1颗糖,可能是水果糖,也可能是巧克力糖,这是两个现象。 这颗糖,可能是从1号碗来的,也可能是从2号碗来的,这是两个规律。 所以组合之后,有4种情况: 1号碗水果糖0.75 ,1号碗巧克力糖0.25, 2号碗水果糖0.5 ,2号碗巧克力糖0.5。 套用公式:P(从一号碗来规律|水果糖现象)=P(水果糖现象|从一号碗来规律) P(从一号碗来规律)/P(水果糖现象)=0.75* 0.5/0.625=0.6。 最终得出:这颗水果糖来自1号碗的概率是0.6 回到上面那个思考题,首先由题目可知:无论有没有高学历进入胡润富豪榜的概率都是0.5。 以上面的例子来打比方,进入富豪榜和未进入富豪榜的分别为水果糖和巧克力糖,高学历的是1号碗,低学历的是2号碗,这两个碗进入富豪榜的概率都是0.5。 But,这个进入富豪榜的0.5在原先的两个碗里所在的比例是完全不一样的!这颗水果糖想要被选中,那它在1号碗的概率是0.75,而在2号碗的概率则只有0.5。 虽然总数不变,但是对于个体来说,这个概率上的不同所带来的的差距却是天翻地覆的。 题目所在的年份,整体环境,根据国家统计局颁布的《2010年第六次全国人口普查主要数据公报》,得知中国大陆: 具有大学(指大专以上)文化程度的人口为119636790人 ; 而当年中国人口是134091万人, 计算得大专以上的人口比例为8.9% 其中本科生的比例更低,仅有2.7% 也就是说,仅占总人口2.7%的本科以上的高学历人口,占据了进入富豪榜总人数的50%。对于个体来说,如果你想要实现进入胡润富豪榜的目标,那么你在高学历碗里的成功率远远高于你在低学历碗里。 具体的计算方法,可以参见知乎。类似的例子还有预测病人发病率真实性等等,有兴趣的可以多搜索一些看看。
2023-01-13 21:16:161

贝叶斯公式怎么理解 贝叶斯公式该怎么理解

1、贝叶斯法则通俗解释是:通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。 2、贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
2023-01-13 21:16:201

贝叶斯公式

2021/5/14 今天晚上回顾贝叶斯公式,看了b站上的视频 BV19V411o7Pu,感觉有了更新的认识,越发感觉这是一个十分深刻的公式,同时对概率论也有了新的思考,感觉数学的终极真的到了哲学的层面了。 视频中老师讲到,贝叶斯公式其实表面上就是条件概率的变形,但是它蕴含着一种深刻的思考方式,描述了学习这一过程。: 观察得到的数据(结果) : 认知 : posterior  获取数据后我们对于认知的刻画 : prior  我们最开始没有获取数据,即没有学习时的认知(没有认知也算一种认知) : likelihood  在我们有初始认知时数据的规律 : evidence  常数,在这里不用管 这个公式其实揭示了一切学习都是一个主观的过程,都是建立在已有的认知基础上来看待数据的,然后通过数据来得到新的认知。 假如初始认知和数据没有关系,在初始认知基础上看数据看到的是纯粹的数据的话,那么有 和 是独立的,那么等式两边有 ,即什么都没有学到。就是说如果用十分可观的眼光去看数据,那么你将什么都学不到。 真的头一次感到一个小小的公式有这样深刻的内涵,数学确实美呀!
2023-01-13 21:16:231

全概率公式和贝叶斯公式

全概率公式P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn);贝叶斯公式P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)。贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则,尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
2023-01-13 21:16:261

如何推导贝叶斯公式如何严谨地推导贝叶斯公式

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058。
2023-01-13 21:16:411

全概率公式与贝叶斯公式有什么区别?

两者的最大不同在处理的对象不同,其中全概率公式用来计算复杂事件的概率,而贝叶斯公式是用来计算简单条件下发生的复杂事件,也就是是说,全概率公式是计算普通概率的,贝叶斯公式是用来计算条件概率的
2023-01-13 21:16:452

如何运用或理解全概率公式,贝叶斯公式

首先打好2个基础1。这两类均是由2个阶段组成2。条件概率的思想1。全概公式:首先建立一个完备事件组的思想,其实全概就是已知第一阶段求第二阶段,比如第一阶段分ABC三种,然后ABC中均有D发生的概率,最后让你求D的概率P(D)=P(A)*P(D/A)+P(B)*P(D/B)+P(C)*P(D/C)2。贝叶斯公式,其实原本应该叫逆概公式,为了纪念贝叶斯这样取名而已。在全概公式理解的基础上,贝叶斯其实就是已知第二阶段反推第一阶段,这时候关键是利用条件概率公式做个乾坤大挪移,跟上面建立的ABCD模型一样,已知P(D),求是在A发生下D发生的概率,这就是贝叶斯P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D)
2023-01-13 21:16:492

thomas bayes怎么研究出贝叶斯公式的

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出。如上公式也可变形为:P(B|A)=P(A|B)*P(B)/P(A)。
2023-01-13 21:16:561

贝叶斯定律的举例说明

P(H[,i]/A)=P(H[,i])P(A/H[,i])/[P(H[,1])P(A/H[,1]) P(H[,2])P(A/H[,2])…]这就是著名的“贝叶斯定理”,一些文献中把P(H[,1])、P(H[,2])称为基础概率,P(A/H[,1])为击中率,P(A/H[,2])为误报率[1]。现举一个心理学研究中常被引用的例子来说明:参加常规检查的40岁的妇女患乳腺癌的概率是1%。如果一个妇女有乳腺癌,则她有80%的概率将接受早期胸部肿瘤X射线检查。如果一个妇女没有患乳腺癌,也有9.6%的概率将接受早期胸部肿瘤X射线测定法检查。在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤X射线测定法检查。问她实际患乳腺癌的概率是多大?设H[,1]=乳腺癌,H[,2]=非乳腺癌,A=早期胸部肿瘤X射线检查(以下简称“X射线检查”),已知P(H[,1])=1%,P(H[,2])=99%,P(A/H[,1])=80%,P(A/H[,2])=9.6%,求P(H[,1]/A)。根据贝叶斯定理,P(H[,1]/A)=(1%)(80%)/[(1%)(80%) (99%)(9.6%)]=0.078心理学家所关心的是,一个不懂贝叶斯原理的人对上述问题进行直觉推理时的情形是怎样的,并将他们的判断结果与贝叶斯公式计算的结果做比较来研究推理过程的规律。因此有关这类问题的推理被称为贝叶斯推理。
2023-01-13 21:16:591

全概率公式与贝叶斯公式有什么区别

全概率公式P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn);贝叶斯公式P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)。贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则,尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
2023-01-13 21:17:062

贝叶斯的理论概述

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:1、已知类条件概率密度参数表达式和先验概率。2、利用贝叶斯公式转换成后验概率。3、根据后验概率大小进行决策分类。他对统计推理的主要贡献是使用了逆概率这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。 贝叶斯公式是1763年被发现后提出来的:假定B1,B2,……是某个过程的若干可能的前提,则P(Bi)是人们事先对各前提条件出现可能性大小的估计,称之为先验概率。如果这个过程得到了一个结果A,那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)即是对以A为前提下Bi的出现概率的重新认识,称 P(Bi∣A)为后验概率。经过多年的发展与完善,贝叶斯公式以及由此发展起来的一整套理论与方法,已经成为概率统计中的一个冠以“贝叶斯”名字的学派,在自然科学及国民经济的许多领域中有着广泛应用。
2023-01-13 21:17:111

全概率公式、贝叶斯公式

设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B) 1. 由条件概率公式得: P(AB)=P(A|B)P(B)=P(B|A)P(A) 上式即为乘法公式; 2. 乘法公式的推广:对于任何正整数n≥2,当P(A1A2...An-1) > 0 时,有: P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1) 1. 如果事件组B1,B2,.... 满足 1) B1,B2....两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,....,且P(Bi)>0,i=1,2,....; 2) B1∪B2∪....=Ω ,则称事件组 B1,B2,...是样本空间Ω的一个划分 设 B1,B2,...是样本空间Ω的一个划分,A为任一事件,则: 上式即为全概率公式(formula of total probability) 2. 全概率公式的意义在于,当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi),由加法公式得: P(A)=P(AB1)+P(AB2)+....+P(ABn) =P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn) 1. 与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有 上式即为贝叶斯公式(Bayes formula),Bi 常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。
2023-01-13 21:17:171

数学随笔--理解贝叶斯公式

一、乘法公式: 二、 全概率公式: 设 为样本空间 的一个分割,即 互不相容,且 ,如果 则对任一事件A有: 这个公式也是很好理解的因为诸 互不相容而且其和事件为样本空间,故A事件中的样本点的个数等于A与诸 中共有样本点的和。 三、 贝叶斯公式: 贝叶斯公式是在全概率公式和乘法公式的基础上推得的。 设若 为样本空间的一个分割,即 互不相容,且 如果 则: 公式的证明是根据条件概率来的,然后在把分子分母分别用乘法公式和全概率公式代替即可,公式中的 一般为已知概率称之为 先验概率 公式中 则称之为 后验概率 ,全概率公式和乘法公式为由原因推结果,而贝叶斯公式则为由结果推原因。 贝叶斯公式在医学上用于检测某人获某疾病的概率,比如肝癌,假设某地区的肝癌的发病率为已知为 ,患肝癌的人为阳性的概率已知为 ,不患肝癌为阳性的概率也已知为 ,某人医院检查呈阳性问其患肝癌的几率多大,这可有贝叶斯公式: 为已知概率即所谓 先验概率 ,而 即 后验概率 是不能够或者不方便直接通过实验测试出来的,要求在阳性人群中的患肝癌的概率,那么需要求得某地区中所有人阳性的总数,然后在求出阳性中患肝癌的总数然后求频率用频率替换概率。但是实际条件由于地区人口总数如果很多成本会很大,而且过于兴师动众“劳民伤财”。如果用贝叶斯公式只需要在已知某地区肝癌发病率的条件下做一个 修正 就得到了阳性人员患肝癌的几率,这个 修正 就是通过检验血液阴阳性。在有些情况下通过修正之后的概率还是不够大,即不足以判定某人是否患病,这时候可以采取多种措施要使得 即 先验概率 增大,使得错检概率 相对变小,从而使得 修正 之后的概率增大。
2023-01-13 21:17:201

理解贝叶斯定理的最简单方法

读过万维钢的《智识分子》关于贝叶斯定理一节后,略有启发,就自己整理了一下。 贝叶斯公式如下:这个公式有什么用呢? 它可以把你”相信或者不相信一件事“用概率的形式量化起来。 你相信中医吗?你相信上帝吗? 大多数人会以简单的”相信“或者”不相信“来回答。 而理性的人士,尤其是数学家喜欢用概率来描述,他可能会说:中医有用的概率有30%,上帝存在的概率有50%。 这个数字是怎么由来呢?信念应该如何量化呢?贝叶斯共识就派上了用场。 公式详解: A:代表事件,如:中医有用。 P(A)表示A事件的概率。 B:代表一个与之有关的事件,如:我朋友去看了中医,结果病好了。 P(B)表示B事件的概率。 P(A|B)代表B发生的情况下,A发生的概率。 P(B|A)代表A发生的情况下,B发生的概率。 以中医为例: P(A)好理解,我个人事先认为中医有用的概率为30%,即P(A)=30% 那P(B)怎么理解呢? P(B)代表着朋友甲通过中医看病,看好的概率。 那P(B)的概率怎么算呢? 我们把P(B)拆分一下: P(B)=P(B|A)P(A) + P(B|A") P(A‘) 其中A‘代表A的相反事件,即中医没用。P(A)+P(A")=1 即朋友甲通过中医看病能看好的概率=中医真心有用的情况下病能好的概率+中医就是没用的情况下病能好的概率。 如果中医就是没用,朋友看不看中医,病都有可能好,我们可以认为他病好的可能性有50%,即P(B|A")=50% 如果中医真心有用,朋友的病在中医的加持下,很容易好,那我们就估算它P(B|A)=80%。 可以得出: P(B)=P(B|A)P(A) + P(B|A") P(A‘)=80%x30%+50%x70%=0.59 那么: P(A|B)=P(B|A)P(A)/P(B)=(80%x30%)/0.59=41% 这意味着什么呢? 我原本对中医的信念仅仅只有:30% 通过最近我一朋友得病,久治不得医,但因为去了看中医,居然病好了,于是,我对中医的信念直接提高到了41%! 总结: 1、贝叶斯定理讲的是主观概率,需要主观地带入各个参数。 2、主观概率不一定严谨,但就是很有用。用概率量化个人的信念,更有助于理性决策。 3、有用是因为生活中我们面临的信息往往是不全的,我们对一件事的信念低,大多是因为证据不足,如果获得了新的证据,即可实时调整自己对这件事新的看法。 4、理性的人应该有一套复杂的信念体系,随时调整自己对各种事物的看法,不固执己见,不断变动自己的世界观。 5、若是有新事件进来,比如又一朋友乙久病不得治,后看中医最终身亡,可能我对中医的信念根据贝叶斯公式将降至10%。 6、观点随事实而变,是有胆识的表现。 中医举例或许不当,请担待。
2023-01-13 21:17:271

贝叶斯公式的理解

能把P(城市|省份)和P(省份|城市)联系起来的公式叫贝叶斯公式。我们来看贝叶斯公式长什么样子。 用A表示省份,B表示城市,套入公式,即能把P(城市|C)和P(C|城市)联系起来。看到能够联系起来,上级工作人员很高兴,但是这公式有什么意义吗,是不是随便编造的一个公式,为何叫贝叶斯公式而不是叫陈佩斯公式? 贝叶斯公式以托马斯·贝叶斯(Thomas Bayes,1701-1761)命名的,贝叶斯是和牛顿同时代的牧师,同时也是一位业余数学家,和牛顿不同的是,贝叶斯的理论当时并未被重视,原因在于贝叶斯在统计当中引入了主观因素,即所谓的先验概率,这对于数学来说是大忌,数学应该是客观的,怎么能加入主观因素。因此,直到1950年左右,人们发现加入先验概率效果更好,贝叶斯的理论才被广泛接受。    一个理论能被广泛接受,一定是因为能够解决很多问题,那贝叶斯理论又解决了什么问题,为什么一个数学理论能够加入主观因素?   如果问抛硬币正面朝上的概率,很多人会肯定回答说概率是1/2,但这是想当然了,对于理想的硬币,正反面概率是均匀的,但是如果硬币动了手脚,那就不一定了,这个时候,要怎么去确定概率是多少?有人想到通过做抛硬币的试验来确定,例如抛5次硬币,统计正面和反面出现的次数,如果抛5次都是正面向上,我们能说正面向上的概率是100%吗?有人说,5次太少,那抛5000次以上总能计算概率大小吧,答案是可以,只是这种估计概率的方式成本太高了。事实上,现实生活中,有很多类似的例子是不能通过做试验来确定概率的,例如小明预测明天下雨的概率是30%,他无法重复过上明天100次,统计下雨的次数来计算下雨的概率。而贝叶斯理论,可以解决这种在有限信息条件下对概率的一个预估,贝叶斯理论的思路是, 在主观判断的基础上,先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数) 。 我们继续来看贝叶斯公式,我们再用省份和城市来理解这个公式有点不太好理解,因为那个例子看起来我们所有的信息都知道了。这里再举另外一个例子来理解。 曾经有一个大神给我传授表白理论,他说如果女神从来没有单独出去逛街吃饭,这说明女神根本不喜欢你,表白的成功概率很低的,反之亦然。 我们以这个理论作为概率的例子,首先,分析给定的已知信息和未知信息: 1)要求解的问题:女神喜欢你,记为A事件 2)已知条件:经常和女神单独出门吃过饭,记为B事件 那么,P(A|B)就是女神经常和你单独出门吃饭这个事件(B)发生后,女神喜欢你的概率。把这个套入贝叶斯公式来理解一下。贝叶斯可以分为三个部分,先验概率、可能性函数和后验概率。 1)先验概率 我们把P(A)称为"先验概率"(Prior probability),先验概率是根据以往经验和分析得到的概率。这个例子里就是在不知道女神经常和你单独出门逛街的前提下,来主观判断出女神喜欢你的概率。因为是主观判断,我们可以给任何值,例如高富帅可以把这个概率设定得很高,为80%,也可以设定低一点,例如50%,这完全是根据个人经验做出的判断。这也是前面说的贝叶斯公式的主观因素部分。 2)可能性函数 P(B|A)/P(B)称为"似然函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。至于新信息带来的调整作用大不大,还得看因子的值大不大。 如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大,例如女神平时很少和别人出门逛街吃饭,那么这个调整因子特别有用,肯定是大于1的。 如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性,例如女神偶尔也和他人出门逛街吃饭,那么和女神出门吃饭没有我们带来任何信息,对判断女神是否喜欢你没有重大意义; 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小,例如知道女神实际上有喜欢的人了,那该信息直接使得女神喜欢你的概率下降很厉害。 至于为什么似然函数的公式长这样的,这个留在以后再解释。 3)后验概率 P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神跟你出门逛街吃饭这个事件发生后,对女神喜欢你的概率重新预测。 通过这个例子,我们理解了贝叶斯公式,也知道了贝叶斯公式能够通过似然函数不断调整主观概率得到后验概率,使得预测更加准确,这也是为什么带有主观因素还能在数学界呆着的原因。也正因为这样,贝叶斯可以出现在所有需要作出概率预测的地方,例如垃圾邮件过滤,中文分词,疾病检查等。特别是在机器学习领域,贝叶斯理论更是一个绕不过去的门槛。
2023-01-13 21:17:321

贝叶斯公式的应用

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在,投资者在决策判断时并非绝对理性,会行为偏差,进而影响资本市场上价格的变动。但长期以来,由于缺乏有力的替代工具,经济学家不得不在分析中坚持贝叶斯法则。
2023-01-13 21:18:121

贝叶斯概率公式

由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。
2023-01-13 21:18:311

贝叶斯公式

贝叶斯公式 贝叶斯公式贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出 贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B) 如上公式也可变形为:P(B|A)=P(A|B)*P(B)/P(A) 例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少? 我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P(A) = 3 / 7,P(B)=2/(20·365)=2/7300,P(A | B) = 0.9,按照公式很容易得出结果:P(B|A)=0.9*(2/7300)*(7/3)=0.00058 另一个例子,现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少? 假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8 贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。
2023-01-13 21:18:391

贝叶斯公式

贝叶斯法则通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。
2023-01-13 21:18:441

如何理解贝叶斯公式?

用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)如上公式也可变形为:P(B|A)=P(A|B)*P(B)/P(A)贝叶斯公式 贝叶斯公式例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P(A) = 3 / 7,P(B)=2/(20·365)=2/7300,P(A | B) = 0.9,按照公式很容易得出结果:P(B|A)=0.9*(2/7300)/(3/7)=0.00058另一个例子,现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)/(8/20)=0.875贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。bayes&amp;amp bayes&amp其中L(A|B)是在B发生的情况下A发生的可能性。在贝叶斯法则中,每个名词都有约定俗成的名称:Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)按这些术语,Bayes法则可表述为:后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:后验概率 = 标准似然度 * 先验概率
2023-01-13 21:19:291

全概率公式和贝叶斯公式怎么用?

全概率公式和贝叶斯公式
2023-01-13 21:19:343

概率论贝叶斯定理

2023-01-13 21:19:392

贝叶斯公式的公式

例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058另一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。
2023-01-13 21:19:471

贝叶斯公式p(d|abc)等于

若P(AB)>0,P(ABC)=P(AB)P(ClAB)=P(A)P(BlA)P(ClAB) 若P(AC)>0,则P(ABC) =P(AC)P(BAC) =P(C)P(AC)P(BAC) 若P(BC)>0,则P(ABC)=P(BC)P(ABC) =P(B)P(CB)P(ABC)
2023-01-13 21:19:551

全概率公式和贝叶斯公式及其含义

楼主你向同学请教问题也是这命令一样问问题吗?搞笑,就算知道也不告诉你。何况还匿名还没悬赏分。
2023-01-13 21:19:592

真的理解贝叶斯公式吗

贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前,经济主体对各种假设有一个判断(先验概率),关于先验概率的分布,通常可根据经济主体的经验判断确定(当无任何信息时,一般假设各先验概率相同),较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。
2023-01-13 21:20:072

bayes公式是什么?

按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。贝叶斯法则通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
2023-01-13 21:20:231

全概率公式与贝叶斯公式?

2023-01-13 21:20:386

全概率公式与贝叶斯公式

1.全概公式:首先建立一个完备事件组的思想,其实全概就是已知第一阶段求第二阶段,比如第一阶段分A B C三种,然后A B C中均有D发生的概率,最后让你求D的概率 P(D)=P(A)*P(D/A)+P(B)*P(D/B)+P(C)*P(D/C) 2.贝叶斯公式,其实原本应该叫逆概公式,为了纪念贝叶斯这样取名而已.在全概公式理解的基础上,贝叶斯其实就是已知第二阶段反推第一阶段,这时候关键是利用条件概率公式做个乾坤大挪移,跟上面建立的A B C D模型一样,已知P(D),求是在A发生下D发生的概率,这就是贝叶斯 P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D) 这是概率论第一章理解的难点和重点,希望同学能学好!
2023-01-13 21:22:373

条件概率公式和贝叶斯公式的区别?

条件概率公式是最基本的,也是最容易弄懂的贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)谢谢,很高兴为你回答问题,如果有什么不懂或者疑惑请继续追问.如果没有疑问请采纳。
2023-01-13 21:22:502

高等数学概率中,如何判断什么时候用全概率公式和贝叶斯公式?

1.全概公式:首先建立一个完备事件组的思想,其实全概就是已知第一阶段求第二阶段,比如第一阶段分A B C三种,然后A B C中均有D发生的概率,最后让你求D的概率P(D)=P(A)*P(D/A)+P(B)*P(D/B)+P(C)*P(D/C)2.贝叶斯公式,其实原本应该叫逆概公式,为了纪念贝叶斯这样取名而已.在全概公式理解的基础上,贝叶斯其实就是已知第二阶段反推第一阶段,这时候关键是利用条件概率公式做个乾坤大挪移,跟上面建立的A B C D模型一样,已知P(D),求是在A发生下D发生的概率,这就是贝叶斯P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D)
2023-01-13 21:22:531

贝叶斯公式的哲学意义是什么,什么是哲学

什么是哲学:就是常人听不懂的道理!!!!!!!!
2023-01-13 21:22:563

贝叶斯定理的定理定义

2023-01-13 21:22:592

全概率公式与贝叶斯公式有什么区别?

两者的最大不同在处理的对象不同,其中全概率公式用来计算复杂事件的概率,而贝叶斯公式是用来计算简单条件下发生的复杂事件,也就是是说,全概率公式是计算普通概率的,贝叶斯公式是用来计算条件概率的
2023-01-13 21:23:051

贝叶斯公式运算

2023-01-13 21:23:084

概率论与数理统计。 甲乙两人独立地对同一目标各射击一次,他们的命中率分别为0.6和0.5,现已知目

考察贝叶斯公式设甲击中为事件A,乙击中为事件B,目标被击中为事件C.现在要求的是P(A|C).根据题意,P(A) = 0.6,P(B) = 0.5,P(C) = P(A)+P(B)-P(A)P(B) = 0.6+0.5-0.6x0.5 = 0.8,P(C|A) = 1.于是,P(A|C)= P(C|A)P(A) / P(C)= 1x0.6 / 0.8= 3/4= 0.75.
2023-01-13 21:23:188

机器学习里的贝叶斯估计是什么?

贝叶斯估计(Bayesian estimation),是在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。贝叶斯分类器的工作原理:就是求条件概率然后比较大小:条件概率概念:在已知b发生的情况下,a发生的概率。我们写做:p(a|b)。例如:已知一本书有这些tag:tag1,tag2,tag3……它属于“人文”分类的概率是多少?属于“非人文”分类的概率呢?假设p1表示在这种情况下,它属于“人文”的概率,p2表示这种情况下,它属于“非人文”的概率。如果p1>p2,那么这本书就属于“人文”,反过来就是“非人文”。我们不考虑p1=p2的情况。所以,问题就变成了,如何通过tag1,tag2,tag3…来计算p1和p2?知一本书有这些tag:tag1,tag2,tag3……它属于“人文”分类的概率表示为p(type1|tag:tag1,tag2,tag3...),类似的 属于“非人文”分类的概率表示为p(type2|tag:tag1,tag2,tag3...),利用贝叶斯公式:P(A|B)P(B)=P(B|A)P(A),可以得到p(type1|tag1,tag2,tag3...) = p(tag1,tag2,tag3...|type1)* p(type1)/ p(tag1,tag2,tag3...),p(type2|tag1,tag2,tag3...) = p(tag1,tag2,tag3...|type2)* p(type2)/ p(tag1,tag2,tag3...),所以只需要得到p(tag1,tag2,tag3...|type1),p(type1), p(tag1,tag2,tag3...) 的值就可以得到p(type1|tag1,tag2,tag3...)但做为分类器的大小比较,我们发现不需要全部得到值就可以比较大小,因为分母都是p(tag1,tag2,tag3...),所以我们只需要得到p(tag1,tag2,tag3...|type1)* p(type1)和p(tag1,tag2,tag3...|type2)* p(type2)的大小来比较即可;对于p(type1)的计算就是在整个训练数据中出现的type1类书籍出现的概率;p(type2)同理;简单;对于计算 p(tag1,tag2,tag3...|type1),我们用到的是朴素贝叶斯,也就是说tag1和tag2和tag3等每个tag出现的概率是不互相影响的是独立的;所以p(tag1,tag2,tag3...|type1)=p(tag1|type1)*p(tag2|type1)*p(tag3|type1)*p(...|type1),也就是说,我们可以计算每一个tag,在type1书籍的所有tag中出现的概率,然后将它们乘起来,就得到我们想要的p(tag1,tag2,tag3...|type1);
2023-01-13 21:23:271

初识贝叶斯

什么贝叶斯定理、贝叶斯方法、贝叶斯网络这种,外行人一听头就疼,这完全没有乘法分配律乘法结合律来的亲民啊!实际上,他确实不亲民(摊手) 那我们就从如何着手去处理贝叶斯网络为目标, 好好看,好好学 (这是文章基于的框架结构,在此基础上进行了补充说明)。 咱先整抓球,一个不透明的带子,里面有4个除了颜色完全相同的球:2红1绿1蓝。此时你去随手抓,那问你抓到各个颜色球的概率是多少?我想是个正常人都会说:那不50%、25%、25%?这是不论你取多少次,概率θ始终不变的事件,即不随观察结果X的变化而变化。 显然啊!那不然会是什么呢? 这种观点长期统治着人们,或者说,统治着正常人,这叫频率派观点。直到有个叫Thomas Bayes的人出来搅局。 贝叶斯不介绍了,生前民间学术“屌丝”,身后颠覆了概率史啊。这里说一下他最终发表的一篇多年后轰动世界的文章:An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解) 回到上面这个问题,袋子里取红球的概率θ是多少?正常人都说50%,贝叶斯说“NO!”。他认为取的红球的概率是个不确定的值,因为其中含有机遇的成分。 是不是不好理解了?那我们换个例子来讲(这个抓球有什么机遇,我也不懂,但大佬都以这些开头,所以咱换个例子) 78泽干了两年程序员,现在想自己创业开个外包公司。这个结果无非“走向人生巅峰”和“欠一屁股债”,要么成功要么失败。现在我们大家来估计一下他成功的概率有多大?你们可能会说:“这谁啊,两年就创业,吓他个鬼,不可能的。成功几率最多5%。”而我对他的为人比较了解,他有想法,有方法,有思路,还有毅力,能吃苦,还有情调,有凝聚力,还为他人着想等,那我就估计他成功的概率有75%以上。 这种不同于最开始的“非黑即白、非0即1”的思考方式,就是贝叶斯式的思考方式。 【频率派】把需要推断的参数θ看作是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X是随机的,即不管球几红几绿,事件的概率θ一定。所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布; 【贝叶斯派】认为参数θ是随机变量,而样本X是固定的。由于样本X固定,所以他们重点研究的是参数θ的分布。 这样,贝叶斯派提出了一个思考问题的固定模式: 先验分布π(θ)+ 样本信息X ==> 后验分布π(θ|x) 这意味着,新观察到的样本信息将修正人们以前对事物的认知。换而言之,在得到新的样本信息前,人们对θ的认知是先验分布π(θ),在得到新的样本信息X后,人们对θ的认知受其影响变为π(θ|x)。 先验信息一般来源于经验和历史资料,比如在S7以前的SKT VS RNG,解说总会根据历年比赛结果进行一个胜负的预判来相应解说。但从S7,S8这两个赛季后,发现韩国队不行了!那么现在你再看SKT VS RNG,可就不一定了不是吗?那是不是就是X影响了π(θ)得到了π(θ|x)。 后验分布π(θ|x)一般也认为是在给定样本X的情况下的θ条件分布,而使π(θ|x)达到最大的值θMD,这个θMD称谓最大后验估计,类似于统计学的极大似然估计。 这里插曲一下,似然和概率,很多人其实都不明白这是啥区别。似然(likelihood)在非正式场合中和概率(probability)几乎相同。但在统计学中完全不同。概率是在特定环境下某件事发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性;而似然正好相反,是在确定的结果下去推测产生这个结果的可能环境(参数)。 结果和参数相互对应的时候,似然和概率在数值上是相等的。 了解更多似然,点击这里 当然除了上述思考模式,还有举世闻名的贝叶斯定理。 先回顾几个名词 条件概率(又称后验概率)就是事件A在另外一个事件B已经发生的条件下发生的概率P(A|B):自己花几个圆圈就能推导出这个公式了。 联合概率表示两个事件共同发生的概率:边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率从而消去它们(对离散随机变量用求和得全概率,连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 现在考虑问题:P(A|B)是在B发生的情况下A发生的可能性。 (1)首先,B发生之前,对事件A发生的基本概率判断为A的先验概率P(A); (2)其次,事件B发生后,我们对事件A发生概率重新评估,称为A的后验概率P(A|B); (3)类似,事件A发生前,对B的先验概率P(B); (4)事件A发生后,B后验概率P(B|A)。 贝叶斯定理如下:推导证明如下:上式两边同时除以P(B),若P(B)非零,变得到贝叶斯定理公式表达式。 上述为传统的贝叶斯公式写法,还有另一种写法,称之为贝叶斯推断。 对条件概率公式进行变形,得到如下形式:P(A)称为先验概率,P(A|B)为后验概率,而P(B|A)/P(B)称之为可能性函数(likelyhood),这是一个调整因子,使得预估概率更接近真实概率。 贝叶斯推断的含义:我们先预估一个先验概率,然后加入实验结果,看这个实验到底是增强还是削弱了先验概率,由此得到更接近事实后验概率。 这里,可能性函数>1,意味着先验概率被增强,事件A的发生可能性变大;可能性函数=1,意味着B事件无助于判断事件A的可能性;可能性函数<1,意味着先验概率被削弱,事件A的可能性变小。 举例加深理解: 【1】水果糖问题 两个一模一样的碗,一号碗中有30颗水果糖和10颗巧克力,二号碗有水果糖和巧克力各20颗。现在随机选择一个碗,从中摸出一颗糖,发现时水果糖。请问这个水果糖来自一号碗的概率是多少? 解:我们假定,H1表示碗一,H2表示碗二,有条件已知P(H1)=P(H2),即在取出水果糖之前,这两个碗被选中的概率相同。因此P(H1)=0.5,此为先验概率。 再假定E表示水果糖,所以问题变为已知E的情况下,来自碗一的概率有多大:求P(H1|E)。我们把这个称为后验概率,即E事件发生后,对P(H1)的修正。 根据条件概率公式,得到已知:P(H1)=0.5,P(E|H1)=0.75,那么求出P(E)就可以得到答案,根据全概率公式(推导根据条件概率公式推就行了)得到:将已知带入得P(E)=0.625,最后将结果带入原方程,得到P(H1|E)=0.6,也就是说取出水果糖后,H1事件的可能性得到了增强(P(E|H1)/P(E)=0.75/0.625=1.2>1)。 贝叶斯公式还有一个最经典也是目前最广泛的应用:拼音纠错,谷歌的拼音检查就是基于贝叶斯方法。 《人工智能:现代方法》作者之一Peter Norvig曾写一篇介绍如何写一个拼写检查的文章( 原文 ),使用的也是贝叶斯方法。 用户输入一个单词,可能拼写正确,也可能拼写错误。如果把拼写正确的情况记做c,错误记做w,那么拼写检查要做的事情就是:在发生w的情况下,试图推断出c,换而言之,就是已知w,然后在若干个备选方案中,找出可能性最大的那个c,即求P(c|w)的最大值。由于对于所有备选的c来说,对应的都是同一个w,所以它们的P(w)相同,因此我们只需要最大化P(w|c)*P(c)。 其中P(c)表示某个正确的单词出现的“概率”,它可以用“频率”代替。如果我们有一个足够大的文本库,那么这个文本库中每个单词的出现频率,就相当于它的发生概率。某个词的出现频率越高,P(c)就越大。比如在你输入一个错误的单词“tes”的时候,系统更倾向于“tea”,而不是“tee”,因为tea更常见。 当然这其中要是深究,还有更多的可能性,比如说错误字母与正确字母在键盘上的位置,也许你是按错了所以会拼错,但实际上你要拼写的单词就是那个频率低的单词,是不是?在这里,初学,咱先放一放。 P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率。为了简化问题,假定两个单词在字形上越接近,就越有可能拼错,P(w|c)就越大。举例来说,相差一个字母的拼法,就比相差两个字母的拼法,发生概率越高。你想拼写“july”,错误拼成“julw”的可能性就比错拼成“jullw”高很多。一般把这种问题称为“编辑距离”。 贝叶斯网络(Bayesian Network),又称信念网络(Belief Network),或有向无环图模型,十一中概率图模型。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓扑结构是一个有向无环图(DAG,direvted acyclic graphical)。 贝叶斯网路中节点表示随机变量,认为有因果关系(或非条件独立)的变量或命题则用剪头来连接。 例如,假设节点E直接影响到节点H,即E-->H,则用从E指向H的箭头建立节点E到节点H的有向弧(E,H),权值(即连接强度)用条件概率P(H|E)来表示。 简而言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。 关于随机变量,这里不同于普通公式中的x,z那种未知数,之前专门研究过,但是参考的网址找不到了。随手记了一些笔记,分享一下(字丑): 令G=(I,E)表示一个有向无环图(DAG),其中I代表图形中所有的节点的集合,而E代表有向连接线段的集合,且令X=(Xi),i∈I为其有向无环图中某一节点i所代表的随机变量,若节点X的联合概率可以表示成:则称X为相对于一有向无环图G的贝叶斯网络,其中,pa(i)表示节点i的“因”,也可以理解为“父节点”。 给订如下图所示的一个贝叶斯网络: 由图可知: (1)x1,x2,......,x7的联合分布为:(2)x1和x2独立(head-to-head); (3)x6和x7在x4给订的条件下独立(tail-to-tail)。 根据上图,(1)很好理解,(2、3)所述的条件独立是什么意思呢?其实2、3点是贝叶斯网络中3个结构的其中两种。为了说清楚这个问题,需要引入D-Separation(D-分离)这个概念。 D-Separation是一种用来判断变量是否条件独立的图形化方法。换而言之,对于一个DAG,D-Separation方法可以快速的判断出两个节点之间是否条件独立。 有:P(a,b,c)=P(a)* P(b)* P(c|a,b)成立,化简如下:在c未知的条件下,a、b被阻断(blocked),是独立的,称之为head-to-head条件独立,对应本节图1的x1,x2独立。 考虑c未知和已经两种情况: 1、在c未知的时候,有:P(a,b,c)=P(c)P(a|c)P(b|c),此时,无法得出P(a,b)=P(a)P(b),即c未知时,a、b不独立; 2、在c已知的时候,有:P(a,b|c)=P(a,b,c)/ P(c),然后将P(a,b,c)=P(c)P(a|c)P(b|c)带入此式中,得到:P(a,c|c)=P(a,b,c)/ P(c)=P(c)P(a|c)P(b|c)/P(c)=P(a|c)P(b|c),即c已知时,a、b独立。 所以,在c给定的条件下,a、b被blocked,式独立的,称之为tail-to-tail条件独立,对应本节图1中“x6,x7在x4给定的条件下独立”。 分c未知和已知两种情况: 1、c未知时,有:P(a,b,c)=P(a)*P(c|a)*P(b|c),但无法推出P(a,b)=P(a)P(b),即c未知时,a、b不独立; 2、c已知时,有:P(a,b|c)=P(a,b,c)/ P(c),且根据P(a,c)=P(a)P(c|a)=P(c)P(a|c),可化简得到: 所以在给定c的条件下,a、b被blocked,是独立的,称之为head-to-tail条件独立。 head-to-tail其实就是一个链式网络,在xi给定的条件下,xi+1的分布和x1,x2,...,xi-1条件独立。这意味着什么?这说明xi+1的分布状态只和xi有关,和其他变量都无关!通俗一点说,当前状态只跟上一状态有关,跟上上次或上上上上上上上次状态都无关!这种顺次演变的随机过程,就叫做马尔科夫链(Markov chain)。有:将上述节点推广到节点集,则:对于任意的节点集A,B,C,考察所有通过A中任意节点到B中任意节点的路径,若要求A,B条件独立,则需要所有的路径都被blocked,即满足下列两个前提之一: A和B的“head-to-tail”和“tail-to-tail”路径都通过C; A和B的“head-to-head”路径不通过C及C的子孙; 最后举例说明上述D-Separation的3种情况(即贝叶斯网络的3种结构形式): Factor Graph是概率图的一种,概率图有多重,最常见的就是Bayesian Network和Markov Random Fields(马尔科夫随机场)。 在概率图中,求某个变量的边缘分布是最常见的问题。这个问题有很多种求解方法,其中之一就是可以把Bayesian Network和Markov Random Fields转换成Factor Graph,然后用sum-product算法求解。 以下图为例: 对于上图,在一个人已经呼吸困难(dyspnoea)的情况下,其抽烟(smoking)的概率是多少? P(smoking | dyspnoea = yes)= ? 继续推算如下:(这里我就不自己码了,好多箭箭头有点麻烦的,还是用原图简单明了) 对上述推导过程作解释如下: 1.第二行:对联合概率关于b,x,c求和(在d=1的条件下),从而消去b,x,c,得到s和d=1的联合概率; 2.第三行:最开始,所有变量都在sigma(d=1,b,x,c)的后面,但由于P(s)跟“d=1,b,x,c”都没关系,可以提到式子的最前面。而且P(b|s)和x、c没关系,所以也可以把它提出来,放到sigma(b)后,从而式子的右边剩下sigma(x)和sigma(c)。 (ps:这块看能看明白,至于为什么sigma(x)和sigma(c)不能写在一起,我也,哈哈哈~等之后再来补空挡,这里先记着。) 上图中Variable elimination表示的是变量消除的意思。为此引入因子图的概念。 定义异常的晦涩难懂,你光看着名字你就摸不着头脑,所以咱先通俗来讲,所谓因子图就是对函数进行因式分解得到的一种概率图。一般内含两种节点:变量节点和函数节点。众所周知,一个全局函数通过因式分解能够分解为多个局部函数的乘积,这些局部函数和对应的变量关系就体现在因子图上。 举例说明,现有一全局函数,其因式分解方程为:其中fA、fB、fC、fD、fE为各函数,表示变量之间的关系,可以是条件概率也可以是其他关系(如Markov Random Fields中的势函数)。 其因子图为: 在因子图中,所有的顶点不是变量节点就是函数节点,边线表示他们之间的函数关系。 提及马尔科夫随机场,就再补充一些概念: 我们知道,有向图模型,称之为贝叶斯网络。但有些情况下,强制对某些节点之间的边增加方向是不合适的。使用没有方向的无向边,形成了无向图模型(Undirected Graphical Model,UGM),又被称为马尔科夫随机场或者马尔科夫网络(MRF or Markov Network)。 回归本文主旨,首先我们举例说明如何把贝叶斯网络(和MRF),以及把马尔科夫链、隐马尔科夫模型转换成因子图,以上图为例,根据各个变量对应的关系,可得:其对应的因子图为(以下两种皆可): 有上述例子总结出贝叶斯网络构造因子图的方法: ·贝叶斯网络中的一个因子对应因子图中的一个节点 ·贝叶斯网络中的每一个变量在因子图上对应边或者半边 ·节点g和边x相连当且仅当变量x出现在因子g中 我把绘图的思考过程写下来,你跟着画一遍就会明白: 1.找出已存在的先验概率,图中为P(u)和P(w),那么因子对应节点,所以先画出P(u)和P(w)的节点,就是两个框;然后因子P(u)中出现的变量是u,那么由P(u)节点引出一条边,这条边就是u,同理P(w)引出w边; 2.发现因子P(x|u,w)知,x是u和w下的条件概率,故做节点P(x|u,w),然后将边u和w与之相连,并有该节点引出x边; 3.有因子P(y|x)和P(z|x)发现基于条件x引出两个变量y和z,那么此时需要将X边拆分成两条边(我猜想这个可能就叫半边,没有专门去查),并分别接入到P(y|x)和P(z|x)节点,再由各自节点对应引出y边与z边,结束作图。 对马尔科夫链转换的因子图和隐马尔科夫模型转换而成的因子图,做法相同。这里等以后专门讲马尔科夫的时候再仔仔细细说。这里把图贴出来给大家了解一下(应该可以很快看明白):到这,我们算把因子图讲透了,现在看看维基百科上是这样定义因子图的:将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图。 怎么样,这样直接看定义,你懂吗? 我们已经学会如何画因子图了,下面来思考这样一个问题:如何由联合概率分布求边缘概率分布? 这里给出公式:对Xk以外的其他变量的概率求和,最终剩下Xk的概率。这就是该定义的原理。你明白了吗?我有点迷糊反正,可能说成话好理解,但是这个公式未免也太模糊了点(f真的万能)。 其实可以这么理解: 如果有:那么:就是说把除了xk以外的所有随机变量的概率求出来,这个f就表示一个多项式,是关于f括号里面x的。然后概率上面有一横,表示的是不发生概率。 好吧,其实这块我也没太明白,先埋个坑,以后回来填。 现在假定我们要计算:同时,f能被分解成如下因子图(看到这里你大概能明白一点我上面说的f是多项式是什么意思了): 我们都知道乘法分配律:a * b + a * c = a * (b + c),等号左边两乘一加,等号右边一加一乘,效率不用多说。现在我们就借助分配律的思想,把因子图给分配咯! 怎么看公因子很简单,例如X3是有f1(x1)和f2(x2)通过f3这个函数得来的(即因子图那节所述,P(x3|x1,x2)),而之后的f5需要x3做因子(条件),所以自然左边这个框就成了公因子。 因为变量的边缘概率等于所有与他相连的函数传递过来的消息的乘积,所以计算得到:观察上述计算过程,可以发现类似于“消息传递”的观点,且总共有两个步骤: 1.对于f的分解图,根据左框(蓝色)、右框(红色)所包围的两个box外面的消息传递: 2.根据红蓝框为主的两个box内部的消息传递: 看上图消息传递的方向(箭头),根据 我们可以推导出:这样就将一个概率分布写成了两个因子的乘积,而这两个因子可以继续分解或者通过已知条件得到。这种利用消息传递的观念计算概率的方法就是sum-product算法。基于因子图可以用该算法高效地求出各个变量的边远分布。 sum-product算法,又称belief propagation,有两种消息: 一种是变量(variable)到函数(function)的消息 如下图所示: 此时, 另一种是函数到变量的消息 如下图所示: 此时, 如果因子图是无环图,则一定可以准确地求出任意一个变量的边远分布;如果是有环图,则无法用该算法准确求出边远分布。解决方法有3个: 1、删除贝叶斯网络中的若干边,使其不含有无向环 2、重新构造没有环的贝叶斯网络 3、选择loopy belief propagation算法(sum-product的递归版算法),该算法选择环中某个消息,随机赋初值,然后用sum-product算法,迭代下去,因为环的存在所以一定会达到赋值的消息,然后更新该消息,继续迭代,直至没有消息改变为止。缺点是不能确保收敛。 最后,该算法有个类似的max-product算法,弄懂了sum的,max的几乎完全一样。另这两个算法也能够应用到隐马尔科夫模型(hidden Morkov models)上。至于马尔科夫系列,下个专题咱再见~
2023-01-13 21:23:301