barriers / 阅读 / 详情

呸的英语怎么写

2023-07-17 09:08:00
TAG: 英语
共8条回复
小教板

一般英语中都是【shit】这个单词的。

基本意思

  “shit”在英汉词典中的解释(来源:百度词典):

  shit

  KK: []

  DJ: []

  vt.【粗】

  1、拉(屎)

  2、对……胡扯;取笑;企图欺骗

  n.【粗】

  1、屎,粪便[U]

  2、屁话[U]

  3、拉屎[S]

  4、蹩脚货,一钱不值的东西[S]

  5、可鄙的人;愚蠢的家伙[C]

  6、胡说八道;谎言;愚蠢[U]

  7、大麻;毒品[C]也作pot[s]

  8、腹泻[the P]

  9.该死

  int.

  1、【俚】(表示厌恶、恼怒等)呸!放屁!

shit的其他用法

  1、一般用作愤怒使用的词语。例如‘呸!""靠!"‘屁话!"[taboo]

  2、形象用法;on the shit[在粪便里]可以表示为陷入困境。

  禁忌[taboo]:shit在英文中看作不好的用法,不可在公共场合说这个词。

  shit 名词用还有狗屎的意思。

  Holy shit 美国人经常用的口语,为感叹语气,意思为:“我靠!”

  holy shit (DOTA)超越神的杀戮(杀10个以及以上)

wio

yuck

tt白

呸直接用shit 就是了

阿啵呲嘚

bah

pooh

pah

苏州马小云

pah foh pugh nuts pooh-pooh ugh posh bah boo faugh fie tush nerts pfui

苏萦

bah

皮皮

Bah

蓓蓓

bah

相关推荐

holy shit

这个...其实是一个脏话!文明一点解释,就是"该死"...holy就是"太,真的"的意思.所以holy shit就是"太该死"的意思.
2023-07-17 04:55:171

DOTA里“holy shit”什么意思?

我了个去
2023-07-17 04:56:015

holy shit到底是贬义还是褒义啊

holy shit不是褒义一不是贬义就相当与wow!明白了吧.好有holy cow!也是这个意思.
2023-07-17 04:56:185

【holy shit】什么意思?????

谈不上一定骂人了,比如你杯子掉地上了 holy shit
2023-07-17 04:56:337

猴里蟹什么意思

这个是英文holy shit的谐音,也可以说成厚礼蟹,表示惊叹的意思
2023-07-17 04:56:593

Holy shit,Holy hell,Holy fuck,都是什么意思??有区别么??

这些都是骂人的话,fuck:日hell:地狱
2023-07-17 04:57:072

有一个骂人的单词,叫候利SHIT,请问前面的单词该怎么写?

holy ..........................
2023-07-17 04:57:164

Dota里超神了是不是说的Holly shit?

holy shit
2023-07-17 04:57:267

欧力shit是什么意思

抱歉,我无法提供此类信息。shit是不道德的词汇,可能会对他人造成伤害和不适,请注意保持对他人的尊重和合法性。
2023-07-17 04:58:102

英文“见鬼”“去死吧”怎么说

go to hell
2023-07-17 04:58:219

魔兽DOTA里称号的英文是什么?

Defence of The Ancient
2023-07-17 04:58:434

Dota 杀人各种声音是哪几句话啊,请帮我写出来,谢谢

firstbloodDouble killkilling spreetriple killunstoppablewhickedsickmonster killgodlikeMegaKillHoly shit
2023-07-17 04:58:514

holy shit是什么意思?

表达一种惊叹的语气,大意为我的天呐,略带贬义(根据语境不是一定是贬义)。
2023-07-17 04:59:131

holy shit什么意思?

holy shitHoly shit 是表达一种惊叹的语气,大意为我的天呐...略带贬义(根据语境不是一定是贬义)相当于Oh my god或是说 Oh my fucking god!Holy直译为神圣,这里只是表示强调语气..文明点的后面不一定跟shit..如"美国派"里就用到过holy potato,《生活大爆炸》中女主角也说过holy smokes.其实表达意思一样,只是shit比较不文明..Shit直译为屎,意义可以理解为靠,日.等等表达一种或是抱怨的情绪.或是惊讶的情绪.
2023-07-17 05:00:111

Holy shit 怎么发音

同上厚礼谢特。
2023-07-17 05:00:353

holy shit是什么意思?~~~~~~~~~~~~~~~~~~~~~~~~~~~

是哪个网站!!!太欺负人了!居然这样说我们的小巨人!这是骂人的。类似还有:Shit! Damn it! Bullshit! 等等
2023-07-17 05:01:303

holy shit是脏话吗??[揉脸]

2023-07-17 05:02:243

Triple kill! Holy shit!的中文意思?

triple kill 3杀 是指短时间内(6秒)杀了3个英雄Holy shit 是表达一种惊叹的语气...略带贬义(根据语境不是一定是贬义) 相当于Oh my god或是说 Oh my fucking god! Holy直译为神圣 这里只是表示强调语气..文明点的后面不一定跟shit..如"美国派"里就用到过holy potato!其实表达意思一样,只是shit比较不文明.. Shit直译为屎 意义可以理解为靠,日.等等表达一种或是抱怨的情绪.或是惊讶的情绪. ----------------------------------------------------------------------------------------------------------------------------------------------- holy shit 在魔兽争霸 DOTA地图中 连续杀死10位敌人 就会 有holy shit 的配音出现。 同时会出现beyond godlike(中文版本 已经超越神了) 意思也是同样..表示惊叹
2023-07-17 05:02:422

a shit 跟 the shit一样吗?

dissimilarity. because“a shit” It means something is bad. however“the shit” It means something is good. taboo: You can"t say it in public: shit
2023-07-17 05:03:143

shit什么意思啊

米田共。
2023-07-17 05:03:305

勇闯天涯superX怎么样?串门拿这个酒合适不?

合适的,雪花啤酒勇闯天涯superX官宣品牌代言人王一博等年轻人气偶像在网络上为这款啤酒收获了极大的关注,像王一博当代言人的时候,官宣当天线上TVC播放量破5千万,24小时内#王一博代言勇闯天涯superX#话题阅读量破4.6亿。可以说,雪花啤酒不仅品质做的好,市场活动也做的相当出彩。 可百度了解更多
2023-07-17 04:55:431

怎样评价Shawn Mendes?他会是下一个Justin Bieber 吗

我关注过他,他比较年轻,唱功不错,外形也很出众。我认为他在整体实力上是不输Bieber的,至于能否超越,就看如何包装和运作了。
2023-07-17 04:55:465

matlab中 load命令

放在前面就ok了,只要在你用里面数据之前使用这个命令就可以了。
2023-07-17 04:55:487

利用神经网络进行文本分类算法综述(持续更新中)

传统的文本分类一般都是使用词袋模型/Tf-idf作为特征+机器学习分类器来进行分类的。随着深度学习的发展,越来越多的神经网络模型被用来进行文本分类。本文将对这些神经网络模型做一个简单的介绍。 本文介绍了一种词向量模型,虽然算不得文本分类模型,但由于其可以说是fasttext的基础。因此也简单提一下。 作者认为cbow和skipgram及大部分词向量模型都没有考虑到单词的多态性,而简单的将一个单词的多种形态视为独立的单词。例如like的不同形式有likes,liking,liked,likes,这些单词的意思其实是相同的,但cbow/skipgram模型却认为这些单词是各自独立的,没有考虑到其形态多样性。 因此作者提出了一个可以有效利用单词字符级别信息的n-gram词向量模型,该模型是以skipgram模式实现的。例如单词 where,其n-gram表示为<wh, whe, her, ere, re>, where。其中<>分别表示前后缀。在原始的skipgram模型中,输入仅仅只是where的onehot向量,而在此模型中输入则变成了<wh, whe, her, ere, re>, where的onehot编码的加和,有效的利用了字符级别的信息,因此效果更加好。 而在loss方面,文中采用了负采样+binary LogisticRegression的策略。即对每一个目标单词都预测为正负中的一种。 在本文中作者提供了一个基于神经网络的文本分类模型,这个模型是基于cbow的,与cbow非常类似。 和CBOW一样,fastText模型也只有三层:输入层、隐含层、输出层(Hierarchical Softmax),输入都是多个经向量表示的单词,输出都是一个特定的target,隐含层都是对多个词向量的叠加平均。不同的是,CBOW的输入是目标单词的上下文,fastText的输入是多个单词及其n-gram特征的embeding表示方式,这些特征用来表示单个文档;CBOW的输入单词被onehot编码过,fastText的输入特征是被embedding过;CBOW的输出是目标词汇,fastText的输出是文档对应的类标。输出层的实现同样使用了层次softmax,当然如果自己实现的话,对于类别数不是很多的任务,个人认为是可以直接使用softmax的。 最后,贴一个Keras的模型fasttext简化版。 基于词向量表示,本文提出利用卷积神经网络来进行文本分类。其算法如上图所示: 在本文中,作者尝试了多种不同的词向量模式: 在上一篇文章中CNN网络的输入一般是预训练好的词向量,而在本文中作者提出一种直接将embedding训练与分类任务结合在一起,且能有效提取/保留词序信息,也即有效训练出n-gram的模型方法,其实也可以理解为一种利用CNN来进行embedding的方法。此外,另一个问题是输入序列长度变化问题(在上一篇文章textCNN中通过padding解决的?),在本文作者提出使用一个动态可变的pooling层来解决这个问题,使得卷积层输出的大小是相同的。关于可变pooling其实与图像识别中的 空间金字塔池化 (Spatial Pyramid Pooling) 是类似的。 这篇文章有点将fastText与TextCNN结合在一起的感觉,将n-gram embedding与分类任务结合在了一起进行训练,通过CNN来进行Embedding。 Text Categorization via Region Embedding》 在本篇文章中作者提出了一个tv-embedding(即two-view embedding),它也属于region embedding(也可以理解为ngram embedding)。这种方法与上面的bow-CNN表示相似,使用bow(bag of words)的方式来表示一个区域的词句,然后通过某个区域(region,左右邻域的单词或词句)来预测其前后的区域(单词或词句),即输入区域是view1,target区域是view2。tv-embedding是单独训练的,在使用的时候与CNN中的embedding组合在一起(形成多个channel?)。作者认为,word2vec方法预训练得到的embedding向量是普适性的,而通过特定任务的数据集的训练得到tv-embedding具有任务相关的一些信息,更有利于提升我们的模型效果。 吐槽一下,这篇文章没太看懂,也可能是英语太差,作者文章中没有那种一眼就能让人理解的网络图,像textCNN的图就非常一目了然,看图就知道是怎么做的了。 本文提出了一个使用监督学习加半监督预训练的基于LSTM的文本分类模型。文章作者与上面相同,所以用到的很多技术可以说与上面也是同出一辙。因此简单说下本文的一些思路。 作者认为已有的直接使用LSTM作为文本分类模型并直接将LSTM的最后一个输出作为后续全连接分类器的方法面临两个问题:(1)这种方式一般都是与word embedding整合在一起(即输入onehot经过一个embedding层再进入LSTM),但是embedding训练不稳定,不好训练;(2)直接使用LSTM最后一个输出来表示整个文档不准确,一般来说LSTM输入中后面的单词会在最后输出中占有较重的权重,但是这对于文章表示来说并不总是对的。因此作者对这两点进行了改进: 本文其实可以看作是作者将自己前面的tv-embedding半监督训练与RCNN的一个融合吧,大有一种一顿操作猛如虎,一看人头0-5的感觉(因为作者的实验结果跟一般的CNN相比其实也抢不了多少)。 本文的作者也是前面两篇使用CNN来进行文本分类处理的文章的作者。因此在本文中,结合了前面两篇文章提出的一些方法,并使用了一个深层的卷积神经网络。具体的细节包括: 更多详细的关于DPCNN的细节可以查看 从DPCNN出发,撩一下深层word-level文本分类模型 。 本文提出了一种基于CNN+Attention的文本分类模型。作者认为已有的基于CNN的文本分类模型大都使用的是固定大小的卷积核,因此其学习到的表示也是固定的n-gram表示,这个n与CNN filter大小相关。但是在进行句子的语义表示时,不同句子发挥重要作用的ngram词语常常是不同的,也即是变化的。因此,模型能根据句子来自适应的选择每个句子最佳的n-gram对于提升模型的语义表示能力是非常关键的。本文便是由此思路提出了一种自适应的来选择不同n-gram表示的模型。 本文模型在主题结构上参照了CV中的DenseNet,借由DenseNet中的稠密连接来提取到丰富的n-gram特征表示。举例来说,在layer3的特征不仅能学习到f(x1, x2, x3),还能学习到f(x1(x2,x3))这种更多层次,更加丰富的特征。网络的结构主要包括三部分:DenseCNN主网络,Attention module和最后的全连接层分类网络。下面对这三部分进行简单的说明: 本文通过Dense connection + Attention来自动获取对于文本语义最重要的n-gram特征,结果很好。但是缺点是,这个网络比较适合较短的文本,文中对输入文本进行了padding补齐,对于不同数据集最大长度分别为50,100等,但这对于较长的文本明显是不足的。因此对于较长的文本或许HAN这种借用RNN来不限制输入长短的网络会更好。 本文提出了一种结合循环神经网络(RNN)和卷积神经网络来进行文本分类的方法,其结构如上图所示,该网络可以分为三部分: 虽然说是RNN与CNN的结合,但是其实只用到了CNN中的pooling,多少有一点噱头的意思。文中还提到了RCNN为什么比CNN效果好的原因,即为什么RCNN能比CNN更好的捕捉到上下文信息:CNN使用了固定大小window(也即kernel size)来提取上下文信息,其实就是一个n-gram。因此CNN的表现很大程度上受window大小的影响,太小了会丢失一些长距离信息,太大了又会导致稀疏性问题,而且会增加计算量。 在众多自然语言处理任务中,一个非常突出的问题就是训练数据不足,且标注难度大。因此文本提出了一种多任务共享的RNN模型框架,其使用多个不同任务数据集来训练同一个模型共享参数,已达到扩充数据集的作用。 文中作者提出了三个模型,如上图所示: 三个模型的训练方式相同: 本文提出了一个层次LSTM+Attention模型。作者认为,虽然一篇文章有多个句子组成但真正其关键作用的可能是其中的某几个,因此对各个句子施加了注意力机制,以使得对文章语义贡献较多的句子占有更多的权重。同样的,组成一个句子的单词有多个,但是发挥重要作用的可能就那么几个,因此使用注意力机制以使得重要单词发挥更大的作用,这些便是本文的核心思想。整个网络可分为三层,两个LSTM层分别用来进行word encode和sentence encode,最顶上为一个全连接分类层。若加上两层注意力层,则可认为网络为5层。下面简单聊聊这五层网络的结构: 总体来说,本文看起来还是比较有意思的,符合人阅读文章的习惯,我们写文章的时候也是有中心词和中心句的。但是由于这个层级结构是否会导致训练慢或者不好训练还不得而知。最后,文中还提出对文章按长短先进行排序,长度相似的进入一个batch,这将训练速度加快了3倍。 本文提出了一个基于图神经网络的文本分类方法。该方法的主要思想是将所有文章及其包含的词汇都放到一个图网络里面去,图网络中的节点分为两种类型:单词节点和文章节点。其中连接单词节点和文章节点的边的权重使用TF-IDF来表示,而单词与单词之间边的权重则是使用点互信息(PMI)来表示。点互信息与传统语言模型中的条件概率计算方式非常相似。只不过PMI采用的是滑窗方式而条件概率是直接在所有语料中进行统计,可以认为是将所有语料当做一个大窗口,这时就又与PMI相同了。 A表示图网络的邻接矩阵,表示如下: GCN同样也是可以含有多层隐藏层的,其各个层的计算方式如下: 其中A"为归一化对称邻接矩阵, W0 ∈ R^(m×k) 为权重矩阵,ρ是激活函数,例如 ReLU ρ(x) = max(0,x) 如前所述,可以通过叠加多个GCN层来合并更高阶的邻域信息: 其中j表示层数。 损失函数定义为所有已标记文档的交叉熵误差: 文中提到Text GCN运行良好的原因有两个方面: 但是其也有一些缺: 总的来说,文章的idea还是挺有意思的,效果也还不错。初识GCN可能还是有一点难以理解,可以参考如下资料进行进一步学习: 基于图卷积网络的文本分类算法 如何理解 Graph Convolutional Network(GCN)?
2023-07-17 04:55:501

would like后的人称代词应该是什么

would like sb. to do sth. 的用法,意思是:想要某人去做某事,这里的人称代词是宾格,比如:him /you /her 。望采纳。
2023-07-17 04:55:521

勇闯天涯superx8度和普通版的区别

首先是价格不一样,然后度数存在差距。勇闯天涯superx8零售价一瓶7块,普通版零售价一瓶10元,勇闯天涯superx8的度数在三度,勇闯天涯superx的度数在3.3度。
2023-07-17 04:55:521

电脑希沃白板5怎么更新版本

1、打开电脑里的 希沃白板软件2、进入希沃白板默认界面3、点击 左上角 头像 旁的 ▽,弹出的 关于我们 里已经看到软件版本了。 点击 关于我们4、能清楚地看到 希沃白板版本。如果有更新,会有提示,点击 即可升级。希沃(seewo)隶属视源股份CVTE,作为教育信息化应用工具提供商,致力于为用户提供实用易用的教育信息化应用工具、教育信息化前沿理论研究成果、教育信息技术常态化应用培训服务等。
2023-07-17 04:55:541

上古卷轴5 的控制台命令怎么取消的? 比如输入了TFC是拍照的全景模式,然后输入什么能取消?

再输入一遍 TFC即可但是有很多的不能取消。。比如你给自己加钱之类的。。
2023-07-17 04:55:571

想问下雪花勇闯天涯superX有几个代言人?

雪花勇闯天涯superX是雪花啤酒旗下一款中高端啤酒,也是一款为了占据高端市场和年轻人市场的高品质啤酒,雪花勇闯天涯superX的年轻化,从命名和包装风格都可以看的出来,迎合的是20-30岁年龄段人群审美,代言人目前只有一位:王嘉尔。
2023-07-17 04:55:591

Shawn John翻译成中文是什么啊

是Shawn Johnson肖恩 约翰逊
2023-07-17 04:56:015

希沃白板5中在线资源包含哪些内容

希沃白板5中在线资源包含内容如下:1、古诗词:语文古诗文资源覆盖小学、初中、高中必修部分,本功能向老师们提供了有声朗读、原文翻译以及作者百科。2、课程视频:超过2100个视频课程资源,涵盖K12完整的小学、初中、高中学段,满足教师备授课及教辅的全面需求。3、题库:精选题库向老师提供超过30万道题,囊括K12各学科。老师在希沃白板进行备授课时,可细致定位章节知识点,通过题库随时在线搜索题目。精准的题目搭配详细的解析思路,有效帮助学生快速掌握知识点,提升应用能力。4、仿真实验:实验资源涵盖初高中物理学科,实验种类包括电学、力学、电磁学、光学、热学共计超过300种实验模板。实验器材任意组装,自由设置参数,能够实现上万种物理实验的操作和演示。5、数学画板:针对中小学数学的交互式备授课工具,老师可自由改变参数值,更直观地展示勾股定理、动点连续变化、数形结合等抽象问题,帮助学生快速理解。6、远程教学:通过双师直播课的方式,将优质资源高效传递,解开地点的束缚。老师通过希沃白板5账号即可直接链接远程课堂,进行自由排课选课。线上高品质实时直播课堂,结合交互式互动课件,有效支撑老师的协作教研、满足教育资源均衡的需求。
2023-07-17 04:56:021

微观经济学STC=TC?

对 就是这个,20是固定成本(tfc) 短期成本(STC)等于总成本(TC) 厂商一般都是靠短期成本来盈利的,长期会达到零利润
2023-07-17 04:56:063

雪花啤酒勇闯天涯superX适用于哪些群体吗?

雪花啤酒勇闯天涯superX主要面对的群体其实就年轻人,这个酒价格也不贵的,平均5元左右,年轻人可以很好的接受,请客户,请朋友都很合适,口感当然也很好。
2023-07-17 04:56:071

StableDidfusion教程AI绘画

Stable Dlf fusion原理让每个人都看懂AI绘画基本原理在我们去逛C站的过程中我们知道, Stable Diffusion可用模型有两类:(1) safe tensors:safe tensors文件是用numpy保存的, 这意味着它们只包含张量数据, 没有任何代码, 加载.safe tensors文件更安全和快速。供调用的AI绘图大模型。(2) ck pt:ck pt文件是用pickle序列化的, 这意味着它们可能包含恶意代码, 如果你不信任模型来源, 加载.ck pt文件可能会危及你的安全。这里大家简单了解,在C站下载模型的时候,优先下载.safe tensors即可03大模型微调技术Dream booth是google在2022年8月提出的一种新的图像算法,其方法可以完整的获得你想要的模型的视觉特征,它的提出既不是为了训练人物也不是为了训练画风,而是为了能在少量训练图像的基础上完美的还原细节特征。大家来看下图,是在当时微软研发大会上(如果我没记错的话)发布这个模型的时候对细节特征的描绘:03大模型微调技术1.为什么要进行大模型微调?刚刚上文我们介绍的Unet模型是SD中最重要的模型网络, 内部包含上亿个参数,要训练这样一个超大的模型,大概需要15亿个图像文本, 使用256张A 100显卡跑15万个GPU小时, 大概成本是60万美元,我们设计师不能像程序员那样动不动就调函数参数训练模型(主要是不会)。那咋整?上面我们讲到UNET泛用性极强, 泛用性极强就会带来风格化不足,可能无法满足特定风格的需要。所以我们往往会对UNET大模型进行微调, 让他更符合我们的使用场景。接下来我将要给大家介绍模型微调技术。也就是大家之后在Stable Diffusion里常用的训练方法, 今天不会讲具体怎么训练,我只会给大家讲原理,讲明白了原理,大家在自学训练方法的时候则更容易理解。2.大模型微调需要解决的两个问题所有的大模型微调技术,都是基于要解决以下两个问题:(1)如何减少训练参数,提高训练效率和生成图像的质量;(2)如何解决模型泛化性差的问题;a.过拟合(Overfitting) 是指微调模型对原始模型的语义理解程度发生了变化,整体训练出现语义漂移的现象:比如有一只猫, 名字叫jojo, 我拍了他的几十张照片, 一直用a jojo cat这个名字来强化模型对这只猫的认知, 等以后我输入a jojo cat的时候确实能出现想要的这只猫, 但是我输入a cat的时候则出现的画面会很怪异, 这就说明cat这个词被污染了, 出现了过度拟合的现象。b.欠拟合(Under fitting) 是无法识别这一特征, 比如它就完全识别不出jojo和cat的关系, 这往往是训练样本量不足或者训练样本质量等因素导致,属于训练无效。好,那么我们来看下常见的大模型微调技术都有哪些,以及他们是如何解决上面两个问题的。我们常见的大模型微调技术就是以下这四个:Dream booth/LoRA/Embedding/Hyper network, 这在我们后续学习Stable Diffusion过程中会经常用到, 相信大家都已经或多或少了解一点了,接下来就带大家揭开他们神秘的面纱。3.Dream booth:我们先来看Dream booth是怎么解决过拟合这个问题的:Dream booth要求我们在训练过程中,“特征词+类别”和“类别”成对出现,解决过拟合的问题;比如之前提到的我如果想训练这只叫JOJO的猫的模型, 又不能让它跟“猫”这个词过度拟合,我们可以采用的这样的输入方法。这样的话AI就能识别到:JOJO cat is a cat named jojo。我们说过CLIP模型是Text Encoder算法的一种,Text Encoder主要是把自然语义prompt转变为词特性向量Embedding, 所以我们可以针对我们的Prompt到向量的这个映射过程进行训练,去修改他们之间的映射记录关系,从而达到训练特定的人或物的效果,由于他生成的是一套纯文字映射记录,所以体积非常小,一般只有几百k。举个实际应用的例子,比如下面这个人物大家都很熟悉,是守_望先锋里的Dva:Dream booth优点是:可以将视觉特征完美融入;Dream booth缺点是:需要调整UNet所有内部参数, 训练时间长,模型体积大。4.LoRA(大模型的低秩适配器) :讲完了Dream booth之后我们来讲一下LoRA, 相信大家都听过这个词了,一定对它非常感兴趣对不对?正因为LoRA他的插入层较少, 他相较于Dream booth, 可以把训练参数降低1000倍, 对CPU的要求也会下降三倍, 所以训练出来的LoRA模型就会非常小, 一般大家在C站下载过就知道,往往他们只有几十m,而一个大模型往往有几个g,所以他在我们日常工作中变得非常常用。大家作为新手学习的时候, 可以理解Lora是在原有模型上添加一个“滤镜”,让这个底模往我们期望的效果走。如下图所示,我用了一个rev Animated(一个偏动漫的底模型) , 当我们Prompt不变的情况下, 加了一个盲盒效果的LoRA之后, 相当于是给这个底模型上了一个滤镜,让整体底模型出来的效果往盲盒方向偏重:5.Embedding(Text In version) :接下来我们来讲一下Embedding, Embedding也叫Text in version(大家在C站下载的时候注意, 他主要是用于训练特定的人或物) , 它反映的是一个Prompt与对应向量的映射记录关系的算法,可以用于训练特定的人或物。还记得上面讲我们的咒语是如何起作用的时候的这张图么?举个实际应用的例子,比如下面这个人物大家都很熟悉,是守望先锋里的Dva:如果我们要通过描述她的特征去把她描述出来, 可能要几千个prompt tag才行, 那我如果每次想生成Dva 都要再打一次这么多prompt肯定不科学, 这时候我们可以把这一串tag打包映射成一个新的词汇叫OW_Dva。由于这个词是我们自创的, 在CLIP映射集合里找不到对应的映射关系, 所以CLIP会默认给他创建一个新的映射空间, 经过一系列训练之后,我们后续就可以通过输入一个简单的词汇来完成一系列tag的打包效果。6.Hyper network:最后我们来看一下Hyper network, 他作为一种即将要被Lora 淘汰了的技术,我们大概略讲一下他的原理就好了。大家先看下图, 我们来总结一下三种技术的原理和在UNET中的使用范围:Dream booth调整了整个UNET的函数和参数, 所以他体积最大,适用范围最全,但是训练难度和训练耗时和成本最大。LoRA只将训练参数注入到了部分Transform ar函数中, 所以他不改变原模型,即插即用,模型大小也可控,是我们后续学习的重点。而Hyper network, 大家看图, 他是新建了一个单独的神经网络模型, 插入到原UNet模型的中间层。在训练过程中, 冻结所有参数,只训练插入部分,从而使输出图像与输入指令之间产生关联关系,同时只改变原模型的一小块内容。从这个原理的描述上, 大家就能发现, Hyper network这种方法更适合用于训练某种画风,比如像素画之类的,大家在C站能找到的Hyper network模型也几乎都是画风训练的, 但是不是说他不能训练别的, 它也是可以训练人物的, 就是比LoRA 麻烦一点。总之, 他几乎是一个在国内几乎要被LoRA淘汰的技术(注意是国内,注意是几乎,杠精别杠),大家去知乎什么的看paper, 关于Hyper Networks的相关paper都在2022年前,所以大家就也把他当成一个”滤镜“来理解即可。最后说一下声明:在本文中为了方便大家通俗理解,作者对算法原理进行了某种程度的简化,并不能代表模型函数运行的100%实质(防杠)。
2023-07-17 04:56:081

smoke-free是什么意思

smoke-free的意思是禁止吸烟。“smoke”是抽烟的意思,“free”有免费、自由的意思,但看到带有Smoke-free的标志,千万不要以为是可以让你吸烟的地方。free这个非常常见的单词,其实有很多含义:1、adj.免费的;自由的,不受约束的;免于~的。2、vt.使自由,解放;释放,使免除。3、adv.自由地;免费。4、n.(Free)人名;(英)弗里。Free可以表示这些意思,但是如果free前面加上-可就不一样啦。在《牛津字典》中:-free(构成形容词)没有…的。比如:duty-free或者tax-free意思是"免税的",interest-free是“免利息”。smoke-free,这里的-free也是用的这个意思,表示"免除吸烟的;不能吸烟的"。“Smoke-free”和“No smoking”的区别:其实Smoke-free表示的意思跟No smoking基本一样,都指“不可以吸烟”。但这两句话语表达的语气和意蕴是有区别的。No Smoking“禁止吸烟,严禁吸烟”是命令语气,表示很严厉的禁止。而Smoke-free是纯粹的中性说明话语,不含命令语气。一般可以吸烟的地方英文是这样的:Smoking room吸烟室。Smoking zone/area吸烟区。
2023-07-17 04:56:111

怎样查法院判决信息

您好,一、案件当事人本人查询,法院判决后的结果会以邮寄的方式将纸质档裁判书寄给案件当事人。二、如果不是案件当事人,可以登录中国裁判文书网http://wenshu.court.gov.cn/,在高级检索中输入案由、关键词、法院、当事人、律师其中之一查询结果。扩展资料:判决书,法律术语,是指法院根据判决写成的文书。是法律界常用的一种应用写作文体,包括民事判决书、刑事判决书、行政判决书和刑事附带民事判决书。最高人民法院发布新规:法院生效的判决书从2014年1月1日起在互联网全面公布,除涉及国家机密、个人隐私、未成年犯罪以及不宜“晒”的4类判决书外,公众均可随时查阅。
2023-07-17 04:55:403

降钙素原达到多少会要人命

 英文全称:procalcitonin   英文缩写:PCT   PCT是一种蛋白质,当严重细菌、真菌、寄生虫感染以及脓毒症和多脏器功能衰竭时它在血浆中的水平升高。自身免疫、过敏和病毒感染时PCT不会升高。局部有限的细菌感染、轻微的感染和慢性炎症不会导致其升高。细菌内毒素在诱导过程中担任了至关重要的作用。   PCT反映了全身炎症反应的活跃程度。影响PCT水平的因素包括被感染器官的大小和类型、细菌的种类、炎症的程度和免疫反应的状况。另外,PCT只是在少数患者的大型外科术后1~4d可以测到。   PCT水平的升高出现在严重休克、全身性炎症反应综合征(SIRS)和多器官功能紊乱综合征(MODS),即使没有细菌感染或细菌性病灶。但是,在这些病例中PCT水平通常低于那些有细菌性病灶的患者。从肠道释放细胞因子或细菌移位可能引起诱导。应用  1.血液肿瘤科   对因接受化疗或骨髓移植而引起的免疫抑制和中性粒细胞减少的患者来说,严重的感染是致命的并发症,化疗期间有多种原因引起发热。发热通常是细菌、病毒或真菌感染的症状,但有时是治疗过程中对药物的反应。肿瘤细胞溶解引起的发热较常见,大多数病例的发热源仍不清楚。PCT有助于对细菌和真菌引起的系统性感染作出明确的诊断。即使是化疗患者,PCT对是否有败血症感染也能作出可靠的检测和评估。   中性粒细胞减少症患者常常缺乏炎症的特异性症状。PCT在免疫抑制和中性粒细胞减少患者中的表现与无免疫抑制患者中观察的结果相似。其诊断价值已明显优于CRP和细胞因子。   骨髓移植患者或造血干细胞移植患者很长一段时间内不论从数量上还是质量上,均存在体液和细胞免疫缺陷这将掩盖因细菌、真菌、病毒及原虫引起的严重的系统性感染。PCT浓度的升高对细菌性全身感染有很高的诊断率。如果同种异体移植后出现败血症休克,血浆PCT浓度极度升高,表明预后不良。   2.麻醉科   术后败血症感染和多器官功能衰竭仍然是现在重症监护病房中最常见的死亡原因。中小手术血浆PCT浓度通常在正常范围内,大手术如大的腹部手术或胸部手术,术后1-2天内PCT浓度常有升高,通常为0.5-2.0 ng·ml,偶尔超过5 ng·ml,这种情况常以24小时的半衰期速度几天内降至正常水平。因此术后因感染造成的PCT高浓度或持续高水平很容易给予鉴别。   复合创伤后12-24小时,PCT中度升高,可达2.0 ng·ml,严重的肺或胸部创伤,PCT可达5 ng·ml,如没有感染并发症一般以半衰期速度降至正常范围。   3.内科   内科重症监护医疗中的问题常围绕着感染的诊断及是否与感染有关的鉴别诊断而进行。对炎症严重程度及其治疗结果的评价是否有效,是有效治疗方案的必要前提。   PCT选择性地对系统性细菌感染、相似菌感染及原虫感染有反应,而对无菌性炎症和病毒感染无反应或仅有轻度反应。因此,PCT能很方便地运用于内科医疗中常见的疾病和综合症的鉴别诊断,如:成人呼吸窘迫症感染性和非感染性病因学的鉴别诊断;胰腺炎感染坏死和无菌性坏死的鉴别诊断;鉴定感染时发热,如接受化疗的肿瘤和血液病患者;在接受免疫抑制剂的患者中,鉴别诊断慢性自身免疫性疾病的急性恶化与风湿性疾病伴系统性细菌感染;鉴别诊断细菌性脑膜炎与病毒性脑膜炎;对接受化疗的中性粒细胞低下症患者,明确是否存在有生命危险的细菌和真菌感染;对接受免疫抑制疗法的器官移植患者,明确是否存在有严重的细菌和真菌感染,同时用于感染和移植排斥反应的鉴别诊断。   4.移植外科   成功的器官移植常受到像严重感染这样的并发症的挑战。31℅的患者器官移植后第一年内发生感染,感染症状可被急、慢性排斥所掩盖,因此对排斥反应期出现的感染不能作出早期和可靠的诊断。器官移植患者使用PCT检测,可早期引入治疗从而提高生存率以及缩短住院时间。   PCT用于器官移植患者感染的诊断,免疫抑制疗法严重削弱了器官移植患者的抗感染能力。PCT可早在感染发生仅2小时即可提示有系统性感染的存在。感染早期PCT>0.1 ng·ml,其灵敏度77℅,特异性100℅,逐月的PCT浓度监测可对抗微生物疗法的疗效作出可靠的评价。   PCT应用于器官排斥反应,器官移植后监测的主要任务之一就是能明确区分感染与器官排斥。因为PCT的释放不是由急性或慢性器官排斥反应刺激引起的,所以高浓度的PCT即可认为有感染存在。如果PCT浓度超过10 ng·ml,98℅的可能是感染而非器官排斥。   5.新生儿科   许多疾病在早产儿和新生儿中无特异性表现。血液学检查和传统的实验室指标和急性期蛋白对新生儿败血症均不能作出可靠的诊断。微生物检查的结果需要几天的时间,而且阴性结果并不能排除临床感染的存在以及与此相关的高死亡率。与其他炎症诊断指标相比,PCT是一种改进的实验室指标,它对新生儿出生后败血症的诊断具有高度的灵敏度和特异性。PCT也可用于对治疗结果的评价。   早产儿和新生儿PCT年龄依赖性正常值:PCT于出生后24-30小时达其生理性高峰21ng·ml,但平均值仅为2 ng·ml,。出生后第三天起,PCT正常参考值同成人。   PCT是新生儿败血症高度特异性的指标:早产儿和新生儿败血症感染,PCT可作出较传统方法更早更具特异性的诊断,它对新生儿诊断的灵敏度和特异性可达100℅。   6.儿科   小儿高热用临床手段常常难以区分不同的感染源,这一问题尤其会影响到因患血液、肿瘤疾病而给予免疫抑制疗法的患者的准确诊断。而且许多疾病伴有继发性免疫病理改变,如风湿性发热等,因此对患儿很难将其与原发性细菌感染相区别。   PCT对细菌和病毒感染的鉴别诊断有很高的灵敏度和特异性。由于细菌感染和病毒感染治疗上存在本质性的差别,因此PCT对具有非特异性感染症状的患者的治疗可提供有价值的信息。   检测脑脊液中的蛋白和细胞无助于鉴别小儿细菌性脑膜炎和病毒性脑膜炎,而且许多具有特异性的检测指标之间存在明显的交叉现象。高浓度的PCT只出现于细菌性脑膜炎;而病毒性脑膜炎PCT仍保持在正常范围内(脑脊液中检测不到PCT)。每天按时间对PCT浓度进行监测,可对治疗结果作出可靠的评价。   7.外科   败血症感染和多器官功能衰竭是术后致命的并发症,尽管现代医学有了长足的进步,但对此仍无良策。术后能对并非由原有疾 病或手术创伤本身引起的败血症感染作出早期和准确的诊断是成功治疗的关键。   PCT浓度不受业已存在的疾病如癌症、变态反应或自身免疫性疾病的影响,PCT明显优于其他炎症因子如CRP和细胞因子,是一种客观肯易检测的指标,有其独特的诊断优势,甚至优于那些带有侵入性,风险性和造价均高的诊断方法,如细针穿刺病理检查法。   术后PCT的应用:PCT与严重细菌和败血症感染的发生及其过程有密切的关系,能准确反应引起病变(如腹膜炎)的感染源是否得到根除。每天对PCT浓度的监测可对治疗结果做出可靠的评价。PCT可用于手术创伤或复合创伤的监测。PCT用于心脏手术患者,心脏手术使用心肺机,即使患者有白细胞增多症,中性粒细胞增多症,嗜酸性细胞减少症或CRP升高不充分等疾病,PCT浓度通常不升高或仅有轻微升高,故PCT很适合用于败血症的检测。
2023-07-17 04:55:382

Transformer最全解析(attention is all you need)

Transformer出自google,被广泛应用于NLP的各项任务中,在transformer基础上改进优化的BERT模型在2019年11项NLP任务中表现SOTA。 论文原文: https://arxiv.org/pdf/1706.03762.pdf 《attention is all you need》 在处理变长的序列问题时,一般的做法是利用卷积神经网络或循环神经网络。 无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖。 Attention可以理解为一种序列聚焦方法,基本思想是对序列分配注意力权重,把注意力集中在最相关的序列上。 Attention 机制实质上就是一个寻址过程,通过给定一个任务相关的查询 Query 向量 Q,通过计算与 Key 的注意力分布并附加在 Value 上,从而计算 Attention Value,这个过程实际上是 Attention 缓解神经网络复杂度的体现,不需要将所有的 N 个输入都输入到神经网络进行计算,而是选择一些与任务相关的信息输入神经网络,与 RNN 中的门控机制思想类似。 用X = [x_1, · · · , x_N ]表示N 个输入样本;通过线性变换得到为查询向量序列,键向量序列和值向量序列: 所谓self-attention自注意力机制,即其注意力概率分布来自网络自身的输入的变换,而传统attention的注意力概率分布来自外部。 Transformer模型中采用了 encoer-decoder 架构,论文中encoder层由6个encoder堆叠在一起,decoder层也一样。 每一层的encoder和decoder的结构如下图所示: transformer模型中缺少一种解释输入序列中单词顺序的方法,它跟序列模型还不不一样。为了处理这个问题,transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding,维度和embedding的维度一样,这个向量采用了一种很独特的方法来让模型学习到这个值,这个向量能决定当前词的位置,或者说在一个句子中不同的词之间的距离。这个位置向量的具体计算方法有很多种,论文中的计算方法如下: 其中pos是指当前词在句子中的位置,i是指向量中每个值的index,可以看出,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。最后把这个Positional Encoding与embedding的值相加,作为输入送到下一层。 在每个编码器中的每个子层(自注意力、前馈网络)的周围都有一个残差连接,并且都跟随着一个“层-归一化”步骤。 Normalization有很多种,但是它们都有一个共同的目的,那就是把输入转化成均值为0方差为1的数据。我们在把数据送入激活函数之前进行normalization(归一化),因为我们不希望输入数据落在激活函数的饱和区。 mask 表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask,分别是 padding mask 和 sequence mask。其中,padding mask 在所有的 scaled dot-product attention 里面都需要用到,而 sequence mask 只有在 decoder 的 self-attention 里面用到。 原论文中说到进行Multi-head Attention的原因是将模型分为多个头,形成多个子空间,可以让模型去关注不同方面的信息,最后再将各个方面的信息综合起来。其实直观上也可以想到,如果自己设计这样的一个模型,必然也不会只做一次attention,多次attention综合的结果至少能够起到增强模型的作用,也可以类比CNN中同时使用 多个卷积核 的作用,直观上讲,多头的注意力 有助于网络捕捉到更丰富的特征/信息 。 seq2seq缺点 :这里用代替这个词略显不妥当,seq2seq虽已老,但始终还是有其用武之地,seq2seq最大的问题在于 将Encoder端的所有信息压缩到一个固定长度的向量中 ,并将其作为Decoder端首个隐藏状态的输入,来预测Decoder端第一个单词(token)的隐藏状态。在输入序列比较长的时候,这样做显然会损失Encoder端的很多信息,而且这样一股脑的把该固定向量送入Decoder端,Decoder端不能够关注到其想要关注的信息。 Transformer优点 :transformer不但对seq2seq模型这两点缺点有了实质性的改进(多头交互式attention模块),而且还引入了self-attention模块,让源序列和目标序列首先“自关联”起来,这样的话,源序列和目标序列自身的embedding表示所蕴含的信息更加丰富,而且后续的FFN层也增强了模型的表达能力,并且Transformer并行计算的能力是远远超过seq2seq系列的模型,因此我认为这是transformer优于seq2seq模型的地方
2023-07-17 04:55:361

希沃白板交互式课件制作技巧

希沃白板交互式课件制作技巧如下:1、使用全触屏白板。作为信息化教育推出的为互动教学而生的教学课件,极大的方便了教学。全触屏白板,给孩子提供了更多展示的机会,课堂充满乐趣。2、点击云课件。打开希沃白板5,登录账号,进入主界面,左侧有“云课件”、“我的学校”等栏目。用希沃做的课件都会存储在自己的账号里,在“云课件”中可以找到,只要用希沃打开的课件都在云课件中有记录,可以随时查看。3、设计课堂活动。课堂活动有5种活动可以制作,根据课程类型选择适合的使用。趣味分类、超级分类、选择填空、知识配对与分组竞争。课堂上的实时游戏让学生有参与感与体验探索。4、制作思维导图。将本节课的重点难点通过知识导图的形式直观的显示出来,对整节课的脉络有清晰的了解。5、使用几何画板工具。圆形、圆柱、圆锥、长方体等立体图形可以绘制,方便快捷,立体感十足。6、使用函数工具。可课堂现场做图,直观呈现,学生可以清晰看到图像生成的过程,加深印象,理解深刻。
2023-07-17 04:55:362

军团要塞是什么?和守望先锋有什么区别

。。。军团要塞是以前半条命的一个多人合作对战mod,军团要塞2是以军团要塞为原型以起源(Source)引擎制作的多人合作设计游戏。和屁股的区别还是挺大的,各有各的特色,其他不好说。
2023-07-17 04:55:332

网上怎么查询判决书

判决书在中国裁判文书网,一般的法院所生效的判决书都能被查到。当事人还可以携带身份证去当地法院查询,如果不是当事人本人查询,则需要委托律师一起去当地法院查询人民法院的判决书。一、判决书在哪里可以查到1、判决书在哪里可以查到,需要根据具体情况进行决定:(1)当事人可以直接前往法院档案室查询,或委托别人去查询;(2)非当事人可以在经法院办公室领导签字同意后,前往查询或委托别人查询;(3)另外律师可以直接拿当时案件的委托书去法院查询。2、法律依据:《关于人民法院在互联网公布裁判文书的规定》第二条最高人民法院在互联网设立中国裁判文书网,统一公布各级人民法院的生效裁判文书。各级人民法院对其在中国裁判文书网公布的裁判文书质量负责。第四条人民法院的生效裁判文书应当在互联网公布,但有下列情形之一的除外:(一)涉及国家秘密、个人隐私的;(二)涉及未成年人违法犯罪的;(三)以调解方式结案的;(四)其他不宜在互联网公布的。二、判决书丢了怎么办判决书丢失后,处理方法具体如下:1、当事人可以到做出判决的法院申请再领取一份;2、也可以带身份证到审理案件的法院查阅档案进行复印。在复印件上盖上法院档案室的章后,所复印的判决书与判决书原件具有同等的法律效力。希望以上内容能对您有所帮助,如果您还有其它问题请咨询专业律师。【法律依据】:《最高人民法院关于人民法院在互联网公布裁判文书的规定》 第五条 人民法院应当在受理案件通知书、应诉通知书中告知当事人在互联网公布裁判文书的范围,并通过政务网站、电子触摸屏、诉讼指南等多种方式,向公众告知人民法院在互联网公布裁判文书的相关规定。
2023-07-17 04:55:331

电器上LOAD是什么意思

“火线出”的意思
2023-07-17 04:55:303

Transformer详解,输入部分(词嵌入、位置编码)

由图可知: inputs和带标签的输入分别进encoder和decoder Positional Encoding 线性层 softmax层 由N个编码器堆叠而成 每个编码器有两个子层相连接 第一个子层->多头 自注意力机制 和规范化层以及一个残差连接 第二个子层->全连接层和规范化层以及一个残差连接 由N个解码器堆叠而成 每个编码器有三个子层相连接 第一个子层->一个多头 自注意力机制 层和规范化层以及一个残差连接 第二个子层->多头 注意力机制 和规范化层以及一个残差连接 第三个子层->全连接层和规范化层以及一个残差连接 目的是为了将目标文本的 数字表示 ->向量表示,为了在高维空间捕捉词汇间的关系 效果如下 在Transformer编码器中没有针对词汇位置信息的处理,故需要在embedding层后加入位置编码器,将 词汇位置不同可能会产生不同语义的信息 加入到嵌入张量中(embedding),用来弥补位置信息的缺失。
2023-07-17 04:55:281

would like sth和would like to do sth , would like sb to do sth 举例

would like sth=喜欢做某事,习惯性的 I would like reading book。would like to do sth=喜欢去做某事 最近的 Recently,I would like washing clothes。would like sb to do sth=喜欢某人做某事 I would like you to give me a flower。
2023-07-17 04:55:261

完全竞争条件下,为什么企业利润为0

这里面所指的企业利润是经济利润。经济利润=总收益-总成本=总收益-总可变成本-总固定成本在本题中可令总固定成本为TFC,由题意知总可变成本TVC=CX=X^3-30X^2+310X总利润TR=PX=310X所以有TR-TVC-TFC=310X-X^3+30X^2-310X-TFC=0可得TFC=-X^3+30X^2下面我们来求X完全竞争市场均衡条件可知,企业是价格的接受者,市场价格就是他的边际收益MR,因此,企业为使利润最大化必须使MR=MC=PMC=dTC/dX=dTVC/dX=3X^2-60X+310MR=310所以有3X^2-60X+310=310得到X=0(舍去)或X=20因此当X=20时,TFC=-20^3+30*20^2=-8000+12000=4000所以企业的固定成本是4000
2023-07-17 04:55:231

BERT:深度双向预训练语言模型

论文标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文链接: https://arxiv.org/abs/1810.04805 BERT(Bidirectional Encoder Representations from Transformers)通过预训练来学习无标注数据中的深度双向表示,预训练结束后通过添加一个额外的输出层进行微调,最终在多个NLP任务上实现了SOTA。 预训练语言模型在实践中证明对提高很多自然语言处理任务有效,其中包括句子层级的任务,比如自然语言推断(natural language inference)和复述(paraphrasing),还有token层级的任务,比如命名实体识别(named entity recognition)和问答(question answering)。 在下游任务中应用预训练语言模型表示的方法有两种:feature-based的方法和fine-tuning的方法。举例来说,ELMo这种预训练语言模型使用feature-based的方法,通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去;GPT使用fine-tuning的方法,通过引入少量的特定于任务的参数,在下游任务中训练时所有的预训练参数。 截止BERT之前的预训练语言模型都是单向的(unidirectional),包括GPT和ELMo,这样的方法对句子层级的任务不是最优的,而且对于token层级的任务比如问答非常有害。BERT使用masked language model(MLM)的方法来预训练,这种方法能够训练一个双向的(directional)语言模型。除了masked language model的预训练的方法,BERT还使用了next sentence prediction的预训练方法。 BERT的使用分为两个阶段:预训练(pre-training)和微调(fine-tuning)。预训练阶段模型通过两种不同的预训练任务来训练无标注数据。微调阶段模型使用预训练参数初始化,然后使用下游任务(downstream task)的标注数据来微调参数。 BERT的一个显著特点是它在不同的任务上有统一的架构,使用时只需要在BERT后面接上下游任务的结构即可使用。 BERT的模型架构是一个多层双向的Transformer的encoder。我们标记模型的层数(每一层是一个Tranformer的block)为 ,模型的hidden size为 ,self-attention head的数量为 。两个比较通用的BERT架构为 和 。 对比GPT,BERT使用了双向self-attention架构,而GPT使用的是受限的self-attention, 即限制每个token只能attend到其左边的token。 BERT的输入表示能够是一个句子或者是一个句子对,这是为了让BERT能够应对各种不同的下游任务。BERT的输入是一个序列,该序列包含一个句子的token或者两个句子结合在一起的token。 具体地,我们会将输入的自然语言句子通过 WordPiece embeddings 来转化为token序列。这个token序列的开头要加上 [CLS] 这个特殊的token,最终输出的 [CLS] 这个token的embedding可以看做句子的embedding,可以使用这个embedding来做分类任务。 由于句子对被pack到了一起,因此我们需要在token序列中区分它们,具体需要两种方式: ①在token序列中两个句子的token之间添加 [SEP] 这样一个特殊的token; ②我们为每个token添加一个用来学习的embedding来区分token属于句子A还是句子B,这个embedding叫做segment embedding。 具体地,BERT的输入由三部分相加组成:token embeddings、segment embeddings和position embeddings。如下图所示: BERT使用两个无监督的任务进行预训练,分别是Masked LM和Next Sentence Prediction(NSP)。如下图所示,我们定义输入的embedding为 ,BERT最终输出的 [CLS] 的embedding为 ,最终输出的第 个token的embedding为 。 我们有理由相信一个深度双向模型比left-to-right模型和left-to-right和right-to-left简单连接的模型的效果更加强大。不幸的是,标准的条件语言模型只能够够left-to-right或者right-to-left地训练,这是因为双向条件会使每个token能够间接地“看到自己”,并且模型能够在多层上下文中简单地预测目标词。 为了能够双向地训练语言模型,BERT的做法是简单地随机mask掉一定比例的输入token(这些token被替换成 [MASK] 这个特殊token),然后预测这些被遮盖掉的token,这种方法就是Masked LM(MLM),相当于完形填空任务(cloze task)。被mask掉的词将会被输入到一个softmax分类器中,分类器输出的维度对应词典的大小。在预训练时通常为每个序列mask掉15%的token。与降噪自编码器(denoising auto-encoders)相比,我们只预测被mask掉的token,并不重建整个输入。 这种方法允许我们预训练一个双向的语言模型,但是有一个缺点就是造成了预训练和微调之间的mismatch,这是因为 [MASK] 这个token不会在微调时出现。为了缓解这一点,我们采取以下做法:在生成训练数据时我们随机选择15%的token进行替换,被选中的token有80%的几率被替换成 [MASK] ,10%的几率被替换成另一个随机的token,10%的几率该token不被改变。然后 将使用交叉熵损失来预测原来的token。 一些重要的NLP任务如Question Answering (QA)或者Natural Language Inference (NLI)需要理解句子之间的关系,而这种关系通常不会被语言模型直接捕捉到。为了使得模型能够理解句子之间的关系,我们训练了一个二值的Next Sentence Prediction任务,其训练数据可以从任何单语语料库中生成。具体的做法是:当选择句子A和句子B作为训练数据时,句子B有50%的几率的确是句子A的下一句(标签是 IsNext ),50%的几率是从语料库中随机选择的句子(标签是 NotNext )。 [CLS] 对应的最后一个隐层输出向量被用来训练NSP任务,这个embedding就相当于sentence embedding。虽然这个预训练任务很简单,但是事实上在微调时其在QA和NLI任务上表现出了很好的效果。在前人的工作中,只有sentence embedding被迁移到下游任务中,而BERT会迁移所有的参数来初始化下游任务模型。 Transformer的self-attention机制允许BERT建模多种下游任务。对于包含句子对的任务,通常的做法是先独立地对句子对中的句子进行编码,然后再应用双向交叉注意(bidirectional cross attention)。而BERT使用self-attention机制统一了这两个过程,这是因为对拼接起来的句子对进行self-attention有效地包含了两个句子之间的双向交叉注意(bidirectional cross attention)。 对于每个任务来说,我们只需要将任务特定的输入输出插入到BERT中然后端到端地微调即可。举例子来说,BERT的预训练输入句子A和句子B在微调时可以类比为: ①paraphrasing任务中的句子对; ②entailment任务中的hypothesis-premise对; ③question answering任务中的question-passage对; ④text classification或者sequence tagging任务中的text-u2205对(也就是只输入一个text,不必一定需要两个句子)。 对于BERT的输出,对于一些token-level的任务,BERT的token表示将被输入到一个输出层,比如sequence tagging或者question answering任务;对于entailment或者sentiment analysis这样的任务,可以将 [CLS] 对应的表示输入到一个输出层。 我们使用 [CLS] 这个token的最后一层的隐层向量 作为聚合的表示,可以认为是sentence embedding。在微调时只引入一个新的权重 ,这里的 代表标签的数量,然后计算标准分类损失 。下图展示了BERT在GLUE上的效果: 在这个数据集上,我们将question和passage拼接起来作为一个输入序列(中间是 [SEP] )。在微调时引入一个start向量 和一个end向量 ,计算 和 的点积然后通过 函数作为word 是答案的span起始位置的概率: 。答案的终止位置也做上述类似处理。从 到 的候选区间的得分记作 ,我们挑选 的最大得分区间作为预测的结果。下图展示了BERT在SQuAD v1.1上的效果: SQuAD v2.0有的question在提供的passage中没有答案存在。在微调时我们设置没有答案的问题的span的起始和结束位置都是 [CLS] 这个token,也就是start和end的可能性空间包含进了 [CLS] 的位置。在预测时,我们比较没有答案的span得分 和最优的有答案得分 。当 时,我们预测这是一个有答案的问题,这里的 用来在dev set上选择最优的 。下图展示了BERT在SQuAD v2.0上的效果: 微调时我们为BERT构建4个输入序列,每一个是所给的句子(句子A)和一个可能的延续(句子B)。然后引入一个向量,该向量和每一个输入对应的 [CLS] 的embedding的点积再通过一个 层来得到每个选择的得分。下图展示了BERT在SWAG上的效果:
2023-07-17 04:55:211

load是进电还是出电

电源开关中的LOAD是出线,接负载的意思。电器上load的意思是负载,负荷,用于接通和分断电路的电器,如接触器、刀开关、负荷开关、隔离开关、断路器等。Load/Store内存访问指令也叫批量加载/存储指令,它可以实现在一组寄存器和一块连续的内存单元之间传送数据。
2023-07-17 04:55:191

Would like 是+to do 还是doing

这个是常见问题了。参考下面的: 不可以跟doing “ would like ”意为“想要”,其语气比用 like 婉转些。具体用法如下: 1. 后面接名词或代词,表示“具体要”某样东西。例如: I"d like two sweaters for my daughters. ( JB III, L59 ) (我想给我的女儿们买两件毛衣。) Would you like one of these mooncakes? ( JB II, L10 )(你想要一块这样的月饼吗?) 2. 后面接动词不定式,表示“愿望,喜爱”,常用于有礼貌地提出邀请、请求或建议。例如: I would like to drop maths. ( JB III, L12 )(我想放弃数学。) Would you like to come to supper? ( JB II, L21 ) (你愿意来吃晚饭吗?) 3. 当主语是第一人称时, would 可与 should 换用,它们都可以缩写为 "d ,并且 like 也可换成 love .例如: I"m sure he would love to come. ( JB II, L69 )(我确信他愿意来。) I should like the red one. (我想要红色的。) 4. “ would like ”后面可以用动词不定式作宾语补足语。例如: What would you like me to do? ( JB II, L45 ) I"d like you to meet my parents, too. ( JB II, L9 )(我想要你也见见我的父母。) 句型:would like to do i"d like to go to EXPO this weekend . 周末我想去看世博。
2023-07-17 04:55:181

寓意和谐音与shawn相似的英文名

SamShane Shannon
2023-07-17 04:55:172

GCAN:可解释的社交媒体假新闻检测方法

目前假新闻检测问题仍然存在一些重要的挑战。比如: ①目前的一些方法要求文档为长文本,以便于能够更好地学习词和句子的表示。然而社交媒体上的一些推文大多是短文本,这就导致了一些数据稀疏性问题。 ②一些SOTA的方法要求收集大量的用户评论,然而大多数用户仅仅是简单地转发推文而并不留下任何评论。 ③一些研究认为社交网络中的信息扩散(即retweet)路径有助于错误信息的分类,从而学习基于树的传播结构的表示。然而,由于隐私问题,获取转发的扩散结构往往代价高昂,许多用户选择隐藏或删除社交记录。 ④目前的一些方法缺乏可解释性,不能为支持谣言的可疑用户以及他们在制造谣言时关心的话题提供证据。 本文提出的方法利用源推文的短文本内容、转发用户序列以及用户资料来进行假新闻检测。也就是说本文的方法满足以下设置: ①短文本源推文; ②没有使用用户评论文本; ③没有使用社交网络和扩散网络的网络结构。 此外,我们要求假新闻检测模型具有可解释性,即在判断新闻是否虚假时突出证据。该模型将指出支持传播假新闻的可疑转发者,并突出他们特别关注的源推文中的词。 本文提出一个新的模型,即Graph-aware Co-Attention Network(GCAN)。首先从用户资料和社交互动中提取用户特征,然后使用CNN和RNN来学习基于用户特征的转发传播表示。另外使用图来建模用户之间的潜在交互,并且采用GCN来学习graph-aware的用户交互的表示。同时提出了dual co-attention机制来学习源推文和转发传播之间的相关性,以及源推文和用户交互之间的相互影响。最终利用学习到的embedding来进行假新闻的二分类预测。 1. 问题陈述 是推文的集合, 是用户的集合。每个 都是短文本文档(也叫做源推文)。 表明 由 个单词组成。 中的每个用户 都对应一个用户特征向量 。当一个推文 发布以后,一些用户将会转发 从而形成一个转发记录的序列,这被称为 传播路径 。给定一个推文 ,它的传播路径表示为 , 表明第 个用户(其用户特征向量为 )转发了 ,这里 。转发了 的用户集合记作 ,最先转发 的用户记作 ,转发时间记作 ,其余用户 在时间 转发了 ( )。每个 有一个binary的标签 表明是否是假新闻( 代表 是假新闻)。我们希望能够利用上述数据来利用神经网络模型识别 是否是假新闻,另外,希望模型能够突出能够表明 真实性的一部分用户 和一些推文中的词 。 2. GCAN框架 GCAN主要包括5个部分: ①user characteristics extraction,创建特征来量化用户如何参与在线社交网络; ②new story encoding,生成源推文中单词的表示; ③user propagation representation,使用提取的用户特征建模和表示源推文如何由用户传播; ④dual co-attention mechanisms,捕获源推文和用户交互/传播之间的相关性; ⑤making prediction,通过连接所有学习的表示生成检测结果。 GCAN的架构图如下: 3. 模型 用户 的特征向量 是定义得到的,具体的,包含以下特征: ①用户自我描述的字数; ②用户账户名的字数; ③关注用户 的数量; ④用户关注的人的数量; ⑤用户创建的story数量; ⑥举例用户第一个story经过的时间; ⑦用户的账户是否被验证过; ⑧用户是否允许地理空间定位; ⑨源推文发布时间和用户转发时间的时差; ⑩用户和源推文之间转发路径的长度(如果用户转发源推文则为1)。 最终得到 , 是特征的数量。 给定的源推文将使用一个word-level的encoder进行编码,输入是 中的每一个单词的独热向量。由于每个推文长度都不一样,这里设置 为最大长度,不足 的推文进行zero padding。使用 来表示源推文的独热编码表示, 是词的独热向量,使用一个全连接网络来获得word embedding , 是word embedding的维度,过程是: 然后使用GRU来学习词序列表示,也就是 ,最终得到 。 我们的目的是利用提取的用户特征 以及推文的传播序列来学习用户传播表示。其根本观点是,真实新闻传播中的用户特征与虚假新闻传播中的用户特征是不同的。这里的输入是推文 的转发用户特征向量序列,用 表示, 是选定的固定长度的转发用户数量。如果转发用户数量超过 则截取前 个,如果少于 则从 中重采样直至长度为 。 给定传播序列 ,使用GRU来学习传播表示, ,最终通过平均池化获得传播表示 , 。 采用2D卷积来学习 内特征的相关性,考虑 个连续用户来建模其序列相关性,比如 ,卷积核 的大小就是 ,总共使用 个卷积核,因此最终学习到的表示序列 。 我们的目的是创建一个图来建模转发用户之间潜在的交互,想法是拥有特殊特征的用户之间的相关性对揭示源推文是否是假新闻能够起到作用。每个源推文 的转发用户集合 都被用来构建一个图 。由于用户间的真实交互是不清楚的,因而这个图是全连接的,也就是任意节点相连, 。结合用户特征,每条边 都被关联到一个权重 ,这个权重也就是节点用户特征向量 和 的余弦相似度,即 ,图的邻接矩阵 。 然后使用第三代GCN来学习用户交互表示。给定邻接矩阵 和用户特征矩阵 ,新的 维节点特征矩阵 计算过程为: 是层数, , 是度矩阵, 是第 层的学习参数, 是激活函数。这里 ,实验时选择堆叠两层GCN层,最终学习到的表示为 。 我们认为假新闻的证据可以通过调查源推文的哪些部分是由哪些类型的转发用户关注的来揭开,并且线索可以由转发用户之间如何互动来反映。因此,本文提出了dual co-attention机制,来建模: ①源推文( )与用户传播embedding( )之间以及 ②源推文( )与graph-aware的交互embedding( )之间 的相互作用。通过dual co-attention的注意力权重,模型可以具有可解释性。 首先计算一个相似性矩阵 : 这里 是一个 的参数矩阵。接着按照以下方式得到 和 : 这里 ,这里的 和 可以看做在做user-interaction attention空间和source story word attention空间的转换。接下来得到attention的权重: 这里 , 是学习的参数。最后可以得到源推文和用户交互的attention向量: 和 描述源推文中的单词是如何被用户参与互动的。 按照上述类似过程生成 和 的attention向量 和 。 注意基于GRU的传播表示没有用来学习与 的交互。这是因为对于假新闻的预测来说,转发序列的用户特征能够起到重要的作用。因此本文采用基于GRU和CNN的两种方式来学习传播表示,其中基于CNN的传播表示被用来学习与 的交互,基于GRU的传播表示在进行最终预测时用作最终分类器的直接输入。 最终使用 来进行假新闻检测: 损失函数采用交叉熵损失。 对比了多项baseline的结果,效果有明显的提升: GCAN也可以用于假新闻早期的检测,也就是在转发用户不多的时候进行检测,实验改动了使用的转发用户数量来进行验证: 另外移除了一部分组件进行了消融实验,图中-A,-R,-G,-C分别代表移除dual co-attention,基于GRU的表示,graph-aware的表示和基于CNN的表示: -S-A代表既没有源推文embedding也没有dual co-attention,由于源推文提供了基本线索,因此-S-A有一个明显的性能下降。 source-propagation co-attention学习到的attention权重可以用来为预测假新闻提供证据,采用的方式就是标识出源推文中的重要的词和可疑的用户。注意,我们不考虑source-interaction Co-attention的可解释性,因为从构造的图中学到的用户交互特征不能直观地解释。 下图是根据对源推文中的attention权重绘制的两个例子的词云(权重越大,词云中的词就越大): 图中结果满足常识,也就是假新闻倾向于使用戏剧性和模糊的词汇,而真实新闻则是被证实和核实事实的相关词汇。 另外我们希望利用传播中的转发顺序来揭示假新闻与真新闻的行为差异。下图采集并展示了三个假新闻和三个真新闻的传播序列attention的权重: 结果表明,要确定一个新闻是否虚假,首先应该检查早期转发源推文的用户的特征。假新闻的用户attention权重可能在传播过程中均匀分布。 source-propagation co-attention可以进一步解释可疑用户的特征及其关注的词语,举例如下图: 可以发现,可疑用户在转发传播中的特征有: ①账号未被验证; ②账号创建时间较短; ③用户描述长度较短; ④距发布源推文用户的图路径长度较短。 他们高度关注的词是“breaking”和“pipeline”这样的词。我们认为这样的解释有助于解读假新闻的检测,从而了解他们潜在的立场。
2023-07-17 04:55:141