barriers / 阅读 / 详情

python unicode麻烦帮我按句解释下,unicode()函数作用到底是什么?

2023-07-28 20:04:02
共1条回复
再也不做稀饭了

UNICODE函数wei 预先编写的公式,可以对一个或多个值执行运算,并返回一个或多个值。函数可以简化和缩短工作表中的公式,尤其在用公式执行很长或复杂的计算时的公式语法和用法。如果文本包含部分代理项或数据类型无效,则UNICODE返回错误值#VALUE!。

Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。

因为Python的诞生比Unicode标准发布的时间还要早,所以最早的Python只支持ASCII编码,普通的字符串ABC在Python内部都是ASCII编码的。


unicode是什么


扩展资料

Unicode为了解决传统的字符编码方案的局限而产生的,例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。

很多传统的编码方式都有一个共同的问题,即容许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。

Unicode编码包含了不同写法的字,如“ɑ/a”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议。

参考资料来源:百度百科-Unicode

参考资料来源:百度百科-UNICODE 函数

相关推荐

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。主要内容为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
2023-07-27 04:05:441

unicode汉语翻译是什么意思

答案是统一码
2023-07-27 04:06:022

Unicode是什么_unicode是什么格式的文件

Unicode也就是统一码。统一码,也叫万国码、单一码(Unicode)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式发布1.0版本,2020年发布13.0版本。统一码的特点:Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode5.0.0版本中,已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区(PrivateUseArea),分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。平面0也有一个专用区:0xE000-0xF8FF,有6400个码位。平面0的0xD800-0xDFFF,共2048个码位,是一个被称作代理区(Surrogate)的特殊区域,代理区的目的用两个UTF-16字符表示BMP以外的字符。
2023-07-27 04:06:091

unicode是什么意思

统一码
2023-07-27 04:06:193

Unicode详解

字符编码的问题,每个程序员都会遇到,深入探索其背后的原理和机制,能让我们少走很多弯路。 Unicode ( 万国码 、 国际码 、 统一码 、 单一码 )是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。 Unicode发展由非营利机构统一码联盟负责,该机构致力于让Unicode方案替换既有的字符编码方案。因为既有的方案往往空间非常有限,亦不适用于多语环境。 统一码联盟在1991年首次发布了 The Unicode Standard 。 在2005年,Unicode的第十万个字元被引入成为标准之一,该字元被用于马拉雅拉姆语。 目前实际应用的统一码版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示2的16次(即65536)个字符。基本满足各种语言的使用。实际上当前版本的统一码并未完全使用这16位编码,而是保留了大量空间以作为特殊使用或将来扩展。 最新(但未实际广泛使用)的统一码版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与UCS-4保持一致。未来版本会涵盖UCS-4的所有字符。UCS-4是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示2的31次方个字符,完全可以涵盖一切语言所用的符号。 通用字符集 (Universal Character Set)是由ISO制定的 ISO 10646 (或称 ISO/IEC 10646 )标准所定义的标准字符集。 通用字符集包括了其他所有字符集。它保证了与其他字符集的双向兼容,即,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。 UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的方块文字,UCS还包括大量的图形、印刷、数学、科学符号。 ISO/IEC 10646定义了一个31位的字符集。 并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO 10646指定了如下三种实现级别: 历史上存在两个独立的尝试创立单一字符集的组织,即: 1、国际标准化组织(ISO)于1984年创建的ISO/IEC 2、统一码联盟 统一码联盟和ISO/IEC都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。 Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。 Unicode的实现方式称为 Unicode转换格式 (Unicode Transformation Format,简称为 UTF )。 前面说到,Unicode采用2个字节来编码文件,但是如果一个仅包含7位ASCII字符的Unicode文件,每个字符使用2字节就浪费了一般的存储空间,其第一字节的8位始终为0,这是难以忍受。对于这种情况,可以使用UTF-8编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。 问题来了,UTF-8变长编码格式的出现是为了节省存储空间,变长导致了UTF-8的兼容性相应降低。 类似的,对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符,2字节编码的UTF-16也需要通过一定的算法进行转换。 也就是说,UTF-16是为未来准备的变长编码格式。 还有就是,在Mac和普通PC上,对于字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如某字符为十六进制编码4E59,按两个字节拆分为4E和59,在Mac上读取时是从低字节开始,那么在Mac OS会认为此4E59编码为594E,找到的字符为“奎”,而在Windows上从高字节开始读取,则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”,在Mac OS环境下打开会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆。 于是在UTF-16编码实现方式中使用了 大端序 (Big-Endian,简写为UTF-16 BE)、 小端序 (Little-Endian,简写为UTF-16 LE)的概念,以及可附加的字节顺序记号解决方案,目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。 在Windows XP附带的记事本,“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI(对于英文系统即ASCII编码),中文系统则为GB2312或Big5外,其余三种为“Unicode”(对应UTF-16 LE)、“Unicode big endian”(对应UTF-16 BE)和“UTF-8”。 UTF-8,是我们最经常看到的编码格式之一。前面已经简单介绍过,这是一种变长编码格式,变长的目的是节省存储空间。 UTF-8使用一至六个字节为每个字符编码(2003年11月UTF-8被RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四个字节)。 下面介绍其编码规则: 1、128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。 2、带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文等则需要两个字节编码(Unicode范围由U+0080至U+07FF)。 3、其他基本多文种平面(BMP)中的字元(这包含了大部分常用字,如大部分的汉字)使用三个字节编码(Unicode范围由U+0800至U+FFFF)。 4、其他极少使用的Unicode 辅助平面的字元使用四至六字节编码。(Unicode范围由U+10000至U+1FFFFF使用四字节,Unicode范围由U+200000至U+3FFFFFF使用五字节,Unicode范围由U+4000000至U+7FFFFFFF使用六字节)。 对上述提及的第四种字元而言,UTF-8使用四至六个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字元都可以用三个字节表示,而且它的另一种选择,UTF-16编码,对前述的第四种字符同样需要四个字节来编码,所以要决定UTF-8或UTF-16哪种编码比较有效率,还要视所使用的字元的分布范围而定。 下面来看看UTF-8具体怎么编码各种类型的字符: 1、单字节编码,字节由零开始:0zzzzzzz。(z取值0或1,下同) 2、两字节编码:(110yyyyy 10zzzzzz)第一个字节由110开始,接着的字节由10开始 3、三字节编码:(01110xxxx10yyyyyy 10zzzzzz)第一个字节由1110开始,接着的字节由10开始。 4、四字节编码:(11110www 10xxxxxx 10yyyyyy 10zzzzzz)将由11110开始,接着的字节由10开始 UTF-16 是Unicode字符编码五层次模型的第三层:字符编码表。即把Unicode字符集的抽象码位映射为16位长的整数,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 Unicode的编码空间从U+0000到+10FFFF,共有1,112,064个码位(code point)可用来映射字符. Unicode的编码空间可以划分为17个平面(plane),每个平面包含216(65,536)个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF,其中xx表示十六进制值从0016到1016,共计17个平面。第一个平面称为 基本多语言平面 (Basic Multilingual Plane, BMP ),或称第零平面(Plane 0)。其他平面称为 辅助平面 (Supplementary Planes)。基本多语言平面内,从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。 分平面来介绍UTF-16的实现方式: 1、第一个Unicode平面(码位从U+0000至U+FFFF)包含了最常用的字符。该平面被称为基本多语言平面,缩写为 BMP (Basic Multilingual Plane, BMP)。UTF-16与 UCS-2 编码这个范围内的码位为16比特长的单个码元,数值等价于对应的码位. BMP中的这些码位是仅有的可以在UCS-2中表示的码位. 2、辅助平面(Supplementary Planes)中的码位,在UTF-16中被编码为 一对 16比特长的码元(即32bit,4Bytes),称作 代理对 (surrogate pair),具体方法是: 算法可理解为:辅助平面中的码位从U+10000到U+10FFFF,共计FFFFF个,即220 =1,048,576个,需要20位来表示。如果用两个16位长的整数组成的序列来表示,第一个整数(称为前导代理)要容纳上述20位的前10位,第二个整数(称为后尾代理)容纳上述20位的后10位。还要能根据16位整数的值直接判明属于前导整数代理的值的范围(210=1024),还是后尾整数代理的值的范围(也是210 =1024)。因此,需要在基本多语言平面中保留不对应于Unicode字符的2048个码位,就足以容纳前导代理与后尾代理所需要的编码空间。这对于基本多语言平面总计65536个码位来说,仅占3.125%. 3、Unicode标准规定U+D800..U+DFFF的值不对应于任何字符. 参考资料: https://zh.wikipedia.org/wiki/Unicode https://zh.wikipedia.org/wiki/UTF-8 https://zh.wikipedia.org/wiki/UTF-16
2023-07-27 04:06:261

通俗的讲,什么是unicode?

通俗、简单地说,Unicode是一种计算机的字符编码,通过它统一、唯一的编码规则,可以在计算机上表示出不同国家的文字和字符,它所涵盖的字符集,称为Unicode字符集。
2023-07-27 04:06:352

什么是unicode编码

一种字符编码。它为每种语言中的每个字符设定了唯一的二进制编码,以满足跨语言和跨平台进行文本转换及处理的要求
2023-07-27 04:06:442

什么叫 “Unicode格式 字符” ??

UTF8 == Unicode Transformation Format -- 8 bit是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。UTF8流的转换程序:Input: unsigned integer c - the code point of the character to be encoded (输入一个unicode值)Output: byte b1, b2,b3, b4 - the encoded sequence of bytes (输出四个BYTE值)Algorithm(算法): if (c<0x80) b1 = c>>0 & 0x7F | 0x00 b2 = null b3 = null b4 = null else if (c<0x0800) b1 = c>>6 & 0x1F | 0xC0 b2 = c>>0 & 0x3F | 0x80 b3 = null b4 = null else if (c<0x010000) b1 = c>>12 & 0x0F | 0xE0 b2 = c>>6 & 0x3F | 0x80 b3 = c>>0 & 0x3F | 0x80 b4 = null else if (c<0x110000) b1 = c>>18 & 0x07 | 0xF0 b2 = c>>12 & 0x3F | 0x80 b3 = c>>6 & 0x3F | 0x80 b4 = c>>0 & 0x3F | 0x80 end if =====================unicode 是一种编码表格,例如,给一个汉字规定一个代码。类似 GB2312-1980, GB18030等,只不过字集不同。=====================一个unicode码可能转成长度为一个BYTE,或两个,三个,四个BYTE的UTF8码,取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送,比送unicode两个BYTEs快。UTF8是为传送unicode而想出来的“再编码”方法罢了。UTF8转unicode用我上面给的程序反算即可。
2023-07-27 04:06:543

unicode是什么?uncode是什么?两者有什么关系?

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。uncode是一家baas服务商,全名是Uncode移动后端云两者没什么太大的关系吧,一个是字符编码格式,一个是移动后端服务商。
2023-07-27 04:07:021

Unicode字符是指?

Unicode是一个工业标准。提出Unicode的目的是为了能够用一致的方式表示所有地球语言所包含的文本和符号,从而能够被计算机以一致的方式进行处理。Unicode字符能够用任何一种叫做UnicodeTransformationFormats的方案进行编码。平时说的UTF-8、UTF-16、UTF-32等,是Unicode的具体的字符编码方式。
2023-07-27 04:07:201

unicode编码是什么意思

世界上存在着多种编码方式,同1个二进制数字可以被解释成不一样的符号。因此,要想打开(OPEN)1个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为啥电子email常常出现乱码?就是由于发信人和收信人用的编码方式不一样。可以想象,假如有一种编码,将世界上全部的符号都纳入其中。每1个符号都给予1个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种全部符号的编码。历史上存在2个试图独立设计Unicode的组织,即国际标准化组织(ISO)和1个软件制造商的协会(unicode.org)。ISO开发了ISO10646项目,Unicode协会开发了Unicode项目。在1991年前后,双方都认识到世界不要2个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立1个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO10646-1相同的字库和字码。目前2个项目仍都存在,并独立地公布各自的标准。Unicode协会目前的最新版本是2005年的Unicode4.1.0。ISO的最新标准是10646-3:2003。Unicode是1个很大的集合,目前的规模可以容纳100多万个符号。每一个符号的编码都不一样,例如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E00表示汉字"一"。具体的符号对应表,可以查找unicode.org,或专门的汉字对应表。Unicode的问题要注意的是,Unicode只是1个符号集,它只规定了符号的二进制代码,却木有规定这个二进制代码应当怎么存储。例如,汉字"一"的unicode是十六进制数4E00,转换成二进制数足足有15位(100111000000000),也就是说这个符号的表示至少要2个字节。而表示其他更大的符号,可能要3个字节或4个字节,甚至更多。这里就有2个的问题,1个是,怎么才可以区别unicode和ascii?计算机怎麽知道三个字节表示1个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用1个字节表示就够了,假如unicode统一规定,每一个符号用三个或四个字节表示,那么每一个英文字母前都必然有二到三个字节是0,这对于存储空间来说是极大的浪费,文本文件的大小会因此大出二三倍,这是难以接受的。它们造成的直接结果是:出现了unicode的多种存储方式,也就是说有许多种不一样的二进制格式,可以用来表示unicode。另外unicode在很长一段时间内没方法推广,直到互联网的出现。网络(互联网)上流行的utf-8就是unicode编码的一类应用.怎么查找Unicode编码在Windows系统(System)下,你可以在运行栏输入"eudcedit.exe"调出使用TrueType造字程序,在其中的窗口--参照页,在"代码"栏输入Unicode编码可以查找到相应的字符;在"形状"栏输入字符则可以查找到相应的Unicode编码。
2023-07-27 04:07:304

什么是ASCII码和Unicode码?

分类: 电脑/网络 >> 软件 解析: 目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。 因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以表示(22)=4种状态:00、01、10、11;依次类推,7位二进制数可以表示(27=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。 第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等; 通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;第33~126号(共94个)是字符,其中第48~57号为0~9十个 *** 数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。 注意:在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。 Unicode码:Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。
2023-07-27 04:07:461

什么是unicode big endion编码

什么是 Unicode?历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.Unicode vs ISO 10646Unicode 协会公布的 Unicode 标准 严密地包含了 ISO 10646-1 实现级别3的基本多语言面. 在两个标准里所有的字符都在相同的位置并且有相同的名字.Unicode 标准额外定义了许多与字符有关的语义符号学, 一般而言是对于实现高质量的印刷出版系统的更好的参考. Unicode 详细说明了绘制某些语言(比如阿拉伯语)表达形式的算法, 处理双向文字(比如拉丁与希伯来文混合文字)的算法和 排序与字符串比较 所需的算法, 以及其他许多东西.另一方面, ISO 10646 标准, 就象广为人知的 ISO 8859 标准一样, 只不过是一个简单的字符集表. 它指定了一些与标准有关的术语, 定义了一些编码的别名, 并包括了规范说明, 指定了怎样使用 UCS 连接其他 ISO 标准的实现, 比如 ISO 6429 和 ISO 2022. 还有一些与 ISO 紧密相关的, 比如 ISO 14651 是关于 UCS 字符串排序的.考虑到 Unicode 标准有一个易记的名字, 且在任何好的书店里的 Addison-Wesley 里有, 只花费 ISO 版本的一小部分, 且包括更多的辅助信息, 因而它成为使用广泛得多的参考也就不足为奇了. 然而, 一般认为, 用于打印 ISO 10646-1 标准的字体在某些方面的质量要高于用于打印 Unicode 2.0的. 专业字体设计者总是被建议说要两个标准都实现, 但一些提供的样例字形有显著的区别. ISO 10646-1 标准同样使用四种不同的风格变体来显示表意文字如中文, 日文和韩文 (CJK), 而 Unicode 2.0 的表里只有中文的变体. 这导致了普遍的认为 Unicode 对日本用户来说是不可接收的传说, 尽管是错误的.UTF-8首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个 或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 "" 或 "/", 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.UTF-8 有一下特性:UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.可以编入所有可能的 231个 UCS 代码UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.Bigendian UCS-4 字节串的排列顺序是预定的.字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.U-00000000 - U-0000007F: 0xxxxxxxU-00000080 - U-000007FF: 110xxxxx 10xxxxxxU-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxxU-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxU-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxU-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxxxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:11000010 10101001 = 0xC2 0xA9而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:11100010 10001001 10100000 = 0xE2 0x89 0xA0这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.
2023-07-27 04:07:541

unicode有什么用?

统一编码,方便跨平台应用.
2023-07-27 04:08:022

unicode文本文件和文本文件有什么区别

unicode文本是用unicode编码写成的文本。普通文本是用英文ASCII编码写成的文本。unicode用16位码,ASCII用7位码,编码涵义,各有各的定义。汉字国标码GB虽然也是16位码,但编码涵义与unicode完全不同。unicode文本除用16位码外还要有一定的结构,用来区分语种的开始结束。显示unicode文本,除须显示软件外,还要有相应的某国语言的 unicode font(字体文件)。
2023-07-27 04:08:091

编码格式“”是什么格式?是Unicode吗?怎么转换?

我说一个办法 不知道可不可以啊 因为我也不怎么懂 o(∩_∩)o...  我想把word文字复制到“文本文档”应该是txt的 然后再“另存为” 我是用的是vista系统在“另存为”里会出现一个编码的选项 里面就有Unicode  然后选它就好了,我不知道其他的系统可不可以用,我是这么弄得 呵呵o(∩_∩)o... 下面的东西是我copy别人的你可以看看,但好像不怎么解决问题o(∩_∩)o...Unicode格式的最初目标。是用1个16位的编码来为超过65000字符提供映射。但这还不够。它不能覆盖全部历史上的文字。也不能解决传输的问题(implantation¤ead-ache&#39;s)。尤其在那些基于网络的应用中。因此。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-85195UTF-16和UTF-32517正如名字所示。在UTF-8中。字符是以8位序列来编码的739用一个或几个字节来表示一个字符。这种方式的最大好处。是UTF-8保留了ASCII字符的编码做为它的一部分。例如。在UTF-8和ASCII中。“A”的编码都是0x41.UTF-16和UTF-32分别是Unicode的16位和32位编码方式。考虑到最初的目的。通常说的Unicode就是指UTF-16。 其实 我也不怎么懂 等我弄懂了告诉你呗 可能到那时候 早就有答案了 o(∩_∩)o...哈哈
2023-07-27 04:08:172

u是什么意思?

u则代表unicode编码,是一个字符。HTTP协议基于文本传输,字符编码将文本变为二进制,二进制编码将二进制变为文本。TCP 协议基于二进制传输,数据读取时需要处理字节序。本文将介绍常见的字符编码、二进制编码及字节序,并一探Golang中的实现。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。全世界共使用5651种语言,其中使用人数超过5000万的语言有13种,每种语言有自己的字符。汉语中,一个汉字就是一个字符。英语中,一个字母就是一个字符。编码格式编码又称代码,是用预先规定的方法。将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。它在电子计算机,电视遥控和通讯等方面广泛使用。常见的编码格式有ASCII、ANSI、GBK、GB2312、UTF-8,GB18030和UNICODE等。对应的编码规则有单字节字符编码,ANSI编码和UNICODE编码等。编码是依据预先规定的标准将某一对象信息变成计算机可识别的数码,因此没有规定标准的编码方法就有这些独立的、不统一的编码规则实现的程序将不具兼容性,易出现如乱码等由于编码格式一致或不兼容引起的问题。
2023-07-27 04:08:241

什么是Unicode

相关学习视频:Unicode字符集
2023-07-27 04:08:404

Unicode中文,日文,韩文,西欧语言等的编码区间是什么?

Unicode中文,日文,韩文,西欧语言等的编码区间是4E00-9FBF:CJK统一表意符号(CJKUnifiedIdeographs)0000-007F:C0控制符及基本拉丁文(C0ControlandBasicLatin)0080-00FF:C1控制符及拉丁文补充-1(C1ControlandLatin1Supplement)0100-017F:拉丁文扩展-A(LatinExtended-A)0180-024F:拉丁文扩展-B(LatinExtended-B)0250-02AF:国际音标扩展(IPAExtensions)02B0-02FF:空白修饰字母(SpacingModifiers)0300-036F:结合用读音符号(CombiningDiacriticsMarks)0370-03FF:希腊文及科普特文(GreekandCoptic) MicrosoftWord。代码单元: 在每种编码形式中,代码点被映射到一个或多个代码单元。“代码单元”是各个编码方式中的单个单元。代码单元的大小等效于特定编码方式的位数。UTF-8 :UTF-8 中的代码单元由 8 位组成,在 UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元。UTF-16 :UTF-16 中的代码单元由 16 位组成,UTF-16 的代码单元大小是 8 位代码单元的两倍。所以,标量值小于 U+10000 的代码点被编码到单个代码单元中。UTF-32:UTF-32 中的代码单元由 32 位组成, UTF-32 中使用的 32 位代码单元足够大,每个代码点都可编码为单个代码单元。GB18030:GB18030 中的代码单元由 8 位组成。在 GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。
2023-07-27 04:08:591

电脑设置开机密码时的插入unicode控制字符什么意思

标的字体。那么那些字体包含国际音标呢? 在微软的Windows与Office的2000或以上版本中分别带有Lucida Sans Unicode和Arial Unicode MS两种字体(以下分别简称LSU和AUM),它们包含了1993年的《国际音标表》上所有音标和附加符号(逾两百个)。有些文章提到过金山软件(WPS、词霸)中的Kingsoft Phonetic Plain(以下简称KPP)。其实它只包含了一小部分国际音标,仅仅满足了英语和法语的教学需求。对于研究学习其它语言(包括汉语诸方言)的师生来说,根本不够用。以往他们会用IpaPanADD、Zcunsil、SILDoulosIPA等字体,但它们(还有KPP)的音标实际上都是占用了ASCII码中的拉丁字母等字符的位置,文档在交流过程中极易变成乱码。而LSU和AUM中的音标用的是Unicode编码,无此后顾之忧。 输入方法 一、用Windows中的字符映射表插入。点击“开始”→“程序”→“系统工具”→“字符映射表”,“字体”中选择AUM或LSU(当然也可以选择上述其它字体)。 提示:别忘了打开“高级查看”,在“字符集”中选择“Unicode”,再在“分组”中选择“Unicode子范围”(音标字符在“拉丁文”组,附加符号在“空格调整字符”组和“组合变音标记”组)。(图一) 二、用金山文字的“国际音标对象集”插入。点击“插入”→“符号”→“国际音标”。 提示:这个对象集是为英语设的,然而它与现今主流教材、词典所用音标有一定的出入。 三、用MS Word“插入符号”插入。点击“插入”→“符号”,“字体”中选择AUM或LSU,再选择子集。 提示:Word及下面要讲到的输入板中的子集要比字符映射表中分得细一点。 四、用Windows xp中的“输入板”。设置步骤如下: 1. 切换到微软拼音输入法; 2. 单击语言栏上的“选项”小三角,然后选中“输入板”,状态条就会出现一个形似笔筒的按钮; 3. 单击该按钮,输入板就跳出来了; 4. 单击输入板左上角,然后单击(不是右击)弹出的“输入板插件菜单”中的“设置”; 5. 添加“Character List (JA)”插件后关闭; 6. 回到输入板,在“编码选项”中选择“Unicode” 7. 在“字体”下拉框中选择AUM或LSU。 以上只是设置过程,以后再要用的话直接单击微软拼音状态条上的“输入板”按钮就行了。 提示:输入板单击所需字符即可插入(比字符映射表和Word还省事),并且可以同时使用键盘输入普通字符。昨天设的 今天右键密码框没用啊 以前xp是可以的 求解怎么弄啊!!
2023-07-27 04:09:071

英文有ASCII编码,汉字有汉字编码,其它国家的文字也有相应的编码,要Unicode码有什么用处?

Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符
2023-07-27 04:09:151

Unicode(utf-8) 是什么意思?

JoshuaChen回答的好~
2023-07-27 04:09:246

在多字节的目标代码页中,没有此 unicode 字符可以映射到的字符.什么意思

在台式计算机上右键查看音乐文件属性,把摘要里面的文字信息都删除掉就可以了.
2023-07-27 04:09:411

unicode是什么格式?

unicode不是格式,他是一种文字编码,和ascII码一样的,只不过他是用几个字节表示能表示世界上大部分的文字
2023-07-27 04:09:482

什么是unicode码,它有什么特点

特点是全世界字基本全包括
2023-07-27 04:09:582

Unicode标准的全称是什么

Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版,ISBN-10: 0321480910)对外发表。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。
2023-07-27 04:10:061

UTF-8,和Unicode是什么关系? UTF-8的全称又是什么?

GB2312的范围比GBK少很多,也就是说所涵盖的中文字符会比GBK格式的少,一旦遇到没办法识别的繁体字或者特殊符号就会乱码。所以一般来说我会选GBK格式来写页面。至于UTF-8嘛,一般我写java的时候才会用到,这种一般适用于大型系统,或者跨语言系统,跨服务器等情况下使用。也就是说国外的ie浏览器也可以直接浏览到中文,而不需要安装中文语言支持包。主要是看你的使用范围,还有就是数据库支持那种编码,这个要跟你数据库的编码对应上来,否则一样会存在乱码的情况。
2023-07-27 04:10:161

什么是GB码、 BIG5码、 Unicode码?

GB码:GB码是1980年国家公布的简体汉字编码方案,在大陆、新加坡得到广泛的使用,也称国标码。国标码对6763个汉字集进行了编码,涵盖了大多数正在使用的汉字。 GBK码:GBK码是GB码的扩展字符编码,对多达2万多的简繁汉字进行了编码,向下与GB码兼容,简体版Windows是使用GBK作系统内码。BIG5码:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用,繁体版Windows是用Big5作系统内码。Unicode码:Unicode码是最新的国际标准编码,采用二个字节 (16-bit) 编码,收入了几乎所有国家的文字符号,适用于所有语言的作业平台,但与ANSI码不兼容,只应用于支援Unicode的程式。Unicode Little Endian普遍用于x86系统(ie. Intel),而 Unicode Big )Endian 普遍用于RISC 系统 (ie. Alpha, Mac)。
2023-07-27 04:10:481

数据库的数据类型中,Unicode数据是什么意思

统一的字符编码标准, 采用双字节对字符进行编码。该类型可用于存储包括中文、日文、韩文等各类语言数据。
2023-07-27 04:10:571

什么是ASCII码和Unicode码?

是国际上定的两种二进制表示方法 ASCII是8位的 表示汉字需要两个字节以前大部分应用都使这种 不过有的时候会有乱码出现 UNICODE是16位的 比较好
2023-07-27 04:11:153

有关于字符集的问题,什么是Unicode,什么是UTF-8

Unicode是一个(编码字符集.n),它对应着一个专门为Unicode编码字符集收录字符的字库表。一个Unicode编码对应着一个Unicode字库表中的字符,可以说一个Unicode编码就是一个字符在Unicode字库表中的序号【在字库表中排在第几个】。(Unicode编码.n)是一个二进制数。Unicode为了到达其包含全世界所有字符的目的,采用了多个字节表示一个字符的规则【四个字节】,一个字节八个位,一个位上可以有0和1两种状态,一个字节就可以有256状态,N个字节就可以256的N次方种状态,每一种状态对应一个二进制的数字,所以多个字节就可以表示更多的字符,进而使得字库表更大。UTF-8是一种字符编码方案,它是对Unicode进行编码(也就是对二进制数字进行编码),字符编码方案将一个二进制数字映射成一个字节序列。为什么要对Unicode进行再编码,因为Unicode是一个定长的(编码字符.n),这样的方式带来的麻烦就是:假设二进制数值00000001是字符A的编码,它本身只需要一个字节就可以存储在计算机内,然而因为Unicode是定长4个字节,所以A得编码变成了00000000 00000000 00000000 00000001存储在计算机内需要四个字节,进而造成非常大的存储开销 ---- 假如一块硬盘本来可以四个字符A,变成了只能存一个字符A。所以既要使用到Unicode的大的字库表,又要节省存储空间,就需要对Unicode再编码,且是根据(Unicode编码.n)内容 不定长编码 --- UTF-8是一种对(Unicode编码.n)的不定长字符编码方案。UTF-8字符编码方案决定了(Unicode编码.n)在计算机内的存储方式。(Unicode编码.n)经过UTF-8字符编码方案编码之后也可以看做是一个新的二进制数字,(通常用十六进制数字字符表示这个新的二进制的值,它们直接的关系是这个十六进制字符表示的值 等于 这个二进制数字的值)。
2023-07-27 04:11:231

非unicode语言是什么

非unicode语言是除Unicode(统一码、万国码、单一码)之外显示的字符编码。Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。多数字符都是这种编码。但由于不同国家和地区采用的字符集不一致,很可能出现无法正常显示所有字符的情况,非Unicode选项作用就是在遇到这种情况时,把非Unicode编码字符按照你选择的语言进行显示。
2023-07-27 04:11:301

word无格式文本和无格式的unicode文本有什么区别

无格式文本指的是 ANSI 标准字符,在中文系统中也支持中文。unicode 文本持更多的字符的显示,文仍是纯文本,没有格式信息。例如你使用无格式文粘贴时,一些希腊语和挪威语里的一些字符就会被转为英文半角问号。使用 unicode 文本粘贴则可以正常显示。
2023-07-27 04:11:391

Unicode 文件名?指的什么是什么?

Unicode文件名其实就是指一些软件,在保存文件时要求使用者选择保存为Unicode格式的文件名称,因为对于一些非Win32的操作系统,比如Linux系统,在识别像中日韩文这样的双字节文件名时会出现乱码的情况,Unicode为这种问题提供了一种全球化的解决方案。
2023-07-27 04:11:461

unicode和utf-8是什么关系

彻底搞定各种编码ASCII、ANSI、GBK、utf
2023-07-27 04:11:544

Unicode 和国标码有什么区别

没有什么关系,GB码国家标准委员会制定的标准,一般的GB码是指GB2312,这是1980年国家制定的标准,也是最早的国家字符集标准。后来为了处理能力的扩展而指定了GBK(国标扩展)码,汉字范围已经增加不少。最新出台(大概去年)的是最新的标准,GB18030。GB,GBK都是双字节编码。GB18030则是一个混合体,包括单字节(0x00-0x7f),双字节(等同于gbk),还有四字节编码(当然这些是非常生僻的汉字)。UNICODE则是一个国际标准(universal code),采用双字节编码,不仅英文字符(包括控制字符)还是汉字都采用双字节编码。其目的在于各国信息的交流,处理上也很方便。(汉字中有一个国家标准叫gb13000,其编码顺序就是和UNICODE兼容的。)
2023-07-27 04:12:041

unicode是什么-

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode给每个字符提供了一个唯一的数字,不论是什么平台、不论是什么程序、不论是什么语言。Unicode是为了解决传统字符编码方案的局限而产生的,为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000 至 0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
2023-07-27 04:12:521

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。主要内容为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。
2023-07-27 04:13:011

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。编码U+0041 A 拉丁字母 A。U+0042 B 拉丁字母 B。U+0043 C 拉丁字母 C。U+0044 D 拉丁字母 D。U+0045 E 拉丁字母 E。U+0046 F 拉丁字母 F。U+0047 G 拉丁字母 G。U+0048 H 拉丁字母 H。
2023-07-27 04:13:161

unicode编码是什么?

Unicode编码是一种字符编码方案。它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。主要内容为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。
2023-07-27 04:13:311

unicode编码是什么?

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。Unicode 编码表BMP SMP SIP SSP0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF3000—3FFF B000—BFFF 23000—23FFF4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF6000—6FFF E000—EFFF 26000—26FFF7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF
2023-07-27 04:13:491

Unicode字符是什么

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。作用:能够使计算机实现跨语言、跨平台的文本转换及处理。层次:Unicode 编码系统,可分为编码方式和实现方式两个层次。
2023-07-27 04:14:104

Unicode字符是什么意思

UNICODE使任何语言的字符都可以为机器更容易的接受,UNICODE由UC(UNICODE协会)管理并接受其技术上的修改。包括JAVA、LDAP、XML这样的技术标准中均要求得到UNICODE的支持。UNICODE的字符被成为代码点(CODE POINTS),用U后面加上XXXX来表示,其中,X为16进制的字符。 对于英文来说,ascii码 0-127就足以代码所有字符,对于中文而言,则必须使用两个字节(byte)来代表一个字符,具第一个字节必须大于127(所以我们有许程序判断中文都是以ascii码大于127作为条件)。以上用两个字节来表示一个中文的方式,在习惯上称为双字节(即DBCS: Double-Byte Character Set),而相对之下,英文的字符码就称为单字节SBCS(Single-Byte Character Set)。 虽然双字节(DBCS)足以解决中英文字符混合使用情况,但对于不同字符系统而言,必须经过字符码转换,非常麻烦。例如:中英文混合情况,日文,韩文等等。为解决这个问题,国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组。针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium。并于1991年10月与WG2达成协议。采用同一编码字集。目前Unicode是采用16位编码体系。其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard)。目前版本V2.0于1996公布。内容包含符号6811个。汉字20902个。韩文拼音11172个。造字区6400个。保留20249个。共计65534个。 随着国际互联网的迅速发展。要求进行数据交换的需求越来越大。不同的编码体系越来越成为信息交换的障碍。而且多种语言共存的文档不断增多。单靠代码页已很难解决这些问题。于是UNICODE应运而生。 UNICODE有双重含义。首先UNICODE是对国际标准ISO/IEC10646编码的一种称谓(ISO/IEC10646是一个国际标准。亦称大字符集。它是ISO于1993年颁布的一项重要国际标准。其宗旨是全球所有文种统一编码)。另外它又是由美国的HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称。成立该集团的宗旨就是要推进多文种的统一编码。 UNICODE同现在流行的代码页最显著不同点在于:UNICODE是两字节的全编码。对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符。还是汉字的高字节。如果发生数据损坏。某处内容破坏。则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符。最明显的好处是它简化了汉字的处理过程。 UNICODE使用平面来描述编码空间。每个平面分为256行。256列。相对于两字节编码的高低两个字节。 UNICODE的第一个平面。称为Basic Multilingual Plane(基本多文种平面)。简称BMP。由于BMP仅用两个字节表示。所以倍受青睐。 Unicode的最初目标。是用1个16位的编码来为超过65000字符提供映射。但这还不够。它不能覆盖全部历史上的文字。也不能解决传输的问题(implantation head-ache"s)。尤其在那些基于网络的应用中。因此。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示。在UTF-8中。字符是以8位序列来编码的。用一个或几个字节来表示一个字符。这种方式的最大好处。是UTF-8保留了ASCII字符的编码做为它的一部分。例如。在UTF-8和ASCII中。“A”的编码都是0x41.UTF-16和UTF-32分别是Unicode的16位和32位编码方式。考虑到最初的目的。通常说的Unicode就是指UTF-16。 多年来。计算机普遍采用美国信息交换标准代码(American Standard Code for Information Interchange,简称ASCII码)来表示字符。这些字符可以是字母。数字。标点符号和控制符。用这种编码来表示英文在内的字符不成问题的。但要表示其它语言文字如。阿拉伯文。中文。日文。维文。哈文…必须进行扩充。在1987年。Xerox Palo Alto研究中心的Joe Becker和Lee Collins。以及Apple公司的Mark Davis试图研究一种适用于多文种处理的字符编码。这种编码很快就得到了许多大公司的支持。这些公司都派代表参加Unicode研究组。Unicode的研究得到了较快的进展。由于Unicode集团的成员都是世界上的主要系统及软件制造商。所以Unicode很快就成为事实上的工业标准。 基于Unicode的系统允许使用65000个不同的字符。足以善盖世界所有语言的所有字母。外加数千种符号。 其中。General Scripts区单独收录了19种语言文字。包括ASCII,Latin1,Greek,Cyrillic,Armenian,Hedrew,Arabic,Devanagari,Bengali ,Gurmukhi,Gujarati,Oriya,Tamil,Telugu,Kannada,Malayalam,Thai,Lao,Tibetan,Georgian等语言文字之外。还包括汉语。日语和朝鲜语中的所有大量字符。 Unicode是一种定长的2B多文种字符集编码。它试图善盖现有的有关国家和地区的标准。包括GB2312,CNS11643,JIS 0208和KSC 5601等。Unicode可以表示混合文字资料。也可以保证以前的ISO 10646。 Unicode的特点是: 不管哪一国的字符码均以两个Byte表示,例如"A"在Unicode则是16进制 41和00的组合,即4100,高位41(转换为Ascii码即是65=A),Windows NT/2000以Unicode来表示字符集,例如你可以看到MS SQL Server中产生的SQL文件可以选择是以Unicode来保存还是以普通格式来保存,如果你以Unicode保存,则在95/98平台许多软件均无法正确读出其格式。 同时你还可以注意到95/98中API定义,许多名称结尾是有一个A的,例如 WriteProfileStringA 而在NT/2000操作系统中,提供了两套API,另外一个命令是WriteProfileStringW,以W 结尾的API只适用于NT / 2000。(在NT中使用以W结尾的API函数效率比A结尾的要快,因为省去了Unicode和DBCS/SBCS的转换过程) 这样我们经常要用到的判断字符串长度的函数,在NT和95/98下执行结果不同,如下:(下面代码适合于VB, ASP) 95/98中: len("abc中国") 返回 7 (因为每个中文作为两个Ascii码来看) NT/2000中: len("abc中国") 返回 5 (因为每个字符都作为一个Unicode来看)
2023-07-27 04:14:281

unicode文本是什么意思

unicode文本是用unicode编码写成的文本。普通文本是用英文ASCII编码写成的文本。unicode用16位码,ASCII用7位码,编码涵义,各有各的定义。汉字国标码GB虽然也是16位码,但编码涵义与unicode完全不同。unicode文本除用16位码外还要有一定的结构,用来区分语种的开始结束。显示unicode文本,除须显示软件外,还要有相应的某国语言的 unicode font(字体文件)。
2023-07-27 04:14:372

QQ密码中的UNICODE码是什么东西?

基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造Unicode之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。 这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。 Unicode正在改变所有这一切! Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。Unicode标准已经被这些工业界的领导们所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,并且,Unicode是实现ISO/IEC 10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。 将Unicode与客户服务器或多层应用程序和网站结合,比使用传统字符集节省费用。Unicode使单一软件产品或单一网站能够贯穿多个平台,语言和国家,而不需要重建。它可将数据传输到许多不同的系统,而无损坏。 关于Unicode学术学会 Unicode学术学会是一个非盈利的组织,是为发展,扩展和推广使用Unicode标准而建立的,Unicode学术学会设立了现代软件产品和标准文本的表示法。学术学会的会员代表了广泛领域的计算机和资讯工业的公司和组织。学术学会只由会员提供资金。Unicode学术学会的会员资格开放给世界上任何支持Unicode标准和希望协助其扩展和执行的组织及个人。 欲知更多信息,请参阅术语词汇表,Unicode产品样本,技术简介和参考资料
2023-07-27 04:14:582

请问高手“要保存Unicode信息,单击下面的取消,然后从编码列表选择一个Unicode选项”是什么意思?

记事本【另存为】新文件时,【编码】中缺省的是“ANSI”,在下拉菜单中选定“unicode”即可。
2023-07-27 04:15:072

arcgis字符标记符号横向剪头的unicode码是什么

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode给每个字符提供了一个唯一的数字,不论是什么平台、不论是什么程序、不论是什么语言。Unicode是为了解决传统字符编码方案的局限而产生的,为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000 至 0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。然而目前只用了少数平面。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
2023-07-27 04:15:131

unicode码是什么?

Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。   Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。从这方面来看,我们已经上路了。Windows NT从底层支援Unicode。   目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。   因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以表示(22)=4种状态:00、01、10、11;依次类推,7位二进制数可以表示(27=)128种状态,每种状态都唯一地编为一个7位的二进制码,对应一个字符(或控制码),这些码可以排列成一个十进制序号0~127。所以,7位ASCII码是用七位二进制数进行编码的,可以表示128个字符。   第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;   通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;   第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。   注意:在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。   Unicode码:Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。
2023-07-27 04:15:281

utf8和unicode编码究竟是什么关系?有何区别

什么是 Unicode?历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.Unicode vs ISO 10646Unicode 协会公布的 Unicode 标准 严密地包含了 ISO 10646-1 实现级别3的基本多语言面. 在两个标准里所有的字符都在相同的位置并且有相同的名字.Unicode 标准额外定义了许多与字符有关的语义符号学, 一般而言是对于实现高质量的印刷出版系统的更好的参考. Unicode 详细说明了绘制某些语言(比如阿拉伯语)表达形式的算法, 处理双向文字(比如拉丁与希伯来文混合文字)的算法和 排序与字符串比较 所需的算法, 以及其他许多东西.另一方面, ISO 10646 标准, 就象广为人知的 ISO 8859 标准一样, 只不过是一个简单的字符集表. 它指定了一些与标准有关的术语, 定义了一些编码的别名, 并包括了规范说明, 指定了怎样使用 UCS 连接其他 ISO 标准的实现, 比如 ISO 6429 和 ISO 2022. 还有一些与 ISO 紧密相关的, 比如 ISO 14651 是关于 UCS 字符串排序的.考虑到 Unicode 标准有一个易记的名字, 且在任何好的书店里的 Addison-Wesley 里有, 只花费 ISO 版本的一小部分, 且包括更多的辅助信息, 因而它成为使用广泛得多的参考也就不足为奇了. 然而, 一般认为, 用于打印 ISO 10646-1 标准的字体在某些方面的质量要高于用于打印 Unicode 2.0的. 专业字体设计者总是被建议说要两个标准都实现, 但一些提供的样例字形有显著的区别. ISO 10646-1 标准同样使用四种不同的风格变体来显示表意文字如中文, 日文和韩文 (CJK), 而 Unicode 2.0 的表里只有中文的变体. 这导致了普遍的认为 Unicode 对日本用户来说是不可接收的传说, 尽管是错误的.UTF-8首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个 或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 "" 或 "/", 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.UTF-8 有一下特性: UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的. 所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分. 表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响. 可以编入所有可能的 231个 UCS 代码 UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长. Bigendian UCS-4 字节串的排列顺序是预定的. 字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到. 下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.U-00000000 - U-0000007F: 0xxxxxxx U-00000080 - U-000007FF: 110xxxxx 10xxxxxx U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:11000010 10101001 = 0xC2 0xA9而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:11100010 10001001 10100000 = 0xE2 0x89 0xA0这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.
2023-07-27 04:15:361

unicode编码是什么意思

世界上存在着多种编码方式,同1个二进制数字可以被解释成不一样的符号。因此,要想打开(OPEN)1个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为啥电子email常常出现乱码?就是由于发信人和收信人用的编码方式不一样。可以想象,假如有一种编码,将世界上全部的符号都纳入其中。每1个符号都给予1个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种全部符号的编码。历史上存在2个试图独立设计Unicode的组织,即国际标准化组织(ISO)和1个软件制造商的协会(unicode.org)。ISO开发了ISO10646项目,Unicode协会开发了Unicode项目。在1991年前后,双方都认识到世界不要2个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立1个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO10646-1相同的字库和字码。目前2个项目仍都存在,并独立地公布各自的标准。Unicode协会目前的最新版本是2005年的Unicode4.1.0。ISO的最新标准是10646-3:2003。Unicode是1个很大的集合,目前的规模可以容纳100多万个符号。每一个符号的编码都不一样,例如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E00表示汉字"一"。具体的符号对应表,可以查找unicode.org,或专门的汉字对应表。Unicode的问题要注意的是,Unicode只是1个符号集,它只规定了符号的二进制代码,却木有规定这个二进制代码应当怎么存储。例如,汉字"一"的unicode是十六进制数4E00,转换成二进制数足足有15位(100111000000000),也就是说这个符号的表示至少要2个字节。而表示其他更大的符号,可能要3个字节或4个字节,甚至更多。这里就有2个的问题,1个是,怎么才可以区别unicode和ascii?计算机怎麽知道三个字节表示1个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用1个字节表示就够了,假如unicode统一规定,每一个符号用三个或四个字节表示,那么每一个英文字母前都必然有二到三个字节是0,这对于存储空间来说是极大的浪费,文本文件的大小会因此大出二三倍,这是难以接受的。它们造成的直接结果是:出现了unicode的多种存储方式,也就是说有许多种不一样的二进制格式,可以用来表示unicode。另外unicode在很长一段时间内没方法推广,直到互联网的出现。网络(互联网)上流行的utf-8就是unicode编码的一类应用.怎么查找Unicode编码在Windows系统(System)下,你可以在运行栏输入"eudcedit.exe"调出使用TrueType造字程序,在其中的窗口--参照页,在"代码"栏输入Unicode编码可以查找到相应的字符;在"形状"栏输入字符则可以查找到相应的Unicode编码。
2023-07-27 04:15:464