unicode与汉字编码有什么关系

36811662022-10-04 11:39:541条回答

已提交,审核后显示!提交回复

共1条回复
ollavi 共回答了25个问题 | 采纳率84%
unicode.org制定的编码机制,要将全世界常用文字都函括进去.
在1.0中是16位编码,由U+0000到U+FFFF.每个2byte码对应一个字符; 在2.0开始抛弃了16位限制,原来的16位作为基本位平面,另外增加了16个位平面,相当于20位编码,编码范围0到0x10FFFF.
1年前

相关推荐

“腔”字的拼音问题.“腔”字有kòng这个音么?除了Unicode:U 8154 :CJK UNIFIED IDEOGR
“腔”字的拼音问题.
“腔”字有kòng这个音么?除了Unicode:U 8154 :CJK UNIFIED IDEOGRAPH-8154 :kòng,qiāng 这句有登记一个kòng以外,根本找不到这个读音的用途、出处甚至标记.
lxlixuan1年前5
beck1012 共回答了11个问题 | 采纳率81.8%
腔拼音:qiāng ⑴ 注音:ㄑㄧㄤˉ ⑵ (~儿)动物身体中空的部分:~子、体~、满~热血. ⑶ 器物的中空部分:炉~. ⑷ 乐曲的调子:~调(diào)、唱~、梆子~. ⑸ 说话的声音、语调:开~、京~、装~作势、拿~拿调. ⑹ (~儿)说话的腔调:京~、山东~、学生~ ⑺ 量词,用于宰杀过的羊(多用于早期白话):一~羊 ⑻ 郑码:QWBI,U:8154,GBK:C7BB,五笔:EPWA ⑼ 笔画数:12,部首:月,笔顺编号:351144534121
为什么 ^[\\u4E00-\\u9FA5\\uF900-\\uFA2D\\w]*$ 中汉字的unicode编码正则表达
为什么 ^[\u4E00-\u9FA5\uF900-\uFA2D\w]*$ 中汉字的unicode编码正则表达式是两个区间?
为什么是两个不连续的区间呢?其他表示什么呢.
\u4E00-\u9FA5和\uF900-\uFA2D分别表示什么.
qxzxdn1年前1
逍遥麟子 共回答了20个问题 | 采纳率85%
嘿,不止这么简单,问题之纠结在于什么叫汉字,多大规模的,以前回答过类似的问题,参考一下吧.
关于unicode集合中的汉字,若干子区间如下定义:
03007 1 汉字“〇”
03400~04DB5 6582 ExtA 连续
04E00~09FCB 20940 基本集 连续,但9FBC~9FCB暂无字形
0E815~0E864 80 自定义区 连续,这些字符有两个unicode编码
0F900~0FAD9 470 兼容集 有洞,且[FA2E,FA2F,FA6E,FA6F]暂无字形
20000~2A6D6 42711 ExtB 连续
2F800~2FA1D 542 兼容补遗 连续
2A700~2B734 4149 ExtC 连续
2B740~2B81D 222 ExtD 连续
已知汉字"大"的UNICODE代码点是U+5927,则其UTF-8编码的3字节序列用十六进制表示为?
懒猫--木子1年前1
zjd831206 共回答了20个问题 | 采纳率95%
楼主,您好:
按照unicode转utf-8的编码规则,汉字使用3字节序列
所以套用三字节转换公式
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
其中用x代表的16位使用unicode相应的位来填充
0x5927转换为2进制0101 1001 0010 0111
填充到上面公式中的x中变成
11100101 10100100 10100111
用16进制表示为E5 A4 A7
验证方法为:
在浏览器地址栏中输入javascript:alert(encodeURI('大').replace(/%/g,'')),按回车
请问:通常我们说的,一个汉字在微机中储存时占2个字节,西文字符占一个字节.但Unicode编码是时,.
请问:通常我们说的,一个汉字在微机中储存时占2个字节,西文字符占一个字节.但Unicode编码是时,.
但Unicode编码是时,.汉字,字母都是两个字节,这该如何理解?
acocoqin1年前1
小二无名 共回答了13个问题 | 采纳率76.9%
unicode编码字符时会有一个空格占了一个字节
Unicode到UTF-8的转换:求解,这个过程的最后一步看不懂了
Unicode到UTF-8的转换:求解,这个过程的最后一步看不懂了
Unicode符号范围(十六进制) UTF-8编码方式(二进制)
0000 0000 ~ 0000 007F 0xxxxxxx
0000 0080 ~ 0000 07FF 110xxxxx 10xxxxxx
0000 0800 ~ 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000 ~ 0010 FFFF 1110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以“严”字为例,演示如何实现UTF-8编码。
已知“严”字的unicode编码是4E25(1001110 00100101),根据上表可知4E25处在第三行的范围内(0000 0800-0000 FFFF),因此“严”字的UTF-8编码需要三个字节,即格式为“1110xxxx 10xxxxxx 10xxxxxx”。然后,【从“严”字的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0】。这样就得到了“严”字的UTF-8编码“11100100 10111000 10100101”,转换成十六进制就是E4B8A5,转换成十六进制的目的是方便阅读。
填入x?咋填呀?用什么填?用“严”字的Unicode的二进制编码向UTF-8的二进制编码填?我这么填和给的结果也对不上呀,求解
8112251年前1
游荡于网际 共回答了11个问题 | 采纳率100%
1: UTF stands for UCS Transformation Format, where UCS stands for Universal Character Set.
2:utf-8 是unicode 这种编码的储存格式(以一到三个字节“存放”一个字符--理论上可以达到六个)
3: unicode 是编码。Unique, Universal, and Uniform character encoding--它在概念上与ISO 10646标准相对应 (目前版本UCS-2以两字节‘描述’一个字符)
4: 根据上面所述:可以根据unicode/UCS-2的编码特性(与ASCII编码在字面上“相等”)得知将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00。反之去处0x00。
5:而一个unicode格式的文本要转为utf-8格式的文本,那么根据下图所示:
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
==================================================================
以上是对一些概念的阐述,
而下面这几个语句/表达式的解释:
Java的字符类型采用的是Unicode编码方案,每个Unicode码占用____个比特位.A、8 B、16 C、32
Java的字符类型采用的是Unicode编码方案,每个Unicode码占用____个比特位.A、8 B、16 C、32 D、64
139659854331年前1
八中 共回答了15个问题 | 采纳率100%
在java中一个unicode占2个字节(byte).
一个字节等于8比特位(bit).
所以每个Unicode码占用 16 个比特位.
故答案选择B.
hibernate报错 jdbc:mysql://localhost/xpr?useUnicode=true&chara
hibernate报错

jdbc:mysql://localhost/xpr?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true

该怎样该?
58866551年前1
hj11223344 共回答了17个问题 | 采纳率88.2%
什么错...
跟你讲个很简单的原理
spring管理Hibernate的sessionfactory
然后对应的dao类注入到spring里就行了..
其实很简单的..你看看是不是你的spring配置文件里.创建sessionfactory的那个bean的value没有正确的指向hibernate的配置文件
英语翻译The objective of this technique is to use Unicode right-
英语翻译
The objective of this technique is to use Unicode right-to-left marks and left-to-right marks to override the HTML bidirectional algorithm when it produces undesirable results.This may be necessary,for instance,when placing neutral characters such as spaces or punctuation between different directional text runs.The concepts used in this technique are described in What you need to know about the bidi algorithm and inline markup.
The character entities for these markers are
• left-to-right mark:‎ or ‎ (U+202A)
• right-to-left mark:‏ or ‏ (U+202B)
djs6881年前1
suping815 共回答了17个问题 | 采纳率82.4%
客观的这种技术是使用Unicode的右至左标志和左到右标志,以压倒的HTML双向算法时,它产生的不良后果.这可能是必要的,例如,当把中立的角色,比如空格或标点符号之间不同的定向文本背道而驰.该所使用的概念,在这种技术是在描述什么,你需要了解的有关碧地烟算法和内嵌标记.
性格实体,为这些标志物是
•左到右标志:或( u 202一)
•右至左标志:或( u 202乙)