计算机储存数字和字符的方法你了解多少?
ztj100 2024-11-24 01:32 22 浏览 0 评论
作者:薛8
来源:https://ddnd.cn/2019/02/16/byte-hex-ascii/
前言
最近在学习中涉及到计算机储存、传输数字和字符等操作,由于对字节、2进制、10进制、16进制、ASCII码的概念以及它们之间的关系和转换理解的不够透彻,导致在通讯、MD5消息摘要算法等时候出现问题,是因为数据转成计算机认识的01的这个环节出现问题。由于这个问题并不是那么容易发现,所以我也算是花了挺多时间才解决了这个问题,记录下解决过程,顺便也当复习一下计算机组成原理。
ASCII码
在计算机中,所有的数据在存储和运算时都要使用二进制数表示(因为计算机用高电平和低电平分别表示1和0),例如,像a、b、c、d这样的52个字母(包括大写)以及0、1等数字还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,当然每个人都可以约定自己的一套(这就叫编码),而大家如果要想互相通信而不造成混乱,那么大家就必须使用相同的编码规则,于是美国有关的标准化组织就出台了ASCII编码,统一规定了上述常用符号用哪些二进制数来表示。
ASCII 码一共规定了128个字符(0000 0000-0111 1111)的编码,比如空格SPACE是32(二进制0010 0000),大写的字母A是65(二进制0100 0001 )。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位(低7位),最前面的一位(高1位)统一规定为0(不要和数字的符号位搞混)。
当然除了ASCII码,还有UTF-8、GBK等。
字节
字节(Byte)普通计算机系统能读取和定位到最小信息单位,即我们通过计算机储存和传输数据的时候都是先把数据转成字节。
字节即Byte,一个字节代表8个比特(Bit),字节通常缩写为B,比特通常缩写为b。字节的大小是8Bit,即字节的范围是0000 0000 - 1111 1111,对于无符号型,它表示的十进制范围是[0,255],对于有符号型,高一位表示符号位,它表示的十进制范围是[-128,127]。
计算机若何储存数据
计算机只认识0和1(因为计算机只有高低电平两个状态),数据要想通过计算机储存或者传输,首先是要把数据转成计算机能认识的格式即01数据。
我们举个例子,以储存十进制数字28和-28为例,首先将十进制数转成二进制。
需要注意的是: 数字在计算机中储存的是补码,而字符是在计算机中储存的是字符对应的编码(不要和数字的补码搞混)。
数字
储存十进制数字28和-28为例,首先将十进制数转成二进制,高1位为0代表正数,为1代表负数
28(10) = 0001 1100(2)(原码)
-28(10) = 1001 1100(2)(原码)
然后计算机将二进制数字进行补码运算,运算结果如下
28(10) = 0001 1100(2)(原码) = 0001 1100(2)(补码)
-28(10) = 1001 1100(2)(原码) = 1110 0100(2)(补码)
然后计算机保存的就是补码,当要取出数据的时候,就将补码逆运算一下,即可求出原码,再将原码转换一下就可以得到真实的数据了。
下面以Java语言演示这个过程,首先我们要清楚Java的byte、short、int、long都是有符号的(signed)
运行输出:
28储存到计算机后为:11100
-28储存到计算机后为:11111111111111111111111111100100
取出储存的28 以无符号表示:28
取出储存的-28 以无符号表示:4294967268
我们验证一下结果,验证了计算机确实是以补码的方式储存数字。这里有个小问题,就是我们知道int型有4个字节即32个比特,但是28却输出了111005个比特而已,是因为toBinaryString()方法把11100前面的0给忽略了。
取出的时候,我们以无符号的标准去处理,导致取出存入的-28结果是4294967268和我们存入的不一样,这是因为-28是负数,负数的补码和原码不一样,而用无符号处理的话就是直接将11111111111111111111111111100100转成结果了。而为什么28用有无符号处理结果都一样是因为正数的原码和补码一样,这样验证了Java的数据类型都是有符号的。
至于计算机为什么用补码来储存数字,而不是原码,原因是:
拿单字节整数来说,无符号型,其表示范围是[0,255],总共表示了256个数据。有符号型,其表示范围是[-128,127]。
先看无符号,原码和补码都一样,0表示为0000 0000,255表示为1111 1111,刚好满足了要求,可以表示256个数据。
再看有符号的,若是用原码表示,0表示为0000 000。因为咱们有符号,所以应该也有个负0(虽然它还是0)1000 0000。这样的话那就有2个0,也就是只能表示255个数据,不能够满足我们的要求。而用补码则很好的解决了这个问题。
字符
在计算机中,对非数值的字符进行处理时,要对字符进行数字化,即用二进制编码来表示字符。其中西文字符最常用到的编码方案有ASCII编码和EBCDIC编码。对于汉字,我国也制定的相应的编码方案,比如 GBK,GB2312等。
比如字符a的ASCII码十进制值为97,在计算机中用二进制表示就是 01100001。下面同样用Java来演示计算机是如何储存字符的。
- 采用UTF-8和GBK两种编码储存汉字
我们调试看看,发现GBK编码采用2个字节储存,储存的数据分别是10进制的-42和-48对应的二进制分别是11010110和11010000(补码),即汉字中对应的二进制为1101011011010000,即16进制的D6D0,查看GBK对照表,发现16进制编码D6D0对应的汉字确实是中
而UTF-8编码采用3个字节储存,同理将对应的二进制111001001011100010101101转成16进制,为E4B8AD,通过UTF-8编码查询,发现汉字中对应的16进制编码确实是E4B8AD
- 储存字符
调试看看,字符串EF有E和F两个字符,它们对应的十进制ASCII码分别是69和70
我们发现Java的getBytes()方法是将字符串的每一个字符都储存到一个字节的,如果我们想把EF储存在一个字节里面,即EF是一个整体的,一个字节,不能拆分,那我们可以把EF放在一个字节里面(byte)(0xEF),声明它是一个字节,不是字符,不用再将它转成字符对应的编码。
下面说说我在进行MD5消息摘要算法时候遇到的坑,我要对QQ号对应的Hex进行MD5算法散列,这里我举例QQ号的10进制为12345678,对应的16进制为00BC614E(因为QQ号固定长度4个字节,所以前面补了2个0),一开始我是以下面的方式进行MD5算法的
调试可以看到上面的代码其实是将字符串00BC614E转成了8个字节,然后再对这8个字节进行散列,这也是基于字符串进行的MD5散列,和通过网上一些网站散列得到的值是一样的
但是这个哈希值和预想的结果不一致,后来才知道预想的结果是基于字节进行的MD5散列,也就是00BC614E应该分成4个字节(00、BC、61、4E)而不是8个字节(0、0、B、C、6、1、4、E),然后通过修改代码
使用(byte)声明是一个字节,不是字符,不用再将它转成字符对应的编码。00、BC、61、4E分别是一个字节,当然因为字节为8个比特,能表示256个数字,因为Java的数据类型是有符号的,所以8个比特能表示的10进制范围是[-128,127],所以(byte)(x) x不能小于-128和不能大于127,否则会溢出,溢出的部分数据会丢失。
- 上一篇:Python渗透漏洞工具,有需要可以看看
- 下一篇:HTTP报文URL解码实现
相关推荐
- 告别手动操作:一键多工作表合并的实用方法
-
通常情况下,我们需要将同一工作簿内不同工作表中的数据进行合并处理。如何快速有效地完成这些数据的整合呢?这主要取决于需要合并的源数据的结构。...
- 【MySQL技术专题】「优化技术系列」常用SQL的优化方案和技术思路
-
概述前面我们介绍了MySQL中怎么样通过索引来优化查询。日常开发中,除了使用查询外,我们还会使用一些其他的常用SQL,比如INSERT、GROUPBY等。对于这些SQL语句,我们该怎么样进行优化呢...
- 9.7寸视网膜屏原道M9i双系统安装教程
-
泡泡网平板电脑频道4月17日原道M9i采用Win8安卓双系统,对于喜欢折腾的朋友来说,刷机成了一件难事,那么原道M9i如何刷机呢?下面通过详细地图文,介绍原道M9i的刷机操作过程,在刷机的过程中,要...
- 如何做好分布式任务调度——Scheduler 的一些探索
-
作者:张宇轩,章逸,曾丹初识Scheduler找准定位:分布式任务调度平台...
- mysqldump备份操作大全及相关参数详解
-
mysqldump简介mysqldump是用于转储MySQL数据库的实用程序,通常我们用来迁移和备份数据库;它自带的功能参数非常多,文中列举出几乎所有常用的导出操作方法,在文章末尾将所有的参数详细说明...
- 大厂面试冲刺,Java“实战”问题三连,你碰到了哪个?
-
推荐学习...
- 亿级分库分表,如何丝滑扩容、如何双写灰度
-
以下是基于亿级分库分表丝滑扩容与双写灰度设计方案,结合架构图与核心流程说明:一、总体设计目标...
- MYSQL表设计规范(mysql表设计原则)
-
日常工作总结,不是通用规范一、表设计库名、表名、字段名必须使用小写字母,“_”分割。...
- 怎么解决MySQL中的Duplicate entry错误?
-
在使用MySQL数据库时,我们经常会遇到Duplicateentry错误,这是由于插入或更新数据时出现了重复的唯一键值。这种错误可能会导致数据的不一致性和完整性问题。为了解决这个问题,我们可以采取以...
- 高并发下如何防重?(高并发如何防止重复)
-
前言最近测试给我提了一个bug,说我之前提供的一个批量复制商品的接口,产生了重复的商品数据。...
- 性能压测数据告诉你MySQL和MariaDB该怎么选
-
1.压测环境为了尽可能的客观公正,本次选择同一物理机上的两台虚拟机,一台用作数据库服务器,一台用作运行压测工具mysqlslap,操作系统均为UbuntuServer22.04LTS。...
- 屠龙之技 --sql注入 不值得浪费超过十天 实战中sqlmap--lv 3通杀全国
-
MySQL小结发表于2020-09-21分类于知识整理阅读次数:本文字数:67k阅读时长≈1:01...
- 破防了,谁懂啊家人们:记一次 mysql 问题排查
-
作者:温粥一、前言谁懂啊家人们,作为一名java开发,原来以为mysql这东西,写写CRUD,不是有手就行吗;你说DDL啊,不就是设计个表结构,搞几个索引吗。...
- MySQL 之 Performance Schema(mysql安装及配置超详细教程)
-
MySQL之PerformanceSchema介绍PerformanceSchema提供了在数据库运行时实时检查MySQL服务器的内部执行情况的方法,通过监视MySQL服务器的事件来实现监视内...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- node卸载 (33)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- exceptionininitializererror (33)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)