一个G等于多少M(一个G等于多少MB流量)
本节主要讲解以下内容:
- python代码的运行方式
- 进制
- 计算机中的单位
- 编码
- Python代码的运行方式
- 脚本式
- 交互式
- 进制
计算机中底层所有数据都是一010101的形式存在(图片,文本,视频等)。
进制分为:二进制、八进制、十进制、十六进制
- 进制之间的转换
- 计算机中的单位
- b(bit), 位
- B(byte),字节
- KB(Kilobyte),千字节
- M(Megabyte),兆
- G(Gigabyte),千兆
- T(Terabyte),万亿字节
- 其他更大单位的 PB/EB/ZB/YB/BB/NB/DB不再赘述。
- 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么1G流量可以通过网络传输多少汉字呢?(计算机传输本质上也是二进制)
- 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么500G硬盘可以存储多少个汉字?
- 编码
编码:文字和二进制之间的一个对照表。
4.1 ASCII编码
ascii规定使用1个字节来表示字母与二进制的对应关系。
4.2 gb-2312编码
gb-2312编码,由国家信息标准委员会制作(1980年)。
gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。
在与二进制做对应关系时,由如下逻辑:
- 单字节表示,用一个字节表示对应关系。2**8 = 256
- 双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。
4.3 Unicode
unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。
- ucs2
- ucs4
无论是ucs2和ucs4都有缺点:浪费空间?
unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。
4.4 utf-8编码
包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码,本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。
4.5 python相关的编码
将一个字符串写入到一个文件中
本节总结:本节的知识点主要以理解为主。
- 计算机上所有的东西最终都会转换成为二进制再去运行。
- ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。
- ascii,字符和二进制的对照表。
- unicode,字符和二进制(码位)的对照表。
- utf-8,对unicode字符集的码位进行压缩处理,间接也维护了字符和二进制的对照表。
- ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。
- 目前最广泛的编码为:utf-8,他可以表示所有的字符且存储或网络传输也不会浪费资源(对码位进行压缩了)。
- 二进制、八进制、十进制、十六进制其实就是进位的时机不同。
- 基于Python实现二进制、八进制、十进制、十六进制之间的转换。
- 一个字节8位
- 计算机中常见单位b/B/KB/M/G的关系。
- 汉字,用gbk编码需要用2个字节;用utf-8编码需要用3个字节。
- 基于Python实现将字符串转换为字节(utf-8编码)
13.基于Python实现将字符串转换为字节(gbk编码)
下一篇:最后一页