【汇编】汇编系列一 - 内存

认识汇编对了解内存和分析底层的一些内容非常有帮助。

一、简介

机器语言：由0和1组成。

汇编语言（Assembly Language）：用符号代替了0和1，比机器语言便于阅读和记忆。

高级语言：C\C++\Java\Swift等，更接近人类自然语言。

如下图，将寄存器BX的内容送入寄存器AX，不同的语言所表示的方式也不同：

汇编语言与机器语言一一对应，每一条机器指令都有与之对应的汇编指令。

汇编语言可以通过编译得到机器语言，机器语言可以通过反汇编得到汇编语言。

高级语言可以通过编译得到汇编语言\机器语言，但汇编语言\机器语言几乎不可能还原成高级语言。

采用高级语言C++和汇编语言编写同一个功能时，最终形成的可执行文件大小可能会相差很大（因为C++需要链接很多库）。例如，将a + b的结果赋值给c，然后在屏幕上打印c的结果：

为什么要学习汇编语言（它的用途是什么）？

编写驱动程序、操作系统（比如Linux内核的某些关键部分）
对性能要求极高的程序或者代码片段，可与高级语言混合使用（内联汇编）
软件安全
- 病毒分析与防治
- 逆向\加壳\脱壳\破解\外挂\免杀\加密解密\漏洞\黑客
是理解整个计算机系统的最佳起点和最有效途径
为编写高效代码打下基础（可以直接看到代码是如何操作内存的，进而反映出代码的执行效率）
弄清代码的本质（很多理论和说法是错误的），例如：
- sizeof是一个函数么？
- ++a + ++a + ++a，这行代码的执行结果是什么？
- switch和if的效率究竟谁高？为什么？
- ……

目前讨论比较多的汇编语言有：

入门建议先从学些8086汇编开始，因为8086汇编结构简洁、经典。参考书籍：王爽《汇编语言》。

要想学好汇编语言，首先要对CPU和内存等硬件结构有一定的了解。在学习汇编语言过程中，遇到的绝大部分指令都是跟内存、CPU有关的。

如下图是软件\程序的执行过程：

每一个CPU芯片都有许多管脚，这些管脚和总线相连，CPU通过总线跟外部器件进行交互。

总线是一根根导线的集合，分为地址总线、数据总线、控制总线。

内存由很多单元组成，每一个内存单元都有一个物理地址。如下图，CPU从内存的3号单元读取数据：CPU通过地址线找到内存的3号单元，再通过控制线获知当前的指令是向内存读取数据，此时通过数据线把内存的3号单元存储的数据返回到CPU。

数字电路中，把电压的高低用逻辑电平来表示。逻辑电平包括高电平和低电平这两种。计算机信号使用的是数字电路信号，由0和1组成，高电平代表1，低电平代表2。如下图，总线宽度（线路条数）是3，一根线只能发送0或1信号，3条线就可以发送$2^3$种组合信号。

地址总线：内存寻址

数据总线：数据传输

控制总线：读写命令

8088的数据总线宽度是8，8086的数据总线宽度是16，分别向内存中写入89D8H（H是Hex的缩写，代表的是十六进制，是汇编语言中表示进制的一种方式，不区分大小写）。8088需要传送两次数据，而8086只需要一次就可以把数据传输完成。

思考与练习：

各类存储器的逻辑连接情况：

所有的内存单元都有唯一的地址，叫做物理地址。

各类存储器的物理地址情况：

内存地址空间的大小受CPU地址总线宽度的限制。8086的地址总线宽度为20，可以定位$2^{20}$个不同的内存单元（内存地址范围0x00000~0xFFFFF），所以8086的内存空间大小为1MB。
0x00000~0x9FFFF：主存储器。可读可写。
0xA0000~0xBFFFF：向显存中写入数据，这些数据会被显卡输出到显示器。可读可写。
0xC0000~0xFFFFF：存储各种硬件\系统信息。只读。

下图是各类存储器的逻辑连接 - 物理地址对应图：