实模式、保护模式、长模式

来源：互联网发布：福州橙子网络编辑：程序博客网时间：2024/06/10 08:41

内存地址实模式

2的10次方是1K，20次方就是1M。如果一个变量只有16 bit，（即只有16个表示二进制的位），那么只能表示 2的16次方种情况。如果一个变量只有1 bit，那么只能表示两种情况，即0和1。
要表示地址（十进制）1234，（对应的十六进制为：4D2）只要12 bit就可以了。要表示12345678 这个地址，（BC614E）需要 24 bit。

在实模式下，只有16位（bit，下同)的寄存器，也就是只能表示的最大数是FFFFH（H表示十六进制，下同），所以表示不了BC614EH。

只有16位的寄存器，如果要表示 10001H，怎么办呢？因为一个寄存器能表示的最大数是FFFFH，所以用两个寄存器可以表示10001H，比如用DS和BX来表示吧，令DS=FFFFH，BX=2即可，这样DS+AX=10001H。

两个16位的寄存器相加能表示的最大数为10001H，如果要表示10002H，就得用3个寄存器相加了。即DS=FFFFH，BX=FFFFH，CX=1H。这是一种表示方法。

还有N种表示方法。在实模式下，要表示10002H，计算机设计者采用的方法是：DS*10H+BX 就可以了，即令DS=1000H，BX=2H。上面用相加的方法是小学生想得出来的。

好了，在这种用乘法表示的方法下，要表示12345H，应该要这样设置DS和BX，先把12345H/10得到的商赋给DS，然后把5赋给BX就可以了。简单的说，要表示地址Addres，就是解方程 DS*10H+BX=Addres，这是一个二元一次方程。应该会有很多个解。这种方式起一个名字可以叫段氏方式。能表示的最大数是：十六进制
FFFF*10H+FFFF=10FFEF，能表示到一些六位数了。
而2的20次方表示的最大数是FFFFF。

1G的内存，其最大地址为 3FFFFFFF，显然用上面的 DS*10H+BX 也表示不了啦。

在保护模式下可以用32 bit的寄存器。那么，如果用32bit 的寄存器来表示呢？32 bit就是8位的十六进制，可以表示的最大数是：FFFF FFFF，显然要表示 3FFF FFFF 完全可以，还有剩余呢。

但（他妈的）计算机设计者不是这样表示内存地址，还非得用另外一种段氏表示法。

保护模式

本来使用EBX这样的32bit 寄存器就可以直接访问4G以内的内存了，但CPU设计者不采用这样天然的方法，而非得弄得很复杂。简单的说，要访问一个内存单元，你需要给两个参数，一个是段选择子、一个是偏移，然后，剩下的事情你不用管了，CPU通过一个函数的东西计算其实际的物理地址。这样看来，似乎速度要慢好多了。即
物理地址=f（段选择子，偏移） addres=f(sel,offset);

如果这个函数是透明的，那还好些，但是，这个函数不是透明的，这就意味着，我们还得去研究这个函数是如何工作的。看起来是一件很麻烦的事情。

保护模式也像实模式那样，把内存分成很多部分，即所谓的一段一段的。那么每个段自然也就有个基址和长度等属性了。Base Address 和 Limit 和段属性 Attributes，长度的单词本来是 Length，但他们叫做“界限”，所以用Limit ，实际上就是长度的意思了，搞得莫明其妙。即：
SEG{BaseAddres,Limit,Attributes}为了一眼看得明白，不如写成：

SEG 被表现为：{Base，Length，Attr}。

因为这些 SEG 很多，可能有上千上万个，为了管理方便，把它们记录在一个表里面，就像数据库那样了。嗯，这个表就是传说中的“描述符表”。要记录 Base 需要32bit，就是4个字节，而 Length 是20 bit，2.5个字节，总之最后这三项由8个字节搞定。每一个 {Base，Length，Attr} 就是表中的一个记录，他们叫做传说中的“描述符”。具体怎么记录这些东西，比如哪几位表示 base，哪几位表示 Length ，还是比较复杂的。看看，他们又不按自然的方式来，而非得把 base 拆成几个部分……具体情况就不描述了。

好了，现在要访问内存中某个地方 Addres，输入两个参数，SEG和offset，那么经过 f(seg,offset)的计算就可以得到地址了。这个过程怎么做呢？

1，sel （段选择子）里有表示描述符表中的第几个记录的数据，比如第一个记录，或第十个记录；所谓的“记录”就是上面说的“描述符”了。
2，好，继续计算。把这个描述符拿出来看看，里面有一个段基址，假设是 Base；
3，那么，就用加法搞定这个 Addres=Base+offset

和实模式下有什么不同？嗯，这个不是一般的 DS*10H+BX了，不能用一个公式来表达了。得用一个函数才能完成上面的三步，所以，速度应该是变得好慢了。现在用拟人化的方法描述一下：现在你要访问内存中的某个地方，但你不知道确切的地址，你手里就有它的两个参数，一个是 sel ，人们把这个参数叫做段选择子，另外一个参数是段内偏移 offset 。你得先去问“描述符表”先生，“先生，请帮忙查找一下 sel 里面所说的段在哪？”“描述符表”先生接过参数 sel ，对照了一下，给你一个记录（描述符），里面有关于段的各个数据，好，你再从中找到段的基址，然后跑到那儿，再继续加上 offset，就可以找到确切的地址了。

又以一个看书的例子来说明：比如你看了一本书，已经看到第10章，而且这部分内容你已经看了前面的20页，现在你想接着看下去，但显然你平时没注意记下这个页码，所以，你现在有两个参数：一个是第“10”章，另外一个是看了20页，要接着往下看的第“21”页。好，现在你要找出这一页，你就得去查目录，查到第10章从第287页开始，然后再加上21页，得到要接着看的 287+21=308页。

为了简单直白，就把描述符表简称为表，把描述符简称为记录。在实模式中，段寄存器中的值乘以10H就知道段的基址了，而在保护模式下，段寄存器只告诉你该段的资料被放在表中的第几个记录，至于段的基址，你得去查表搞到记录的内容才知道。

从实模式到保护模式

如果你能正确的理解了保护模式下段寄存器中的值表示什么意思，那么就可以考虑从实模式跳到保护模式的问题了。不能直接跳到长模式，所以从实模式跳到保护模式是必经之路。

NASM中，跳转指令可以强制规定相关的操作数尺寸，比如：jmp 342H: dword 542397AEH 表示段值是342H，偏移是32位的542397AEH，这样就可以正常的从16位代码跳到32位代码了。如果使用其他汇编语言，可能需要手工写机器码。

在实模式中，要为保护模式准备一些数据，这些数据就是一些表。如果不准备这些，也是可以切换到保护模式的，只是接着就可能死机而已。

1，声明全局表中的记录——有关的描述符

;存储段描述符结构类型定义
;----------------------------------------------------------------------------
struc DES
LimitL:          resb      2 ;段界限(BIT0-15)
BaseL:           resb      2;段基地址(BIT0-15)
BaseM:           resb      1;段基地址(BIT16-23)
Attributes:      resb      1;段属性
LimitH:          resb      1;段界限(BIT16-19)(含段属性的高4位)
BaseH:           resb      1;段基地址(BIT24-31)
endstruc
;----------------------------------------------------------------------------

;存储段描述符类型值说明
;----------------------------------------------------------------------------
ATDR            EQU     90h ;存在的只读数据段类型值
ATDW            EQU     92h ;存在的可读写数据段属性值
ATDWA           EQU     93h ;存在的已访问可读写数据段类型值
ATCE            EQU     98h ;存在的只执行代码段属性值
ATCER           EQU     9ah ;存在的可执行可读代码段属性值
ATCCO           EQU     9ch ;存在的只执行一致代码段属性值
ATCCOR          EQU     9eh ;存在的可执行可读一致代码段属性值
;----------------------------------------------------------------------------

上面只是结构的定义（本文无特别说明，均为NASM汇编语言语法）。至少声明一个空描述符、一个代码段描述符、一个数据段描述符实例。一般在DATA段中定义。NASM的语法写起来有点繁琐

GDT:     ;这个标签表示全局表的偏移
NullRecord: istruc DES ;这个是空描述符
at LimitL, dw 0
at BaseL, dw 0
at BaseM, db 0
at Attributes, db 0
at LimitH, db 0 ;
at BaseH, db 0 ;
iend

CodeSeg: istruc DES ;这个是代码段描述符
at LimitL, dw 0ffffh
at BaseL, dw 0
at BaseM, db 0
at Attributes, db ATCE;存在、只执行
at LimitH, db 0 ;
at BaseH, db 0 ;
iend

DataSeg: istruc DES ;这个是数据段描述符，试验
at LimitL, dw 4096
at BaseL, dw 0
at BaseM, db 0;
at Attributes, db ATDW;存在的可读写数据段属性值
at LimitH, db 0 ;
at BaseH, db 0 ;
iend

resb 8*100

Data2:;试验用的数据段
MSG db 'Now,it is Protected.',13,10,0;
resb 4096-($-Data2);

2，全局表、描述符初始化 GDT LGDT

在数据段中声明了描述符的实例之后，再在代码中进一步初始化——把它们的段基址计算出来填上。

GDT是全局表，LDT是局部表。这些表也是放在某个段中的，所以，如何知道这个段的地址？有专用的寄存器，就是GDTR和LDTR，不过对它们的操作也是用专门的指令如LGDT、LLDT。那么LGDT需要什么样子的参数呢？16位的界限+32位的基址。所谓界限就是以字节为单位的全局表所在的段的长度，等于全局表的长度。
假设代码如：

GDT:     ;这个标签表示全局表的偏移
空记录
第1个记录
第2个记录
……
第N个记录
……保留用于将来可能增加的记录项，
GDTLenth    EQU $-GDT;       总长度（单位为字节）是一个20 bit的数。最大值：FFFFF
VGDTR: ;                              这个就用来存参数
dw 0;                                  16位的长度
dd 0;                                   32位的段基址

到此，两个参数搞定了一半。下一步要从偏移加上段基址得到全局表所在的确切位置。段基址一般是DS*10H 即数据段的基址。
假设数据段偏移为 DATA

mov ax,DATA
mov bx,10H
mul bx;              bx是16位源操作数，与AX相乘，结果放在DX:AX中。这必然是2字节的数。高2位在DX
add ax,GDT;        注意这里是NASM的写法，标签就是偏移值。这样一加，有可能存在进位了。
adc dx,0;         ;偏移的高2位为0。高二位相加的结果放在DX中。
mov word [VGDTR],GDTLenth;          全局表的长度。也可以设置为 FFFFF以下的数。因为以后可能增加记录项
mov word [VGDTR+2],ax                     ;低16位，全局表的基址
mov word[VGDTR+4],dx                     ;高16位   全局表的基址

全局表可以存放的内容包括其他很多个局部表的记录、某些全局段的记录。例如，可以安排第0项为空记录，第一项为一个代码段记录，第二项为一个数据段记录。

下面计算代码段和数据段的基址

;分别计算代码段和数据段的基址
mov     ax,cs
mul     bx
mov     word [CodeSeg+BaseL],ax ;代码段开始偏移为0
mov     byte [CodeSeg+BaseM],dl ;代码段界限已在定义时设置好
mov     byte [CodeSeg+BaseH],dh
;设置数据段描述符
mov     ax,ds
mul     bx                     ;计算并设置目标数据段基址
add     ax,Data2
adc     dx,0
mov     word [DataSeg+BaseL],ax
mov     BYTE [DataSeg+BaseM],dl
mov     BYTE [DataSeg+BaseH],dh

3，跳到保护模式

         lgdt [VGDTR]
         cli                            ;关中断
         call EnableA20                      ;打开地址线A20
       test eax,0
       jne Fail;                                         打开A20地址线失败
        ;切换到保护方式
                mov     eax,cr0
                or      eax,1
                mov     cr0,eax
;当执行到下面的 jmp 指令时,已经预取了再下一条指令.即EIP已经是 ProtectedMode.
;这是一个强制的远跳转，偏移值强制为一个32位数,
;段前辍是 Code_Sel,而不是实模式下意义的值,因为上面的MOV指令已经打开了保护模式.
   jmp Code_Sel:dword ProtectedMode
ProtectedMode:;下面是保护模式的代码
         mov     ax,Data_Sel
        mov     ds,ax                  ;加载数据段描述符

Fail:打开A20地址线失败

如果没有那个 jmp 会怎么样？执行 mov cr0,eax 的时候，会预先读取下一条指令： mov ax,Data_Sel，由于是在实模式方式下读取的，所以CS:IP 是正确的。执行 mov ax,Data_Sel 的时候，会去读取下一条指令，问题是，这时已经用保护模式的方式来寻址了，所以假设 CS=1015H之类的值，并不会做 CS*10H 之类的处理，而是去查全局表找到描述符……显然没有1015H 这个描述符，那么，将取不到正确的指令，如此就极有可能死机了。

非得用jmp吗？也许不一定吧。比如，CS的值正好是代码段选择子的值，这样就不用JMP了。

从实模式跳转到保护模式要注意的事情

汇编编程是一件极为麻烦的事情。只要有一个地方出错，那么全盘皆败——程序将不能达到预想的效果。本人总结一下要注意的事情。

1，描述符在数据结构上可以说是糟糕透顶的设计。竟然用到了“半字节”的属性字段和地址字段。这种数据结构极不符合自然思维，所以很容易错。我们知道描述的内容包括：段基址、段界限（就是长度）、段属性。你得注意它们的身体是被割裂开来放置在8个字节之中的。所以当你从别人的程序抄过来一个描述符时，一定要注意是否和你的描述符的定义相应。

如果要用到的代码段描述符的内容是错误的，那么，一旦 mov cr0,eax 就会导致系统崩溃，剩下的事情就是傻傻乎的看着自动重启，一脸茫然的样子。

所以，如果一转换到保护模式就系统崩溃重启，请先考虑描述符的内容是否正确。无论如何，在保护模式中，只要段寄存器被载入描述符，而描述符的内容又是荒唐的，那么系统就会无情的重启。所以要保证那些代码段、数据段的描述符一定要正确。

2，不要在保护模式中调用以前在实模式下用的BIOS中断和DOS中断，或者可能引用它们的任何函数。一旦这样做了，就会崩溃重启。保护模式下，你得自己设计中断，（汗一个）。比如，有的人习惯用显示类的中断或含有调用中断的显示函数来 debug，或磁盘读写一类的中断来读写磁盘，这些都会导致崩溃重启。除非你自己设计了这些中断。如果要想显示一些内容，请直接操作显存，或考虑自己写一些驱动程序吧。

3，TD或者其他一些调试器是不能适应从一个模式转换到另外一个模式的调试的。一到 CR0设置的地方大多会崩溃。可以考虑用 bochs 来调试。

4，不要直接从32位代码的保护模式跳回实模式。从16位代码的保护模式可以跳回实模式。跳转指令在保护模式下预取，用实模式的方式执行。无论如何，这些模式间跳转的关键意义是重新装载了段寄存器的值。所以选择能重新装载段寄存器的跳转指令——需要指定段值的跳转指令。比如从16位保护模式跳到实模式可以用 jmp word 段值:偏移值

5，避免被假错误困扰。程序一口气写完了，运行却不是预想的结果，然后尝试去找出错误修改，可能不止一处要修改，修改对了一个地方并不表示会得到正确的结果，却又以为这样修改还是不对的，实际上可能是对的……于是绕圈子，被假的错误困住了。

6，现在已经进入64位CPU的时代，可考虑64位的OS。由于64位长模式的工作机制和32位的保护模式并不怎么相同，所以，如果要考虑64位OS，反倒是不要太深入32位的保护模式。之所以学习保护模式，是因为要经过保护模式才能进入长模式，但也不需要学完全部的保护模式知识。

没有参考资料？资料资料是有的，不仅有，而且还太多了，你可以去看最权威的《AMD64架构程序员手册卷二：系统程序》。你没有？这个不是问题，你可以去AMD的网站下载，或者在互联网上随便搜搜就可以了。

就当做同时学习英语吧。

描述符的结构

来看看一个多么垃圾的数据结构——描述符。按编程习惯，我们都是从上往下写，那么描述这个垃圾的结构也从上往下写。下面的每个 □表示 1 bit。

□□□□□□□□□□□□□□□□20位段界限的前16位，LimitL dw 0，被分尸。

接着是段基址的开始三个字节，段基址被分尸了，最后面还有一个字节。

□□□□□□□□□□□□□□□□因为NASM没有办法一次性表达三个字节的数据，所以要分成两个字段。
□□□□□□□□

接着是极为混乱的属性+4bit段界限+属性
□□□□ TYPE
□          DT
□□       DPL
□         P

□□□□    4bit段界限，把这个接上前面的16bit才构成完整的Limit
□          AVL
□          0，保持是0
□          D
□         G

□□□□□□□□段基址的最后一个字节。

表示 16位代码段的描述符：（默认十六进制）
FF FF 段的长度前16位，或者写其他数字也可以，不要小于实际代码段就可以了。

00 00 在数据段中我们还不知道段基址，先赋0吧，后面再用代码去计算。
00

□□□□ TYPE        对于代码段，有代号8到F，8表示只执行。
□          DT             DT=1表示存储段，DT=0表示系统段和门。这里用DT=1
□□       DPL          表示描述符特权级，这里用0表示内层
□         P               P=1表示存在在内存中，这里就用这个。

□□□□    4bit段界限，这里根据实际代码段的长度来确定，
□          AVL=0，不知道用做什么。
□          0，保持是0
□          D       D=0 16位代码段。默认情况下，使用16位地址及16位或8位操作数。可以使用地址大小前缀和操作数大小前缀分别改变默认的地址或操作数的大小。
□         G=0上面段界限的单位是字节，=1单位是4K，这里可以用0

□□□□□□□□段基址的最后一个字节。在16位代码中当然是0，不可能有这么长的段