[Linux 进程(五)] 程序地址空间深度剖析

小白在努力jy 2024-07-31 12:07:02 阅读 67

在这里插入图片描述

文章目录

1、前言2、什么是进程地址空间?3、进程地址空间的划分4、虚拟地址与物理地址的关系5、页表的作用扩展

6、为什么要有地址空间?

1、前言

Linux学习路线比较线性,也比较长,因此一个完整的知识点学习就会分布在两篇文章中,没有连贯起来,订阅的朋友谅解一下,再次感谢订阅!

上一篇文章最后讲到了程序地址空间分布,大家可以先复习一下上一篇文章:程序地址空间的初认识

本片我们深度学习一下程序地址空间,虚拟地址与物理地址的关系,页表与物理地址的映射,写时拷贝的过程,我们带着这些问题开始我们今天新的学习!

2、什么是进程地址空间?

在学习地址空间前,我们要明确:C/C++看到的地址其实并不是真正的地址,它其实是 虚拟地址,真正的地址是物理地址。

我们通过一个故事来带大家更好的理解一下什么是地址空间:

有一个大富豪,他有10亿的资产,同时拥有四个私生子,这四个私生子互相不知道其他人的存在。

私生子1是学生,私生子2是一个社会青年,私生子3是律师,私生子4是企业家。一天富豪分别对四个私生子说:

对1说:你是咱家的大学生,好好学习,以后这10个亿都是你的。

对2说:……,以后这10个亿都是你的。

对3说:……,以后这10个亿都是你的。

对4说:……,以后这10个亿都是你的。

他们都各自以为自己有10个亿等着继承呢,于是他们断断续续的对父亲说:

1:……,有用,需要xxx钱(不过10亿的1/10)。父亲给了。

2:……,有用,需要xxx钱(不过10亿的1/10)。父亲给了。

3:……,有用,需要xxx钱(不过10亿的1/10)。父亲给了。

4:……,有用,需要xxx钱(不过10亿的1/10)。父亲给了。

在这里插入图片描述

操作系统对应富豪;

内存对应那真实的10个亿;

进程对应为私生子;

虚拟地址空间对应富豪对他们每个人画的10亿的饼。

总结:

地址空间其实并不是真实的,是操作系统给进程画的饼。

3、进程地址空间的划分

我们看一下地址空间的分布:

在这里插入图片描述

地址空间其实就是上面各个区域结合起来,这些区域的划分很简单,用begin与end两个变量一个指头,一个指尾,来限制范围即可。

根据以上的学习,我们不难得知:虽然地址空间是操作系统给进程画的的饼,但是进程多了这些地址空间我们也需要管理起来,要不然进程和对应的地址空间对应不上。说到管理就不得不提“先描述,再组织”。Linux中,这个进程/虚拟地址空间这个东西,叫做:

<code>struct mm_struct

{

long code_start; // 代码区开始

long code_end; // 代码区结束

long data_start; // 数据区开始

long data_end; // 数据区结束

long heap_start; // 堆区开始

long heap_end; // 堆区结束

long stack_start; // 栈区开始

long stack_end; // 栈区结束

... // 其他属性

}

进程地址空间mm_struct里面其实就是维护了一张链表,每个节点是一个结构体vm_area_struct,里面存的就是一个区域的开始和结束地址。

4、虚拟地址与物理地址的关系

我们来写一段代码探究一下地址:

#include <stdio.h>

#include <unistd.h>

#include <sys/types.h>

int g_val = 100;

int main()

{

pid_t id = fork();

if(id == 0)

{

// child

int cnt = 5;

while(1)

{

printf("child, Pid: %d, Ppid: %d, g_val: %d, &g_val = %p\n", getpid(), getppid(), g_val, &g_val);

sleep(1);

if(cnt == 0)

{

g_val = 200;

printf("child change g_val: 100->200\n");

}

cnt--;

}

}

else

{

// father

while(1)

{

printf("father, Pid: %d, Ppid: %d, g_val = %d, &g_val = %p\n", getpid(), getppid(), g_val, &g_val);

sleep(1);

}

}

return 0;

}

在这里插入图片描述

我们知道,在没有发生对数据的改写时,父子进程共用一份代码和数据,这里子进程对数据进行了修改,父子进程读到的值不同了,父子进程的全局变量地址怎么还是相同的???

问题:

父子进程对同一个地址进行读取,竟然读出了不同的值?

我们这就能得出之前的结论:我们C/C++看到的地址是虚拟地址。

有了上面的理解,我们再来谈谈虚拟地址和物理地址的关系:

在这里插入图片描述

经过虚拟地址的学习以及这张图,我们现在就可以解释,同一个地址的值不同。

当我们fork创建了子进程的时候,子进程与父进程共享一份代码和数据,此时子进程与父进程进程地址空间与页表是一份。

当子进程对值进行修改的时,操作系统将父进程的进程地址空间与页表拷贝一份给子进程。当写入时,产生写时拷贝,重新开一块物理地址存内容,并将子进程页表中物理地址修改即可,子进程的虚拟地址没有变。因此父子进程虚拟地址相同是表象,本质物理地址已经修改了。

在这里插入图片描述

5、页表的作用

页表的结构中还有一栏,访问权限,我们下面看一下:

在这里插入图片描述

根据此结构,我们知道了页表的第一个作用:页表的存在可以有效的进行进程访问内存的安全检查!

我们配合一段代码,大家更好理解:

<code>char* str = "hello Linux";

*str = 'H';

我们都知道hello Linux是在字符常量区的,是不可被修改的,它不可被修改的本质就是:在页表中,访问权限被设置为r(只读权限)。并不是因为是在代码区不可被修改,内存是可以随意读写的,因为有页表权限的限制。

页表的第二个作用:将无序变有序

物理内存是不分代码区,栈区,堆区等的,数据在物理内存中的存储是无序的。

页表的存在让进程以统一的视角看待内存,所以任意一个进程,可以通过地址空间+页表可以将乱序的内存数据,变为有序,分门别类的规划好!

CPU中有一个寄存器CR3,它会保存当前进程的页表地址,此页表地址直接就是物理地址操作系统给用户一个映射的页表,是为了上面的两个作用,它自己是不需要的。

扩展

总结:

每一个进程都是有页表的;进程切换,不仅仅是PCB与代码、数据的切换,切换时还要带走自己的进程地址空间与页表。

根据以上的学习,我们想一下,我们的内存只有16/32/64,但是运行一个几百G的大型游戏,是怎么运行的呢?

其实并不是要把这几百G的数据全部加载上来的,而是将数据边加载边执行,对挂起的一个模块数据与代码先换出,然后加载需要加载的,这样进程在内存中就动态的运行起来了。

在这里插入图片描述

这就是地址空间的分配。当我们其中一块代码被执行完,我们可以覆盖式的像物理内存中重新加载内容,或者重新开辟新的物理内存,重新建立新的映射关系,就可以让程序边加载边执行。

页表中,还有可能存在虚拟地址存在,其他都不存在的情况:

当访问到页表的虚拟地址存在,其他内容不存在时,此时访问暂停,操作系统先申请内存,再根据虚拟地址找到那个可执行程序,重新加载到内存里,并把对应的物理内存放入页表,这时再开始访问,就开始运行新加载的代码了。这个过程叫做缺页中断

在这里插入图片描述

我们其实也不难发现,这背后的一切进程是完全不知道的,是os给做的,所以页表的第三个作用:

页表 左边是进程管理,右边是内存管理。降低进程管理和内存管理的耦合度

6、为什么要有地址空间?

通过上面的学习,我们来总结一下这个问题的答案:

1、有效的保护了物理地址的安全。通过进程地址空间+页表的映射,对不合法的操作可以有效的拦截。2、将物理地址的无序变为有序。物理内存是不分代码区,栈区,堆区等的,数据在物理内存中的存储是无序的。页表的存在让进程以统一的视角看待内存,所以任意一个进程,可以通过地址空间+页表可以将乱序的内存数据,变为有序,分门别类的规划好!3、降低进程管理和物理内存管理之间的耦合度。因为进程地址空间和页表的存在,物理内存可以不关心数据类型,直接对数据进行加载,这样进程管理与物理内存管理就做到了解耦。4、保证进程的独立性。因为地址空间的存在,各个进程都认为所有的内存空间都属于自己。每个进程都有自己的地址空间+页表,这两者配合实现了进程的独立性,每个不知道也不需要知道其他进程的存在!



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。