web基础与HTTP协议(企业网站架构部署与优化)
西华彭于晏! 2024-07-28 15:33:02 阅读 65
补充:http服务首页文件在/var/www/html下的,一定是index.html命名的文件。才会显示出来。
如果该路径下没有相应的文件,会显示/usr/share/httpd/noindex下的index.html文件。
如果/usr/share/httpd/noindex没有index.html文件,会显示403状态码。
一、Web 基础
1、域名的概念
网络是基于 TCP/IP 协议进行通信和连接的,每一台主机都有一个唯一的标识(固定的 IP 地址),用以区别在网络上成千上万个用户和计算机。为了保证网络上每台计算机的 IP 地址的唯一性,用户必须向特定机构申请注册,分配 IP地址。网络中的地址方案分为两套:IP地址系统和域名地址系统。这两套地址系统其实是一一对应的关系。IP 地址用二进制数来表示,每个 IP 地址长 32 比特,由 4 个小于 256 的数字组成,数字之间用点间隔。
早起没有DNS的时候就是通过Hosts文件解析域名,随着后期技术的发展开始使用DNS来解析域名,有了DNS自后Hosts就不再使用了。
C:\Windows\System32\drivers\etc ### windows 中hosts文件位置
windows系统查看dns缓存内容:
ipconfig/displaydns
清空dns缓存:ipconfig/flushdns
linux系统查看dns缓存内容需要安装相应的软件包:
yum -y install nsc 然后启动这个服务:systemctl start nscd
nscd -g:查看缓存内容 (但是只是显示缓存的数量)
详见:
如何测试dns服务器:需要先安装dns工具集
yum -y install bind-utils
然后使用nslookup ip
或者使用dig工具测试;且测试出来的内容比较全面。
以及路由跟踪工具:traceroute 需要先安装这个工具:
yum -y install traceroute
windos的系统路由跟踪显示的比较详细;命令为tracert
2、域名的结构
以一个常见的域名为例说明其结构 ,www.baidu.com 网址是由二部分组成,标号“baidu”是这个域名的主体,而最后的标号“com”则是该域名的后缀,代表的这是一个 com 国际域名,是顶级域名,而前面的 www 是主机名。
DNS 规定,域名中的标号都由英文字母和数字组成,每一个标号不超过 63 个字符,也不区分大小写字母。标号中除连字符(-)外不能使用其他的标点符号。级别最低的域名写在最左边,而级别最高的域名写在最右边。由多个标号组成的完整域名总共不超过 255 个字符。 中国的监管部门:CNNIC
根域:指的是根服务器,要用来管理互联网的主目录,全世界只有 13 台。1 个为主根服务器,放置在美国。其余 12 个均为辅根服务器,其中 9 个放置在美国;欧洲 2 个,位于英国和瑞典;亚洲 1 个,位于日本。所有根服务器均由美国政府授权的互联网域名与号码分配机构 ICANN 统一管理,负责全球互联网域名根服务器、域名体系和 IP 地址等的管理。
顶级域:包括组织域和国家/地区域名。域名的最右侧是国家/地区域名,国家代码由两个字母组成的如.cn, .uk, .de 和.jp, 其中.cn 是中国专用的顶级域名。在国家/地区域名左侧,是组织域名,常见的.com 用于商业机构,.net 用于网络组织,.org用于各种组织包括非盈利组织。
二级域名:在顶级域名之前的域名,在顶级域名前面,它是指域名注册人的网上名称,例如 baidu,ibm,yahoo,microsoft 等。
FQDN:是主机名.DNS 后缀,是指主机名加上全路径,全路径中列出了序列中所有域成员。全域名可以从逻辑上准确地表示出主机在什么地方,也可以说全域名是主机名的一种完全表示形式。从全域名中包含的信息可以看出主机在域名树中的位。
3、域名注册
域名注册是 Internet 中用于解决地址对应问题的一种方法。每个域名都是独一无二的,不可重复的。
通常dns服务是驾驭在udp协议之上(53端口)。
二、网页与 HTML
网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,网站就是由网页组成的。如果只有域名和虚拟主机而没有制作任何网页,那么客户仍旧无法访问这个网站。因为网页是由 HTML(超文本标记语言)编写的。
1、网页概述
网页是一个文件,他存放在世界某个角落的某一部计算机中,而这部计算机必须是与互联网相连的。网页经由网址(URL)来识别与存取,是互联网中的一“页”。
网页的相关概念
域名:是浏览网页时输入的网址。
HTTP:用来传输网页的通信协议,使用浏览器访问网址时在域名前面要加上
http://,表示使用 http 协议传输网页。
URL:是一种万维网寻址系统,表示网络上资源的位置路径。
HTML:是编写网页的超文本标记语言。
网页的概念
4、HTML 概述
HTML 叫做超文本标记语言,是一种规范,也是一种标准,它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。
HTML 文件可以使用任何能够生成 txt 文件的文本编辑器来编辑,生成超文本标记语言文件,只用修改文件名后缀为”.html”或“.htm”即可。
html双标记语言
5、HTML 基本标签
(1)HTML 语法规则
HTML 标签采用双标记符的形式,前后标记符对应,分别表示标记开始和结束标记符中间的内容被标签描述。前标记符由“”表示,结尾标记符多了一个“/”,由“”表示。
(2)HTML 文件结构
HTML 文件最外层由<html><htm>表示,说明该文件是用 HTML 语言描述的。在它里面是并列的头标签(<head>)和内容标签(<body>)
网站是由网页组成的,包含多个网页页面,具有独立域名、独立存放空间的内容集合,这些内容可能是网页,也可能是程序或其他文件。
当一个网站服务器收到一台电脑上网络浏览器的消息连接请求时,便会向这台计算机发
送这个文档。当在浏览器的地址栏输入域名,而未指向特定目录或文件时,通常浏览器
会打开网站的首页。网站首页往往会被编辑得易于了解该网站提供的信息,并引导互联
网用户浏览网站其他部分的内容。这部分内容一般被认为是一个目录性质的内容。
6、Web1.0 与 Web2.0
Web1.0 是指早期互联网模式,以门户网站为主,内容由网站运营商提供,以巨大的点击量和增值服务为主盈利手段。
Web2.0 是相对于 Web1.0 的新的时代。指的是一个利用 Web 的平台,由用户主导而生成的内容互联网产品模式,如博客、社交网站等。为了区别传统由网站雇员主导生成的内容而定义为第二代互联网,即 Web2.0,是一个新的时代。
三、静态网页与动态网页
1、静态网页的特点
在网站设计中,纯粹 HTML 格式的网页通常被称为“静态网页”,静态网页是标准的HTML 文件,它的文件扩展名是.htm、.html。 静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态网页也可以出现各种动态的效果,如.GIF 格式的动画、FLASH、滚动字幕等。这些“动态效果”只是视觉上的,与下面将要介绍的动态网页是不同的概念。
静态网页的特点
静态网页的特点
2.动态网页
所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着 HTML代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非是修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。动态网页URL的后缀不是.htm、.html、.shtml、.xml 等静态网页的常见网页制作格式,而是以.aspx、.asp、.jsp、.php、.perl、.cgi 等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?”。
动态网页是基本的 html 语法规范与 Java、PHP、C#等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了 HTML 以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页。
早期的动态网页主要采用通用网关接口 CGI(Common Gateway Interface)技术,虽然 CGI 技术已经发展成熟而且功能强大,但由于编程困难、效率低下、修改复杂,所以有逐渐被新技术取代的趋势。
小结
四、HTTP 协议
1、HTTP 协议概述 默认会使用tcp80端口。 tomcat默认会用8080.
HTTP 协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本、以及包含请求修饰符、客户信息和内容的类似于 MIME 的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本成功或者错误编码加上服务器信息、实体元信息以及可能的实体内容
HTTP 已经演化出了很多版本,它们中的大部分都是向下兼容的。
(1)HTTP/0.9 已过时。只接受 GET 一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持 POST 方法,所以客户端无法向服务器传递太多信息。
(2)HTTP/1.0 这是第一个在通讯中指定版本号的 HTTP 协议版本,至今仍被广泛采用,特别是在代理服务器中。
(3)HTTP/1.1 当前版本。持久连接被默认采用,并能很好地配合代理服务器工作。还支持以管道方式同时发送多个请求,以便降低线路负载提高传输速度
2、HTTP 方法
HTTP 支持几种不同的请求命令,这些命令被称为 HTTP 方法 (HTTP method)
每条 HTTP 请求报文都包含一个方法,告诉服务器要执行什么动作,包括:获取一个页面,运行一个网关程序,删除一个文件等。
POST方法
GET 方法采用的是 URL 后缀的形式,比如 http://www.test.com/a.php?Id=123就是一个 GET 请求,服务器接收后可以解析出 Id=123。而 POST 方法不需要在 URL 中显示”?Id=123”,参数作为内容进行了隐藏的提交。因此,表单类或者有用户名、密码等内容提交时建议使用 POST 方法。
GET 方法在 URL 上显示参数,而 URL 是有长度限制,故不适合提交过大的数据。GET 方法可以被浏览器缓存,当请求已经被请求过一次的 URL 时,浏览器不需要向服务器再次发出请求,直接在本地缓存中获得页面。
GET方法
五、HTTP 状态码
HTTP 状态码(HTTP Status Code)是用以表示网页服务器 HTTP 响应状态的3位数字代码,当浏览器请求某一 URL 时,服务器根据处理情况返回相应的处理状态。
HTTP 状态码可以分为五大类。
生产环境常见的状态码如表
使用以下命令可以查看访问网站的状态码:
六、HTTP 请求流程分析
补充:
访问量(PV)
IP
UV(独立访客)
Cookie(身份信息)
用户在浏览器输入 URL 访问时,发起 HTTP 请求报文,请求中包括请求行、请求头、请求体,服务器收到请求后返回响应报文,包括状态行、响应头、响应体
1.请求报文
请求行:请求行由请求方法、URL 以及协议版本三部分组成。
请求头:请求头为请求报文添加了一些附加信息,由“名/值”对组成,每行一对,名和值之间使用冒号分隔
空行:请求头部的最后会有一个空行,表示请求头部结束,接下来为请求体,这一行非常重要,必不可少。
请求体:请求体是请求提交的参数,GET 方法已经在 URL 中指明了参数,所以提交时没有数据。POST 方法提交的参数在请求体中。
HTTP请求消息报文格式
2.响应报文
状态行:状态行由协议版本,状态码,状态码描述三部分组成。
响应头:响应头与请求头部类似,为响应报文添加了一些附加信息。
空行:响应头部的最后会有一个空行,表示响应头部结束。
响应体:服务器返回的相应 HTML 数据,浏览器对其解析后显示页面。
HTTP请求消息报文格式
本章总结
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。