n2. Web相关知识和工具

转身後 默落 2024-07-27 17:33:03 阅读 79

Web相关知识和工具

1. http协议相关基础知识2. http协议状态码3. Web相关工具2.1 links2.2 wget2.3 curl2.4 httpie

4. httpd的压力测试工具

1. http协议相关基础知识

URI: Uniform Resource Identifier 统一资源标识,分为URL 和 URN

URN:Uniform Resource Naming,统一资源命名

URL:Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置

两者区别:URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而 URL提供查找该事物的方法。URN仅用于命名,而不指定地址

URL组成

<code><scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:方案,访问服务器以获取资源时要使用哪种协议

user:用户,某些方案访问资源时需要的用户名

password:密码,用户对应的密码,中间用:分隔

Host:主机,资源宿主服务器的主机名或IP地址

port:端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号

path:路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔

params:参数,指定输入的参数,参数为名/值对,多个参数,用;分隔

query:查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔

frag:片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

网站访问量统计的重要指标

IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次,记录远 程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览 某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页 面数量UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算 一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如 果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的

**Web资源:**web resource, 一个网页由多个资源(文件)构成,打开一个页面,通常会有多个资源展 示出来,但是每个资源都要单独请求。因此,一个"Web 页面”通常并不是单个资源,而是一组资源的集 合

资源类型:

静态文件:无需服务端做出额外处理,服务器端和客户端的文件内容相同

常见文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi 动态文件:服务端执行程序,返回执行的结果,服务器端和客户端的文件内容不相同

常见文件后缀:.php, .jsp ,.asp

HTTP请求报文

方法 URL 版本

<method> <request-URL> <version>

<headers>

<entity-body>

Method 方法

请求方法,标明客户端希望服务器对资源执行的动作,包括以下:

GET: 从服务器获取一个资源

HEAD: 只从服务器获取文档的响应首部

POST: 向服务器输入数据,通常会再由网关程序继续处理

PUT: 将请求的主体部分存储在服务器中,如上传文件

DELETE: 请求删除服务器上指定的文档

TRACE: 追踪请求到达服务器中间经过的代理服务器

OPTIONS:请求服务器返回对指定资源支持使用的请求方法

CONNECT:建立一个到由目标资源标识的服务器的隧道

PATCH:用于对资源应用部分修改

HTTP响应报文

版本 状态码 短语

<version> <status> <reason-phrase>

<headers>

<entity-body>

2. http协议状态码

http协议状态码分类

1xx:100-101 信息提示

2xx:200-206 成功

3xx:300-307 重定向

4xx:400-415 错误类信息,客户端错误

5xx:500-505 错误类信息,服务器端错误

http协议常用的状态码

200: 成功,请求数据通过响应报文的entity-body部分发送;OK

301: 请求的URL指向的资源已经被删除;但在响应报文中通过首部Location指明了资源现在所处的新位置;Moved Permanently

302: 响应报文Location指明资源临时新位置 Moved Temporaril

304: 客户端发出了条件式请求,但服务器上的资源未曾发生改变,则通过响应此响应状态码通知客户端;Not Modified

307: 浏览器内部重定向

401: 需要输入账号和密码认证方能访问资源;Unauthorized

403: 请求被禁止;Forbidden,一般是因为权限错误或主页文件不存在

404: 服务器无法找到客户端请求的资源;Not Found

413: 上传的资源超过了最大限制值

499: 客户端读超时关闭连接的错误码 499是客户端读超时关闭连接造成的,推荐从超时时间或者优化响应速度入手,web服务器发现客户端主动关闭连接后,记录到access日志中的。可能是客户端接收响应超时了,可以先在客户端统计下是不是这个原因,再调查为什么会导致超时

500: 服务器内部错误;Internal Server Error,比如:cgi程序没有执行权限,或连接数据库失败

502: 代理服务器从后端服务器收到了一条伪响应,如无法连接到网关;Bad Gateway,比如:后端服务端口没有打开,或后端服务不可用

503: 服务不可用,临时服务器维护或过载,服务器无法处理请求,比如:超过连接数和连接频率

504: 网关超时,或者后端服务器无回应报文,比如:服务端口虽然打开,但服务返回结果时间过长

3. Web相关工具

2.1 links

links [OPTION]... [URL]...

常用选项:

-dump 非交互式模式,显示输出结果

-source 打印源码

2.2 wget

wget [OPTION]... [URL]...

#启动

-V, -version 显示wget的版本后退出

-h, -help 打印语法帮助

-b, -background 启动后转入后台执行

-e, -execute=COMMAND 执行`.wgetrc'格式的命令,wgetrc格式参见/etc/wgetrc或~/.wgetrc

#记录和输入文件

-o, -output-file=FILE 把记录写到FILE文件中

-a, -append-output=FILE 把记录追加到FILE文件中

-d, -debug 打印调试输出

-q, -quiet 安静模式(没有输出)

-v, -verbose 冗长模式(这是缺省设置)

-nv, -non-verbose 关掉冗长模式,但不是安静模式

-i, -input-file=FILE 下载在FILE文件中出现的URLs

-F, -force-html 把输入文件当作HTML格式文件对待

-B, -base=URL 将URL作为在-F -i参数指定的文件中出现的相对链接的前缀

-sslcertfile=FILE 可选客户端证书

-sslcertkey=KEYFILE 可选客户端证书的KEYFILE

-egd-file=FILE 指定EGD socket的文件名

#下载

-bind-address=ADDRESS指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用)

-t, -tries=NUMBER 设定最大尝试链接次数(0 表示无限制).

-O -output-document=FILE 把文档写到FILE文件中

-nc, -no-clobber 不要覆盖存在的文件或使用.#前缀

-c, -continue 接着下载没下载完的文件

-progress=TYPE 设定进程条标记

-N, -timestamping 不要重新下载文件除非比本地文件新

-S, -server-response 打印服务器的回应

-spider 不下载任何东西

-T, -timeout=SECONDS 设定响应超时的秒数

-w, -wait=SECONDS 两次尝试之间间隔SECONDS秒

-waitretry=SECONDS 在重新链接之间等待1…SECONDS秒

-random-wait 在下载之间等待0…2*WAIT秒

-Y, -proxy=on/off 打开或关闭代理

-Q, -quota=NUMBER 设置下载的容量限制

-limit-rate=RATE 限定下载输率

#目录

-nd -no-directories 不创建目录

-x, -force-directories 强制创建目录

-nH, -no-host-directories 不创建主机目录

-P, -directory-prefix=PREFIX 将文件保存到目录 PREFIX/…

-cut-dirs=NUMBER 忽略 NUMBER层远程目录

#HTTP 选项

-http-user=USER 设定HTTP用户名为 USER.

-http-passwd=PASS 设定http密码为 PASS.

-C, -cache=on/off 允许/不允许服务器端的数据缓存 (一般情况下允许).

-E, -html-extension 将所有text/html文档以.html扩展名保存

-ignore-length 忽略 `Content-Length'头域

-header=STRING 在headers中插入字符串 STRING

-proxy-user=USER 设定代理的用户名为 USER

-proxy-passwd=PASS 设定代理的密码为 PASS

-referer=URL 在HTTP请求中包含 `Referer: URL'头

-s, -save-headers 保存HTTP头到文件

-U, -user-agent=AGENT 设定代理的名称为 AGENT而不是 Wget/VERSION.

-no-http-keep-alive 关闭 HTTP活动链接 (永远链接).

-cookies=off 不使用 cookies.

-load-cookies=FILE 在开始会话前从文件 FILE中加载cookie

-save-cookies=FILE 在会话结束后将 cookies保存到 FILE文件中

#FTP 选项

-nr, -dont-remove-listing 不移走 `.listing'文件

-g, -glob=on/off 打开或关闭文件名的 globbing机制

-passive-ftp 使用被动传输模式 (缺省值).

-active-ftp 使用主动传输模式

-retr-symlinks 在递归的时候,将链接指向文件(而不是目录)

#递归下载

-r, -recursive 递归下载--慎用!

-l, -level=NUMBER 最大递归深度 (inf 或 0 代表无穷).

-delete-after 在现在完毕后局部删除文件

-k, -convert-links 转换非相对链接为相对链接

-K, -backup-converted 在转换文件X之前,将之备份为 X.orig

-m, -mirror 等价于 -r -N -l inf -nr.

-p, -page-requisites 下载显示HTML文件的所有图片

#递归下载中的包含和不包含(accept/reject)

-A, -accept=LIST 分号分隔的被接受扩展名的列表

-R, -reject=LIST 分号分隔的不被接受的扩展名的列表

-D, -domains=LIST 分号分隔的被接受域的列表

-exclude-domains=LIST 分号分隔的不被接受的域的列表

-follow-ftp 跟踪HTML文档中的FTP链接

-follow-tags=LIST 分号分隔的被跟踪的HTML标签的列表

-G, -ignore-tags=LIST 分号分隔的被忽略的HTML标签的列表

-H, -span-hosts 当递归时转到外部主机

-L, -relative 仅仅跟踪相对链接

-I, -include-directories=LIST 允许目录的列表

-X, -exclude-directories=LIST 不被包含目录的列表

-np, -no-parent 不要追溯到父目录

常用选项:

-q 静默模式

-c 断点续传

-P /path 保存在指定目录

-O filename 保存为指定文件名,filename 为 - 时,发送至标准输出

--limit-rate= 指定传输速率,单位K,M等

2.3 curl

curl是基于URL语法在命令行方式下工作的文件传输工具,它支持FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE及LDAP等协议。curl支持HTTPS认证,并且支持HTTP的POST、PUT等方法, FTP 上传, kerberos认证,HTTP上传,代理服务器,cookies,用户名/密码认证, 下载文件断点续传,上 载文件断点续传, http代理服务器管道( proxy tunneling),还支持IPv6,socks5代理服务器,通过 http代理服务器上传文件到FTP服务器等,功能十分强大

curl [options] [URL...]

-A/--user-agent <string> 设置用户代理发送给服务器

-e/--referer <URL> 来源网址

--cacert <file> CA证书 (SSL)

-k/--insecure 允许忽略证书进行 SSL 连接

--compressed 要求返回是压缩的格式

-H/--header "key:value” 自定义首部字段传递给服务器

-i 显示页面内容,包括报文首部信息

-I/--head 只显示响应报文首部信息

-D/--dump-header <file>将url的header信息存放在指定文件中

--basic 使用HTTP基本认证

-u/--user <user[:password]>设置服务器的用户和密码

-L 如果有3xx响应码,重新发请求到新位置

-O 使用URL中默认的文件名保存文件到本地

-o <file> 将网络文件保存为指定的文件中

--limit-rate <rate> 设置传输速度

-0/--http1.0 数字0,使用HTTP 1.0

-v/--verbose 更详细

-C 选项可对文件使用断点续传功能

-c/--cookie-jar <file name> 将url中cookie存放在指定文件中

-x/--proxy <proxyhost[:port]> 指定代理服务器地址

-X/--request <command> 向服务器发送指定请求方法

-U/--proxy-user <user:password> 代理服务器用户和密码

-T 选项可将指定的本地文件上传到FTP服务器上

--data/-d 方式指定使用POST方式传递数据

-s --silent Silent mode

-b name=data 从服务器响应set-cookie得到值,返回给服务器

-w <format> 显示相应的指定的报文信息,如:%{ http_code},%{ remote_ip}等

-m, --max-time <time> 允许最大传输时间

2.4 httpie

HTTPie 工具是功能丰富的 HTTP 命令行客户端,它能通过命令行界面与 Web 服务进行交互。它提供一 个简单的 http 命令,允许使用简单而自然的语法发送任意的 HTTP 请求,并会显示彩色的输出

HTTPie 能用于测试、调试及与 HTTP 服务器交互。

官方网站:https://httpie.org

主要特点:

具表达力的和直观语法

格式化的及彩色化的终端输出

内置 JSON 支持

表单和文件上传

HTTPS、代理和认证

任意请求数据

自定义头部

持久化会话

类似 wget 的下载

支持 Python 2.7 和 3.x

[root@Ubuntu2204 ~]#apt -y install httpie

[root@centos8 ~]#yum install httpie -y

4. httpd的压力测试工具

ab, webbench, http_load, seigeJmeter 开源 Loadrunner 商业,有相关认证tcpcopy:网易,复制生产环境中的真实请求,并将之保存

ab 来自httpd-tools包

ab [OPTIONS] URL

-n:总请求数

-c:模拟的并发数

-k:以持久连接模式测试



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。