当前位置：首页 > 后端 > php > 使用PHP的正则抓取页面中的网址

使用PHP的正则抓取页面中的网址

DChen3年前 (2021-12-31)php2.66 K0

最近有一个任务，从页面中抓取页面中所有的链接，当然使用php 正则表达式是最方便的办法。要写出正则表达式，就要先总结出模式，那么页面中的链接会有几种形式呢？

链接也就是超级链接，是从一个元素（文字、图片、视频等）链接到另一个元素（文字、图片、视频等）。网页中的链接一般有三种，一种是绝对URL超链接，也就是一个页面的完整路径；另一种是相对URL超链接，一般都链接到同一网站的其他页面；还有一种是页面内的超链接，这种一般链接到同一页面内的其他位置。

搞清楚了链接的种类，就知道要抓链接，主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式，就必须要了解我们查找的对象的模式。

先说绝对链接，也叫作URL（Uniform Resource Locator），标识了互联网上的唯一资源。URL的结构包含三部分：协议、服务器名称、路径和文件名。

协议是告诉浏览器如何处理将要打开文件的标识，最常见的就是 http 协议。本文也只考虑HTtp协议，至于其他的 https、ftp、mailto、telnet协议等，根据需要也可以添加。

服务器名称是告诉浏览器如何到达这个服务器的方式，通常是域名或者IP地址，有时还会包含端口号（默认为80）。FTP协议中，也可以包含用户名和密码，本文就不考虑了。

路径和文件名，一般以 / 分割，指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名，则访问这个文件夹下的默认文件（可以在服务器端设置）。

那么现在清楚了，要抓取的绝对链接的典型形式可以概括为

http://www.xxx.com/xxx/yyy/zzz.html

每个部分可以使用的字符范围有明确的规范，具体可以参考RFC1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解释如下：

(http|https)第一个括号内匹配的是协议部分。

([\w\d\-_]+[\.\w\d\-_]+)第二个括号内匹配的是域名部分。

([\/]?[\w\/\.]+)第三个括号内匹配的是相对路径。

写到这个时候，基本上大部分的网址都能匹配到了，但是对于URL中带有参数的还不能抓取，这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用？来分割，后面带上参数，但是现代的RIA应用有可能使用其他奇怪的形式进行分割。

稍微修改一下，这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况，例如URL中有中文、有空格及其他特殊字符的情况，但是基本上能够满足我的需求了，就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括号的好处是，在处理结果时，可以很容易的获取到协议、域名、相对路径这些内容，方便后续的处理。

例如使用 preg_match_all() 匹配时，结果数组索引0为全部结果、1为协议、2为域名、3为相对路径。

喜欢 (0) 打赏分享

感谢您的支持，我会继续努力的!

扫码打赏，你说多少就多少

打开支付宝扫一扫，即可进行扫码打赏哦

本文链接：https://www.phper.red/post/147.html

标签: 协议域名服务器正则表达式

返回列表

上一篇：关于 PHP Opcache 缓存刷新、代码重载

下一篇：twig模板库之数字舍入--round

PHP读取CSV大文件导入数据库3年前 (2021-04-14)

php常用几种设计模式的应用场景3年前 (2021-04-18)

教你用ThinkPHP中thinkphp-queue3年前 (2021-04-27)

21个php常用方法汇总3年前 (2021-04-28)

tp5 paginate列表分页传递额外参数3年前 (2021-05-03)

PHP获取今天、昨天、明天的日期3年前 (2021-05-04)

简单处理抖音视频去水印3年前 (2021-05-12)

php实现栈结构3年前 (2021-05-16)

PHP使用Echarts生成数据统计报表3年前 (2021-05-16)

获取富文本中前N个字符数3年前 (2021-05-21)

修改富文本里边的图片链接3年前 (2021-05-21)

slim使用logger日志自定义输出格式3年前 (2021-05-25)

使用PHP的正则抓取页面中的网址

相关文章

发表评论

Copyright © 憨小猪博客 2021 备案号：粤ICP备17086945号

Powered By Z-BlogPHP. Theme by TOYEAN.

使用PHP的正则抓取页面中的网址

相关文章

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论