网站首页 站群教程 原创站群教程 正文
有朋友找我们开发泛目录爬词工具,简单写了个php的demo,没收费,免费分享出来。
使用方法
php程序,无限循环,挂机宝塔定时任务就可以。
url.txt填写需要抓取的域名的规则,如:www.ccooc.cn/{数字3}.html。
no.txt填写过滤词,一行一个。
思路
在url.txt有域名,一行一个,支持规则 {年}、 {月}、 {日}、 {时}、 {分}、 {秒}、 {数字5}、 {字母5}、 {字符5}
读取url.txt的一行文件,并根据规则生成网址;
使用curl访问该网址,模拟百度ua,访问生成后的网址,读取标题,关键词,及描述三个数据,如果为空则不保存;
将这三个数据经过no.txt(过滤词文件,一行一个)的过滤后;
将数据分别存储到title.txt,key.txt,description.txt,这三个txt如果没有则新建,如果有了则追加内容在下一行;
未完善的部分
为了追求速度,未考虑到抓取内容的重复,后期需要使用其他php过滤重复行。
成品代码
为了便于理解,特为每行代码加了注释。
<?php $url_file = "url.txt"; // 存储需要访问的URL的文件名 $keyword_file = "no.txt"; // 存储过滤关键词的文件名 $title_file = "title.txt"; // 存储抓取到的页面标题的文件名 $key_file = "key.txt"; // 存储抓取到的页面关键词的文件名 $description_file = "description.txt"; // 存储抓取到的页面描述的文件名 while (true) { // 进入死循环,不断遍历 URL 列表并访问对应的网页进行内容抓取 if ($file = fopen($url_file, "r")) { // 以只读模式打开 URL 列表文件,如果打开成功 while(!feof($file)) { // 遍历文件中的每一行 URL $line = fgets($file); // 读取一行 URL $line = trim($line); // 去除 URL 前后的空格和换行符 if (!$line) { // 如果 URL 是空的或者只包含空格和换行符,则不做处理,继续循环下一行 continue; } $new_url = preg_replace_callback("/{(.*?)}/", function ($match) { // 将 URL 中的占位符替换为实际的值,即当前时间、随机数、随机字符串等 switch ($match[1]) { // 根据占位符的内容进行不同的替换 case "年": return date("Y"); case "月": return date("m"); case "日": return date("d"); case "时": return date("H"); case "分": return date("i"); case "秒": return date("s"); case "数字5": return rand(10000, 99999); case "字母5": return substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"),0,5); case "字符5": return substr(str_shuffle("abcdefghijklmnopqrstuvwxyz0123456789"),0,5); } }, $line); $ch = curl_init(); // 初始化一个 cURL 对象 curl_setopt($ch, CURLOPT_URL, $new_url); // 设置要访问的 URL curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 将结果保存到变量而不是输出到屏幕上 curl_setopt($ch, CURLOPT_HTTPHEADER, array( // 设置 HTTP 头,模拟浏览器发送请求 "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36" )); $html = curl_exec($ch); // 发送请求并获取页面内容 curl_close($ch); // 关闭 cURL 对象 $doc = new DOMDocument(); // 创建一个新的 DOMDocument 对象,用于解析 HTML @$doc->loadHTML('<?xml encoding="UTF-8">' . $html); // 将页面内容转化为 XML 格式,并加载到 DOMDocument 中 $title = $doc->getElementsByTagName('title')->item(0)->nodeValue; // 获取页面标题 $metas = $doc->getElementsByTagName('meta'); // 获取页面上的 meta 标签 $description = ""; // 初始化页面描述变量 $keywords = ""; // 初始化页面关键词变量 for ($i = 0; $i < $metas->length; $i++) { // 遍历每一个 meta 标签 $meta = $metas->item($i); if (strtolower($meta->getAttribute('name')) == 'description') { // 如果当前标签的 name 属性是 description,则获取其 content 属性的值作为页面描述 $description = $meta->getAttribute('content'); } if (strtolower($meta->getAttribute('name')) == 'keywords') { // 如果当前标签的 name 属性是 keywords,则获取其 content 属性的值作为页面关键词 $keywords = $meta->getAttribute('content'); } } $no_array = file($keyword_file, FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES); // 将过滤关键词列表文件中的内容读取到数组中 $filtered_title = filter($title, $no_array); // 对页面标题进行过滤,并返回过滤后的内容 $filtered_keywords = filter($keywords, $no_array); // 对页面关键词进行过滤,并返回过滤后的内容 $filtered_description = filter($description, $no_array); // 对页面描述进行过滤,并返回过滤后的内容 if ($filtered_title) { // 如果过滤后的标题不为空,则将其写入到标题文件中 file_put_contents($title_file, $filtered_title . "\n", FILE_APPEND | LOCK_EX); } if ($filtered_keywords) { // 如果过滤后的关键词不为空,则将其写入到关键词文件中 file_put_contents($key_file, $filtered_keywords . "\n", FILE_APPEND | LOCK_EX); } if ($filtered_description) { // 如果过滤后的描述不为空,则将其写入到描述文件中 file_put_contents($description_file, $filtered_description . "\n", FILE_APPEND | LOCK_EX); } sleep(1); // 休息一秒,防止过于频繁地访问网页 } fclose($file); // 关闭 URL 列表文件 } } function filter($str, $no_array) { // 过滤函数 $filtered_str = trim(preg_replace('/\s+/', ' ', $str)); // 去除多余的空格和换行符 foreach ($no_array as $no) { // 遍历过滤关键词数组 if (stripos($filtered_str, $no) !== false) { // 如果当前字符串中包含任意一个过滤关键词,则返回 false,表示需要被过滤掉 return false; } } return $filtered_str; // 如果没有匹配到任何过滤关键词,则返回过滤后的内容 }
友情提示
当使用PHP采集工具进行数据采集时,需要注意以下几点:
1. 合法性:确保你要采集的内容是合法且没有侵犯任何版权或隐私权的。不要采集敏感信息或者对他人造成不当的影响。
2. 速率控制:在进行数据爬取时,应该确保你的程序不会在短时间内频繁访问同一个网站,否则会被识别为恶意行为并被禁止访问。因此,设置适当的访问时间间隔和速率限制非常重要。
3. 数据清洗:采集到的数据可能存在一些不规则的格式或错误的字符,这些问题需要及时清洗,确保数据的准确性和完整性。
4. 数据存储:在采集数据后,应该把它们存储到数据库或者文件里面,并设置好相关的索引等等,以便后续的使用和管理。
5. 责任:采集数据时遵循尊重他人的原则,如果使用他人的数据应该注明出处并获得合法许可。
总之,在进行数据采集时,需要保证合法性、速率控制、数据清洗、数据存储和负责任的态度。
- 上一篇: 为泛目录关键词提供下拉词联想功能
- 下一篇: 下拉词采集+速度提升:懒人站群程序V2.4
必看说明
- 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
- 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
- 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
- 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
- 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
- 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
- 转载请注明 : 文章转载自 曹操SEO 泛目录爬词工具PHP代码
- 本文标题:《泛目录爬词工具PHP代码》
- 本文链接:https://ccooc.cn/1999.html
猜你喜欢
- 2024-08-18 罪恶克星:不良网站举报工具填表版
- 2024-04-22 通过Nginx配置增强网站安全性
- 2024-04-01 CCSEO原创蜘蛛统计v1.3
- 2024-03-23 搜狐自媒体批量发布软件V2.3
- 2024-01-27 CCSEO原创蜘蛛统计v1.2
- 2023-11-27 如何使用伪静态全站301实现集权和保持流量到主站
- 2023-10-22 CCSEO原创蜘蛛统计v1.1
- 2023-10-09 跟踪301重定向获取落地页域名的php代码
- 2023-09-26 百度站长资源平台已可重新添加域名
- 2023-09-25 低价出售本站子站点,阿里云域名及源码全部甩卖
你 发表评论:
欢迎- 6948℃遵纪守法:一起举报违法网址
- 5704℃警惕“冒用身份”的电信网络诈骗
- 6122℃备案域名的买卖管控会越来越严,不要尝试!
- 4155℃6月1日是《中华人民共和国网络安全法》实施五周年
- 3706℃违规事件分类与违规信息类型说明
- 3486℃关于严格遵守网络安全法规的公告
- 5446℃百度正打击构造虚假标题等违规站点
- 6546℃「百日行动」“断卡”行动持续发力
- 12727℃懒人开源站群程序V2.4.2:影视模板V2
- 12164℃通过Nginx配置增强网站安全性
- 11828℃多线程批量查询百家号文章存活情况
- 11042℃搜狐号安全系统升级通知
- 9921℃百家号批量发布软件V1.8.5
- 9437℃多线程批量查询链接收录情况(免代理)
- 8426℃企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 5965℃CCSEO原创蜘蛛统计v1.3
- 08-18罪恶克星:不良网站举报工具填表版
- 05-01多线程批量查询百家号文章存活情况
- 04-22通过Nginx配置增强网站安全性
- 04-22企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 04-21搜狐号安全系统升级通知
- 04-18多线程批量查询链接收录情况(免代理)
- 04-09懒人开源站群程序V2.4.2:影视模板V2
- 04-03百家号批量发布软件V1.8.5
- 近期评论
- 文章归档
-
- 2024年4月 (5)
- 2024年3月 (6)
- 2024年1月 (2)
- 2023年12月 (4)
- 2023年11月 (2)
- 2023年10月 (7)
- 2023年9月 (24)
- 2023年8月 (6)
- 2023年7月 (20)
- 2023年6月 (13)
- 2023年5月 (26)
- 2023年4月 (48)
- 2023年3月 (27)
- 2023年2月 (15)
- 2023年1月 (11)
- 2022年12月 (16)
- 2022年11月 (7)
- 2022年10月 (33)
- 2022年9月 (45)
- 2022年8月 (18)
- 2022年7月 (23)
- 2022年6月 (24)
- 2022年5月 (10)
- 2022年4月 (54)
- 2022年3月 (68)
- 2022年2月 (3)
- 2022年1月 (4)
- 2021年12月 (27)
- 2021年11月 (20)
- 2021年10月 (4)
- 2021年9月 (22)
- 2021年8月 (71)
- 2021年7月 (4)
- 2021年6月 (17)
- 2021年5月 (28)
- 2021年4月 (1)
- 2021年3月 (39)
- 2021年1月 (8)
- 2020年12月 (31)
- 2020年11月 (15)
- 2020年10月 (50)
- 2020年9月 (114)
- 2020年8月 (63)
- 2020年7月 (30)
- 2020年6月 (50)
- 2020年5月 (127)
- 2020年4月 (83)
- 2020年3月 (92)
- 2020年2月 (82)
- 2020年1月 (18)
- 2019年12月 (79)
- 2019年11月 (16)
- 2019年10月 (35)
- 2019年9月 (3)
- 2017年12月 (1)
- 2017年11月 (203)
- 2017年10月 (155)
- 标签列表
- 站点信息
-
- 文章总数:2023
- 页面总数:7
- 分类总数:46
- 标签总数:340
- 评论总数:9245
- 浏览总数:5685348
已有47位网友发表了看法:
huihui 评论于 [2023-07-31 21:47:30] 回复
怎么使用呢