php 如何精准获取网站中的所有超链接?
想获取网站中的所有超链接,使用的是php snoopy类
$sourceURL = $url;
$snoopy->fetchlinks($sourceURL);
$content = $snoopy->results;
获取的结果如下:
array (size=627)
0 => string '//' (length=49)
1 => string 'http://sh.?tracelog=nav_ma' (length=41)
2 => string '/feedback/default.htm?routeto=inbox&tracelog=nav_ma_mc' (length=80)
3 => string '//hz-/favorite/favorite_home.htm?tracelog=nav_ma_fav' (length=94)
4 => string '/form.htm?tracelog=header_myalibaba' (length=57)
5 => string 'http://hz./rfq/request/rfq_manage_list.htm?tracelog=nav_ma_mana_rfq' (length=87)
6 => string '/generalorders/list_orders.htm?tracelog=ma_mana_orders' (length=76)
7 => string 'http://sh./product/post_product_interface.htm?tracelog=newschp_nav_madp' (length=86)
8 => string 'http://sh./product/manage_products.htm?tracelog=newschp_nav_mamng' (length=80)
9 => string 'http://hz./rfq/quotation/rfq_not_quoted_manage_list.htm?nav_ma_rec_rfqs' (length=91)
10 => string '/javascript:;' (length=35)
11 => string '/Products?tracelog=beacon_cate_140704' (length=59)
12 => string '/form.htm?tracelog=header_forbuyers' (length=57)
13 => string '?tracelog=beacon_expo_150820' (length=57)
14 => string '?tracelog=nav_ws' (length=44)
15 => string '/bizid_buyer?tracelog=nav_bi' (length=52)
16 => string '/bao/buyer_advertise.htm?tracelog=from_home_menu' (length=81)
17 => string '/alibaba/secure-payment.php?tracelog=beacon_payment_150114' (length=87)
18 => string '/ecl/buyer.htm?tracelog=beacon_credit_140704' (length=70)
19 => string '/?tracelog=beacon_is_140704' (length=56)
20 => string '/intelligence?tracelog=beacon_ti_140704' (length=63)
21 => string '/forum?tracelog=beacon_df_140704' (length=56)
22 => string '/?tracelog=beacon_ta_140704' (length=49)
23 => string '/javascript:;' (length=35)
24 => string '/memberships/index.html?tracelog=seller_channel_member_hp_header' (length=89)
25 => string '/learningcenter?tracelog=seller_channel_lc_hp_header' (length=77)
26 => string '/training.htm?tracelog=seller_channel_training_hp_header' (length=81)
27 => string '/?tracelog=newschp_nav_narfq' (length=55)
28 => string '/javascript:;' (length=35)
怎么能把“/javascript:;”类似的URL去掉?
相关阅读:
为什么$_POST无法取到值?
怎样让普通用户运行需要管理员权限才能运行的软件?
有没有什么Linux命令大全的网站?
第二次ajax提取页面的时候,main.js没有重新加载,或者说,所有的js都没有重新加载的问题
怎样解决商品锁定的问题?
移动端web外卖定位当前城市的功能是怎么做的?
针对IE单独设置CSS
golang传参的问题
uglify-js中的Conditional compilation(条件编译)(node.js)
Delphi 制作ActiveX Lib,如何把依赖的DLL一起编译
js图片切换动画
如何设计日志表?
notepad++突然崩溃,保存的文件没了怎么办
手机网页中,长按会触发系统事件,请问怎么取消这些事件?
用angular框架开发项目前端和后端工作细分是怎么样的?
sql 查出一个表中每个分组的两条数据,思路即可
设计一个合同数据表,文档该怎么存放
放大图片的拖动如何实现
用sitemesh有什么好处么?
自己写了个简单的下拉刷新,查是有管滚动条在什么位置下拉都会刷新~求帮忙分析下~