700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 用正则将html中的url提取 使用正则表达式从HTML中提取文本和链接

用正则将html中的url提取 使用正则表达式从HTML中提取文本和链接

时间:2022-05-20 02:56:39

相关推荐

用正则将html中的url提取 使用正则表达式从HTML中提取文本和链接

暂时编码< a href ...> …< / a>进入别的东西,删除所有其他标签然后恢复< a>标签:

// Example in javascript:

string.

replace(//g,'\0$1\0').

replace(//,'\1').

replace(/]*>/,'').

replace(/\0(.*?)\0/,'').

replace(/\1/,'');

在上面的代码中,我使用NUL和SOH字符(ASCII 0x00和0x01)作为< a>的替换.标签只是因为它们不太可能出现在字符串中.您可以随意将其替换为字符串中不会出现的任何其他字符或字符序列.

从其他评论看来,您正在浏览器中运行.在这种情况下,浏览器已经将HTML解析为一个漂亮的DOM树.使用DOM方法解析树并按照您希望的方式处理它:

function simpleHTML (domNode) {

var ret = "";

if (domNode.nodeType === Node.ELEMENT_NODE) {

var children = domNode.childNodes;

for (var i=0;i

var child = children[i];

// Filter out unwanted nodes to speed up processing.

// For example, you can ignore 'SCRIPT' nodes etc.

if (child.nodeName != 'SCRIPT') {

if (child.nodeName == 'A') {

ret += '' +

simpleHTML(child) +

'';

}

else {

ret += simpleHTML(child);

}

}

}

}

else if (domNode.nodeType === Node.TEXT_NODE) {

ret += domNode.nodeValue;

}

return ret;

}

// serialize the whole document:

var simpleDocument = simpleHTML(document.body);

// serialize a div:

var simpleDiv = simpleHTML(document.getElementById('some_div'));

// filter a html formatted string:

var temp = document.createElement('DIV');

temp.innerHTML = original_string;

simple_string = simpleHTML(temp);

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。