700字范文 > 正则表达式匹配html标签获取标签内容

正则表达式匹配html标签获取标签内容

时间：2021-06-22 19:22:52

相关推荐

正则表达式匹配html标签获取标签内容

如何获取html中正文的内容

假设我们要获取下面html标签中的内容：

桥边姑娘你的芬芳我把你放心上不想让你流浪

王者荣耀

第一段是获取标签内部的数据，第二个是获取标签中的数据，其中span标签中有style属性值。

使用过正则表达式的同学肯定知道，上面两种情况其实都是一种情况，我们要获取的是尖括号括起来的一对标签中间的数据，起始标签形如<x>，结束标签形如</x>，这里的x表示的html标签。

定义正则表达式

此外，我们还需要考虑起始标签中包含style的数据，另外特殊的 标签，对实际获取数据无意义，也需要过滤掉。

通过上面的分析，我们可以如下正则表达式：

<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*?>

具体处理过程

数据预处理

在使用正则表达式处理之前，我们先对数据进行预处理，比如style和

标签：

/*** 替换掉html标签里面的style内容** @param content* @return*/public static String replaceStyle(String content) {if (content == null || content.length() == 0) {return content;}String regEx = " style=\"(.*?)\"";Pattern p = pile(regEx);Matcher m = p.matcher(content);if (m.find()) {content = m.replaceAll("");}return content;}

/*** 移除掉标签** @param src* @return*/public static String removeBrTag(String src) {if (src != null && !src.isEmpty()) {src = src.replaceAll(" ", "");}return src;}

针对标签嵌套的情况

针对多个标签嵌套的情况进行处理，比如王者荣耀，在经过预处理和正则匹配的后结果是王者荣耀，需要手工移除掉前面的起始标签，对应的方法如下：

/*** 针对多个标签嵌套的情况进行处理* 比如 王者荣耀* 预处理并且正则匹配完之后结果是 王者荣耀* 需要手工移除掉前面的起始标签* @param content* @return*/public static String replaceStartTag(String content) {if (content == null || content.length() == 0) {return content;}String regEx = "<[a-zA-Z]*?>([\\s\\S]*?)";Pattern p = pile(regEx);Matcher m = p.matcher(content);if (m.find()) {content = m.replaceAll("");}return content;}

具体匹配方法

/*** 匹配html标签，例如"xxx"这种格式*/private static Pattern HTML_TAG_PATTERN = pile("<[a-zA-Z]+.*?>([\\s\\S]*?)</[a-zA-Z]*?>");/*** 获取html中的数据* @param htmlString* @return*/public static List<String> getResultsFromHtml(String htmlString) {List<String> results = new ArrayList<>();// 数据预处理htmlString = replaceStyle(removeBrTag(htmlString));if (htmlString != null && htmlString.length() > 0) {Matcher imageTagMatcher = HTML_TAG_PATTERN.matcher(htmlString);// 针对多个并列的标签的情况while (imageTagMatcher.find()) {String result = "";// group(1)对应正则表达式中的圆括号括起来的数据result = imageTagMatcher.group(1).trim();// 针对多个标签嵌套的情况进行处理if (result != null && result.length() > 0) {result = replaceStartTag(result);}results.add(result);}}return results;}

测试验证

测试方法如下：

public static void main(String[] args) {String ss = "桥边姑娘你的芬芳我把你放心上不想让你流浪";List<String> results = getResultsFromHtml(ss);System.out.println("results:" + results);String ss1 = "王者荣耀";List<String> results1 = getResultsFromHtml(ss1);System.out.println("results1:" + results1);}

output:

results:[桥边姑娘, 你的芬芳, 我把你放心上, 不想让你流浪]results1:[王者荣耀]

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。