本站首页    管理页面    写新日志    退出

我的分类(专题)

公告

日志更新

最新评论

留言板

链接

Blog信息
blog名称:网络爬虫
日志总数:39
评论数量:202
留言数量:2
访问次数:246674
建立时间:2005年3月22日



[JSP应用]JSP获取网页源文件并抓取其中的链接地址
软件技术

网络爬虫 发表于 2005/5/3 18:43:39

利用java的net包获取网页源文件,使用正则表达式抓取当中的链接地址,因正则表达式学艺不精,下面这个例子中并不能抓取所有情况下的href属性中的链接地址 test.jsp <%@ page contentType="text/html; charset=gb2312" language="java" import="java.util.regex.*" errorPage="" %><%String sCurrentLine;  String sTotalString;  sCurrentLine="";  sTotalString="";  java.io.InputStream l_urlStream;  java.net.URL l_url = new java.net.URL("http://www.5ja.net");  java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();  l_connection.connect();  l_urlStream = l_connection.getInputStream();  java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));  while ((sCurrentLine = l_reader.readLine()) != null)  {  sTotalString+=sCurrentLine;  }  //String regEx = "href=([^\"']*)>";String regEx ="href=\"([^\"]*)\"";//找出href="****"的链接Pattern p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);Matcher m = p.matcher(sTotalString);int j=0;while(m.find()){j++;out.println("m.group(" + j + "): " + m.group(0)+"<br>");}regEx ="href='([^']*)'";//找出href='****'的链接p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);//Pattern.CASE_INSENSITIVE查找忽略大小写m = p.matcher(sTotalString);while(m.find()){j++;out.println("m.group(" + j + "): " + m.group(0)+"<br>");}%>


阅读全文(2883) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

 


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.164 second(s), page refreshed 144770736 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号