倾程记 flyby      本站首页     管理页面    写新日志    退出   


[CS技巧]网页数据抓取并分析 
flyby 发表于 2005/7/8 12:39:21

项目需求1、抓取网页数据,分析网页数据中的[下一页]的网址,继续抓取数据,直到把所有需要的网页全部下载完毕;2、对上一部抓取下来的数据进行分析,保存为需要的Xml格式文件,供相关程序使用。 技术分析使用C#作为开发工具,用WebRequest、WebResponse获取网页数据,用正则表达式分析数据,生成XML文件保存到指定目录。该程序应主要有两点:一、抓取网页数据,保存文件到指定目录用WebRequest、WebResponse获取网页数据,用StreamWriter将数据写入文件。获取网页中相关链接,重复获取网页数据。二、分析数据,生成XML文件读取第一步生成的文件,用正则分析数据,构造XML文件,保存到本地目录。

阅读全文(23690) | 回复(12) | 编辑 | 精华

回复:网页数据抓取并分析
KANKAN(游客|218.249.200.136)发表评论于2005/8/4 11:46:39

WW

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
xxb(游客|59.40.8.153)发表评论于2005/8/2 22:23:36

如“http://51js.zahui.net/html/1/30225.htm”有个"验证码确认",如何获得验证码中的数字,请问能否做到,若能做到,请报价。
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
» 1 2 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

 
«January 2026»
123
45678910
11121314151617
18192021222324
25262728293031

  公告

此Blog中的文章仅代表本人当时观点,不对其正确性做任何担保。转载原创,请知会作者。QQ  MSN


  我的分类(专题)
  最近日志

  最新评论

  留言板

  链接

  Blog信息

blog名称:倾程记
日志总数:27
评论数量:72
留言数量:-3
访问次数:235273
建立时间:2005年7月8日



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.473 second(s), page refreshed 144801083 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号