[CS技巧]网页数据抓取并分析  |
flyby 发表于 2005/7/8 12:39:21 | 项目需求1、抓取网页数据,分析网页数据中的[下一页]的网址,继续抓取数据,直到把所有需要的网页全部下载完毕;2、对上一部抓取下来的数据进行分析,保存为需要的Xml格式文件,供相关程序使用。
技术分析使用C#作为开发工具,用WebRequest、WebResponse获取网页数据,用正则表达式分析数据,生成XML文件保存到指定目录。该程序应主要有两点:一、抓取网页数据,保存文件到指定目录用WebRequest、WebResponse获取网页数据,用StreamWriter将数据写入文件。获取网页中相关链接,重复获取网页数据。二、分析数据,生成XML文件读取第一步生成的文件,用正则分析数据,构造XML文件,保存到本地目录。
|
阅读全文(23690) | 回复(12) | 编辑 | 精华 |
| 回复:网页数据抓取并分析 |
|
KANKAN(游客|218.249.200.136)发表评论于2005/8/4 11:46:39 | WW
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
xxb(游客|59.40.8.153)发表评论于2005/8/2 22:23:36 | 如“http://51js.zahui.net/html/1/30225.htm”有个"验证码确认",如何获得验证码中的数字,请问能否做到,若能做到,请报价。
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
| « | January 2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | |
|
| 公告 |
此Blog中的文章仅代表本人当时观点,不对其正确性做任何担保。转载原创,请知会作者。QQ MSN | |
| Blog信息 |
|
blog名称:倾程记 日志总数:27 评论数量:72 留言数量:-3 访问次数:235273 建立时间:2005年7月8日
| |

|