本文介绍如何使用C#抓取网页上的图片资源。下面是简单的程序示例。
抓取的图片地址会保存为TXT文档,保存在软件目录下。
实现该功能主要使用了几个简单的方法:
使用WebClient 读取网页源码:
复制
public String gethtml(String url) { try { WebClient MyWebClient = new WebClient(); MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据 Byte[] pageData = MyWebClient.DownloadData(url); //从指定网站下载数据 //string pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句 string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句 return pageHtml; } catch (WebException webEx) { return webEx.Message.ToString(); } }
截取字符串中间方法:
复制
public String getstrmid(String str, string str1, string str2) { return str.Substring(str.IndexOf(str1) + str1.Length, str.IndexOf(str2) -str.IndexOf(str1) - str1.Length); }
仅仅是这些是不够的,还需要使用到正则匹配,由于正则的规则与网页内容有关,所以这里就不贴正则规则了。
评论 (1)