我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码:
/**
* Download the file specified by an URL.
*/
package fetchInformation;
import java.io.*;
import java.net.*;
/**
* @author caojinghua
*
*/
public class DownloadFiles {
public static void LoadFiles(String spec, File save)
{
try{
URL url=new URL(spec);
BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream()));
//output to a file
BufferedWriter out=new BufferedWriter(new FileWriter(save));
String line=null;
while((line=in.readLine())!=null)
{
out.write(line);
}
if(in!=null)
in.close();
if(out!=null)
out.close();
}catch(MalformedURLException e)
{
System.out.println(e);
}catch(IOException ioe)
{
System.out.println(ioe);
}
}
/**
* @param args
*/
public static void main(String[] args) {
String savepath="a.txt";
String url="http://www.dianping.com/";
try{
File savefile=new File(savepath);
LoadFiles(url, savefile);
}catch(NullPointerException e){
System.out.println(e);
}
}
}
奇怪的是,存储获取到的代码的文件a.txt的内容只有一行:http://www.dianping.com。而若改成获取其他的网站,譬如:url="http://www.google.cn",获取到的内容跟用浏览器查看网页源文件里的内容是一样的,我试过很多网站都没问题,但上面这个网站就不行,不知道是不是该网站要登陆的原因,但用浏览器浏览该网站时是不用登陆的。
分享到:
相关推荐
利用IDHTTP多次获取网页代码,大概可以一次查询2万个网页代码,只要大家网速好,更多也没什么。
网页代码获取工具
可以获取网页源代码,用来修改其源代码,然后你可以重新打开网页.
VC++ 获取网页源代码
获取网页代码 Visual C++2010环境
mfc获取网页源代码并保存进txt文本中
VC++ 获取网页源代码 get post
http协议+socket获取网页内容源代码。
VC,MFC获得网页源代码 VC,MFC获得网页源代码 VC,MFC获得网页源代码 VC,MFC获得网页源代码 VC,MFC获得网页源代码 VC,MFC获得网页源代码
vb 获取网页代码 傻瓜式教程 图文结合,有点罗嗦, 高手飘过
根据所提供的网站地址,获取网页的源代码。可以从文本文件中读取网站地址,以及将获取的网页源代码导出文本文件
有的网页设置了不可复制功能。这个小工具可以不受限制地获取网页中的文本内容,可以选择是否包含网页标签。
方便的获取网页源代码,对网页的内容进行复制、修改等。
用VBS获取网页源代码.vbs set http=createobject("Microsoft.XMLHTTP") '\\调用XMLHTTP对象 url="http://www.119880.com/qq.txt" '\\赋予变量URL值 Set hhh = createObject("Microsoft.XMLHTTP") hhh.open "get",...
获取网页的纯文本信息内容,测试通过,也可修改抓取源码
代码如下:#include <stdio>#include <windows>#include <wininet>#define MAXSIZE 1024#pragma comment(lib, “Wininet.lib”) void urlopen(_TCHAR*); int _tmain(int argc, _TCHAR* argv[]){ urlopen(_T(“//...
打开网页显示本机IP地址。 如何查询对方IP地址信息。
输入指定网址,获取网页源代码的VB小程序,输入网址后左侧显示网页内容,右侧显示该网页的源代码,很久以前开发的小程序了,烈火小编在测试时有点问题,因此未获取到源代码,一个比较鸡肋的东西。