`
butterfly
  • 浏览: 8758 次
  • 性别: Icon_minigender_1
  • 来自: Sun Yet-sen Universi
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表
今天看了IBM公司开发的两个开源工具包,名称分别是UIMA和IODT。         UIMA是Unstructured Information Management Architecture,我译作“非结构化信息的管理架构”。可以在这里找到它的相关介绍和下载:http: //www.alphaworks.ibm.com/tech/uima ...
        昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了,基本上还是可以运行滴,只是还是有些小bug,这都是源于编程时想的不够仔细。在这过程中碰到了几个困难:         1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的,所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[]),然后通过String类的构造函数String(byte[], String charset)构造一个新的字符串,其中charset是网页的源代码所选定的字符编码方式,这样得到的新的字符串就是用java里默认的Unicode编码表示的了。其实Strin ...
我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码: /** * Download the file specified by an URL. */ package fetchInformation; import java.io.*; import java.net.*; /** * @author caoji ...
    Time flies.     In my plan, the date of my journey to hometown is 2007.2.10, so I still have about 20 days to finish the work I am doing. Oh, God, I prey I can do it.     Things include:     1.Data mining. I have to write a program to fetch the information on the website: http://www.dianping.com ...
Global site tag (gtag.js) - Google Analytics