`
zhangxiang390
  • 浏览: 214763 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论
文章列表
  Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。 Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者 ...
nutch作为开源代码,为热爱搜索引擎的开发人员们提供了很好的学习平台,0.8版本开始,采用了Hadoop作为自己的分布式文件系统,更是把nutch同其他开源搜索引擎的差距拉开。 ntuch提供了一个高效、开源、易操作的搜索引擎,内部有许多细微之处都是值得借鉴的,例如采用了hadoop的分布式文件系统,类似eclipse 的插件技术,apache的httpclient来访问网站,org.cyberneko.html得HtmlParse来解析页面等等。   nutch的官方网站:http://lucene.apache.org/nutch/   nutch的入门文章:http://lucene.a ...
上午师兄过来视察工作,觉得我调研的期刊论文都是“又陈旧又低级”,他手把手地教我如何查找顶级期刊论文会议等,在这里要狠狠感谢下他,呵呵,本人又将它贴上,与大家共勉:   IR ( Information Retrieval )信息提取 SIGIR ( Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ):信息检索方面最好的会议 , ACM 主办 , 每年开 . TREC ( Text REtrieval Conference ) AIRS ...
昨天室友让我一笔写“田”字,想了好久没有结果,百度一下,有如下定理: 一笔画的规律: 1.凡是由偶点组成的连通图,一定可以一笔画成。画时可以把任一偶点为起点,最后一定能以这个点为终点画完此图。 2.凡是只有两个奇点的连通图(其余都为偶点),一定可以一笔画成。画时必须把一个奇点为起点,另一个奇点终点。 3.其他情况的图都不能一笔画出。 注:与奇数(单数)条边相连的点叫做奇点;与偶数(双数)条边相连的点叫做偶点。 由于“田”字有4个奇点、5个偶点,因此,该字不可能一笔完成。   没事干就想写个小程序找下其解,根据对称性,分别从“田”字的顶点(四个角的点)、外边中间的点、和中心 ...
Map的get()源码如下: public V get(Object key) { if (key == null) return getForNullKey(); int hash = hash(key.hashCode()); //返回key对应的hash值 for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) { // 调用equals()逐个比较k ...
package spider; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.HashSet; import java.util.LinkedHashSet; import java.util.regex.Matcher; import java.util.regex.Pattern; public class SearchCr ...
偶尔看到一题:用3 3 8 8 四个数和加减乘除组合得出24,前提是用完这四个数,几年没好好思考了,偶算了半天没答案,就写了个穷举算法,呵呵,貌似结果只有一种啊,各位兄台还有其它答案么? package my; public class DigitalPuzzle { private float[] operands=new float[]{3.0f, 3.0f, 8.0f, 8.0f}; private int[] operators=new int[]{0, 1, 2, 3};//0 1 2 3 stand for + - * / private float[][] allSerie ...
第三代搜索核心特征的日渐显露: 到现在为止,第三代搜索还没有一个清晰的概念,但从当代搜索的种种不愉快的体验,我们可以推断用户的需求,从而可以明确得知第三代搜索亟待解决的问题,即第三代搜索的方向: (1)搜 ...
        XWork 配置文件是以“ xwork ”命名的 .xml 文件,它必需放到类路径( classPath )的根目录, Web 应用一般放在 classes 目录中,它需要遵守 DTD 的规范(现在是 xwork-1.0.dtd )。这个文件定义了我们的 Action , Interceptor , Result 的配置和相互之间的映射。下面我们看看用户注册的完整 XWork 配置文件: <!DOCTYPE xwork PUBLIC "-//OpenSymphony Group//XWork 1.0//EN" "http://www.ope ...
一、EL简介   1.语法结构     ${e­xpression}   2.[]与.运算符     EL 提供.和[]两种运算符来存取数据。     当要存取的属性名称中包含一些特殊字符,如.或?等并非字母或数字的符号,就一定要使用 []。例如:         ${use ...
一、dispatcher (1)为缺省的result类型,一般情况下我们在struts.xml会这么写: <result name="success">/main.jsp</result>  以上写法使用了两个默认,其完整的写法为: <result name="success" type="dispatcher"> <param name="location">/maini.jsp</param> </result>  第一个默 ...
1.RequestDispatcher.forward() (1)是在服务器 端起作用,当使用forward()时,Servletengine传递HTTP请求从当前的Servlet or JSP到另外一个Servlet,JSP 或普通HTML文件,也即你的form提交至a.jsp,在a.jsp用到了forward()重定向至b.jsp,此时form提交的所有信息在 b.jsp都可以获得,参数自动传递 . (2)forward()无法重定向至有frame的jsp文件,可以重定向至有frame的html文件,同时forward()无法在后面带参数 传递,比如servlet?name=frank ...
  以下测试仅是本人无聊时的游戏,不能说明任何问题,况且本人一向很佩服google,baidu。我只是想对大家说,搜索的发展空间是很大的,我们还处在“搜索主义的初级阶段”。   test 1: google搜索结果的重复项 ps: 汗!第一页的链 ...
搜索历史的回顾 第一代搜索 以Altavista、YAHOO和Infoseek为代表的第一代搜索出现于1994年前后,采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。其主要的缺点是:(1 ...
Global site tag (gtag.js) - Google Analytics