Category Archives: 学习创新

网上公开课资源收集

资源收集

在线观看:网易新浪搜狐腾讯奇艺 | 土豆 | 沪江英语

下载: 人人影视 | Open Classes |  VeryCD | 六维空间(IPv6)

公开课推荐

哈佛大学:公正课 [网易][新浪][搜狐][奇艺]

哈佛大学:幸福课 [网易][新浪]

耶鲁大学:博弈论 [网易][新浪][搜狐][奇艺]

耶鲁大学:聆听音乐 [网易][新浪][搜狐][奇艺]

耶鲁大学:欧洲文明 [网易][新浪][搜狐][奇艺]

耶鲁大学:哲学·死亡 [网易][新浪][搜狐][奇艺]

耶鲁大学:心理学导论 [网易][新浪][搜狐][奇艺]

斯坦福大学:经济学 [网易][新浪]

斯坦福大学:健康图书馆 [网易]

普林斯顿:领导能力简介 [网易][新浪][奇艺]

普林斯顿:科技世界的领导能力 [网易][新浪][奇艺]

 

特别推荐:网易【我们爱上公开课】专题

第01期:  人能否幸免一死

第02期:  你真的爱TA吗?

第03期:  很幸福?是假象

第04期:  善意谋杀=道德?

第05期:  同性婚姻=禁忌?

第06期:  心理暗示很强大

第07期:  敢对家暴说NO吗?

第08期:  欲望,该放纵吗?

第09期:  夫妻间的小亲密

第10期:  究竟怎么吃才好

第11期:  爱情也有保质期?

第12期:  昨晚你睡好了吗?

第13期:  完美主义强迫症

第14期:  互补型 or 相似型

第15期:  我们都有个创业梦

第16期:  你是说话高手吗?

第17期:  我们都想拥有它

第18期:  变身幽默达人

 

阅读全文...
Posted in 学习创新 | 评论关闭

几种常见的基于Lucene的开源搜索解决方案对比

一  直接使用 Lucene  ( http://lucene.apache.org )

  1. 说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作
  2. 优点:成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
  3. 缺点:需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善

二  Solr  ( http://lucene.apache.org/solr/ )

  1. 说明:基于 Lucene 的企业级搜索的开箱即用的解决方案
  2. 优点:比较成熟的解决方案,也有很多的成功案例。Lucene 子项目,实现了大部分常见的搜索功能需求,包括 facet 搜索(搜索结果分类过滤)等。
  3. 缺点:可定制性比 Lucene 要差,一些不常见的需求,定制的难度比直接在 Lucene 上做要大的多。性能上,由于 Solr 的建索引和搜索是同一个进程,耦合度比较高,对于性能调优有一定的影响。

三 Katta ( http://katta.sourceforge.net/ )

  1. 说明:基于 Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
  2. 优点:开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
  3. 缺点:只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。

四 Hadoop contrib/index ( http://svn.apache.org/repos/asf/hadoop/mapreduce/trunk/src/contrib/index/README )

  1. 说明:Map/Reduce 模式的,分布式建索引方案,可以跟 Katta 配合使用。
  2. 优点:分布式建索引,具备可扩展性。
  3. 缺点:只是建索引方案,不包括搜索实现。工作在批处理模式,对实时搜索的支持不佳。

五 LinkedIn 的开源方案 ( http://sna-projects.com/ )

  1. 说明:基于 Lucene 的一系列解决方案,包括 准实时搜索 zoie ,facet 搜索实现 bobo  阅读全文...
Posted in LUCENE, 学习创新 | 评论关闭

转:Cassandra – 一个分散的非结构化存储系统

本文翻译自Facebook员工在LADIS大会上发布的论文.Cassandra – A Decentralized Structured Storage System 这篇论文中,两位作者详细介绍了Cassandra的系统架构,它的设计初衷,设计应用时使用到的相关技术,以及设计/实现/使用过 程中得到的经验教训. Cassandra – 一个分散的非结构化存储系统 By Avinash Lakshman Facebook ,Prashant Malik Facebook; Translated By Jametong 概要 Cassandra是一个分布式的存储系统,可用来管理分布在大量廉价服务器上的巨量结构化数据,并同时提供没有单点故障的高 可用服务.Cassandra的设计目的是运行在由几百个节点(可能分布在多个不同的数据中心)组成的基础设施(infrastructure) 上.当节点达到这个规模时,大大小小的组件出现故障就可能经常发生了.Cassandra在管理持久状态时面临这些故障,这 种情况也驱动软件系统的可靠性(reliability)与可伸缩性(scalability)会依赖于Cassandra的服务. 虽然大部分情况,Cassandra看上去像一个数据库系统, 也与数据库系统共享大量的设计与实现手段,但是Cassandra并 不支持完整的关系数据模型;相反,它提供了一个简单数据模型的客户端,支持对数据布局与数据格式的动态控制.我们设计 Cassandra的初衷是,可以运行在廉价硬件上,并能在不牺牲读效率的情况下实现高的写吞吐量. 1. 导论 Facebook维护着世界上最大的社交网络平台,利用分布在世界各地的大量数据中心的成千上万台服务器,为上亿的用户提供服 务.Facebook平台有严格的业务要求,包含性能、可靠性、效率以及高度的可伸缩性以支持平台的持续增长.在一个包含 成千上万的组件的基础设施上处理故障是我们的标准运作模式;在任何时候,随时都可能出现相当数量的服务器或网络组件故障.这样,软 件系统在构建时就需要将故障当作一种常态而不是异常来处理.为了满足上面描述的这些可靠性与可伸缩性,Facebook开发了 Cassandra系统. 为了实现可伸缩性与可靠性,Cassandra组合了多项众所周知的技术.我们设计Cassandra的最初目的是解决收件箱搜索的 存储需要.在Facebook,这意味着这个系统需要能够处理非常大的写吞吐量,每天几十亿的写请求,随着用户数的规模而 … Continue reading

Posted in JAVA, 学习创新, 技术资料 | 评论关闭