Spark+kafka安装配置

1. 安装

 

1.1 版本选择

可以选择从源代码编译,也可以选择使用预编译好的版本,预编译的版本有适配不同的hadoop版本,这里为了方便快速,直接使用预编译版本——spark-1.3.0-bin-hadoop2.4.tgz

 

1.2 集群模式选择

spark可运行在YARN(俗称hadoop第二代资源调度系统),解决了1.x版本中的很多问题。也可选择运行在apache mecos上,属于官方推荐;还可以不依赖其它系统以独立集群形式运行,这里选择最后一种,因为[......]

Read more

Posted in 大数据 | Tagged | Leave a comment

kafka安装及配置

选择使用scala2.10编译kafka最新稳定版本kafka_2.10-0.8.2.1.tgz

 

<1>将下载好的kafka_2.10-0.8.2.1.tgz解压到目录kafka

<2>启动Server

因为kafka需要使用zookeeper,如果你没有安装zookeeper的话,可以通过命令:

bin/zookeeper-server-start.sh config/zookeeper.properties

启动一个单实例的z[......]

Read more

Posted in 大数据 | Tagged | Leave a comment

Zookeeper集群简单安装、配置、测试

jdk1.6版本

zookeeper3.4.6版本

准备两台机器,一般集群最好是三台,不过没条件两台也可以了,再不行,咋开两台虚拟机也行;

因为是直接使用的二进制版本,不自己编译,所以安装过程很简单,只需将从apache下载到zookeeper二进制版本解压到特定目录,安装好jdk,通过zookeeper的bin目录中启动脚本即可。

当然,前提是要先配置好zookeeper,conf目录中初始有zoo_sample.cfg,拷贝一个重命名为zoo.cfg,先阶段只需配置客[......]

Read more

Posted in 大数据 | Tagged | Leave a comment

Solr简介

        Solr是一个基于Lucene java库的企业级搜索服务器,包含XML/HTTP,JASON API,高亮查询结果,缓存,复制,还有一个WEB管理界面。Solr运行在Servlet容器中,其架构如下:

QQ图片20130613152130

Solr的一些特色:

1 高级的全文搜索能力

2 高并发访问的优化

3 基于标准的开放接口:XML、Json和Http

4 综合而全面的Html管理界面

5 基于JMX监控的服务器统计

6 伸缩性强。可以有效地复制到其它Solr搜[......]

Read more

Posted in 大数据 | Tagged | Leave a comment

hadoop zookeeper hbase的安装、配置及简单实例

11

11

(博客要渐渐搬家了~~同样原来在CSDN)

 

出于种种原因,想要搭建一个小集群,来搞搞数据处理。

      实践环境:
      ubuntu10.04+jdk1.6.20+hadoop-0.20.2+zookeeper3.3.4+hbase0.90.6
      本来[......]

Read more

Posted in 大数据 | Tagged , , | 4 Comments