Monthly Archives: 11月 2009

hadoop + hive试用手记

  之前早就听说hql的方便,一直以来,为了接近hadoop与用户的距离,做了一些尝试,但是无论怎样,有什么可以和sql相比呢?sql的普及是难以企极的。   对于大多数的map-reduce应用来说,用hql来描述是再合适不过了,淘宝的BI在这方面的实际使用经验来充分说明了这点。现在手上正进行中的项目需要用到hadoop,同时为了扩展性的考虑,所以hive是一个很不错的选择。 -------------------------------------------------------------------------------------------------- hadoop-0.20.1 hive的svn http://svn.apache.org/repos/asf/hadoop/hive/trunk db-derby-10.5.3.0-bin jdk 1.6 -------------------------------------------------------------------------------------------------- 部署hadoop,具体就不说了,hadoop的官方文档太详细了。个人经验是在一台上把配置都好后再scp到其它slaves上。配置不需要每台都同步,除非你想让平台都可以像master那样操作。 编译hive,直接到hive目录下ant package,一定要jdk6哦,successful后把build/dist目录拷出来就算是install了。 安装derby,http://wiki.apache.org/hadoop/HiveDerbyServerMode 设置环境变量export DERBY_INSTALL DERBY_HOME HADOOP_HOME JAVA_HOME CLASSPATH 跑! -------------------------------------------------------------------------------------------------- 配置好hadoop后,$HADOOP/bin/start-all.sh; $HADOOP/bin/hadoop fs -mkdir test $HIVE/bin/hive; show tables; $HIVE/bin/hive –service hwi 通过浏览器http://test:9999/hwi就可以看到web操作界面了,用了才知道,真是太方便了。

Posted in it技术 | Leave a comment