2012년 6월 19일 화요일

[Hadoop] 설치 및 간단한 실행 예제

1. Hadoop 다운 받기 & 설치


 아래 경로에서 Hadoop 최신 버전의 release 정보를 구할 수 있다.
 http://hadoop.apache.org/common/releases.html

 아래 경로에서 Hadoop의 버전별 설치본을 받을 수 있다.
 http://ftp.daum.net/apache/hadoop/common/

 이번에는 stable 버전인 1.0.3 버전을 받는다.
 http://ftp.daum.net/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz

 원하는 경로에서 압축 해제
 $ tar xvfz hadoop-1.0.3-bin.tar.gz

2. ssh / rsync 설치


 ssh와 rsync는 이미 Linux 설치 시 설치되었을 가능성이 크지만..
 없다면.. 아래와 같이 설치한다.
 Redhat :
  # yum install ssh rsync
 Ubuntu :
  # apt-get install ssh rsync

3. Pseudo-Distributed Operation을 위한 설정


conf/core-site.xml:

<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
     </property>
</configuration>

conf/hdfs-site.xml:

<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
</configuration>

conf/mapred-site.xml:

<configuration>
     <property>
         <name>mapred.job.tracker</name>
         <value>localhost:9001</value>
     </property>
</configuration>

4. SSH Passphraseless 설정

 ssh로 password 입력 없이 접근 가능해야 한다.

 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
 $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
 $ chmod 644 ~/.ssh/authorized_keys
 (간혹 authorized_key에 쓰기 권한이 있을 경우 인증키 목록이 정상동작 하지 않는다)

 아래와 같이 입력 시 바로 접속되면 성공
 $ ssh localhost

 생성한 rsa 공개키를 인증 키 목록에 추가하면 password 입력 없이 바로
 ssh 접근이 가능하다.

5. Hadoop 구동 및 테스트

 - DFS 포멧하기 & 구동하기
 $ bin/hadoop namenode -format
 $ bin/start-all.sh

 - 아래 URL로 접속해보면 정상 구동 여부 확인 가능
  NameNode - http://localhost:50070/
  JobTracker - http://localhost:50030/

- Example MapReduce 실행하기
 DFS에 파일 올리기 (conf 디랙터리를 input이란 이름으로 업로드)
 $ bin/hadoop dfs -put conf input 
 $ bin/hadoop jar hadoop-examples-1.0.3.jar grep input output 'dfs[a-z.]+' 
 $ bin/hadoop dfs -cat output
    or
 $ bin/hadoop dfs -get output output  (결과 output을 내려 받는다)
 $ cat output/*  or


댓글 없음:

스프린트 정리

스프린트 :  스프린트는 프로토타입을 제작하고 고객과 함께 아이디어를 테스트하여 중요한 문제들에 대한 답을 찾는 독특한 5일 짜리 과정이다. 스트린트는 업무 전략, 혁신 행동과학, 디자인 그 외 여러 분야의 최고 히트작을 어떤 팀에서라도 사용할 수 있...