1. Hadoop 다운 받기 & 설치
아래 경로에서 Hadoop 최신 버전의 release 정보를 구할 수 있다.
http://hadoop.apache.org/common/releases.html
아래 경로에서 Hadoop의 버전별 설치본을 받을 수 있다.
http://ftp.daum.net/apache/hadoop/common/
이번에는 stable 버전인 1.0.3 버전을 받는다.
http://ftp.daum.net/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz
원하는 경로에서 압축 해제
$ tar xvfz hadoop-1.0.3-bin.tar.gz
2. ssh / rsync 설치
ssh와 rsync는 이미 Linux 설치 시 설치되었을 가능성이 크지만..
없다면.. 아래와 같이 설치한다.
Redhat :
# yum install ssh rsync
Ubuntu :
# apt-get install ssh rsync
3. Pseudo-Distributed Operation을 위한 설정
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration> |
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
4. SSH Passphraseless 설정
ssh로 password 입력 없이 접근 가능해야 한다.
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 644 ~/.ssh/authorized_keys
(간혹 authorized_key에 쓰기 권한이 있을 경우 인증키 목록이 정상동작 하지 않는다)
아래와 같이 입력 시 바로 접속되면 성공
$ ssh localhost
생성한 rsa 공개키를 인증 키 목록에 추가하면 password 입력 없이 바로
ssh 접근이 가능하다.
5. Hadoop 구동 및 테스트
- DFS 포멧하기 & 구동하기
$ bin/hadoop namenode -format
$ bin/start-all.sh
-
아래 URL로 접속해보면 정상 구동 여부 확인 가능
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
- Example MapReduce 실행하기
DFS에 파일 올리기 (conf 디랙터리를 input이란 이름으로 업로드)
$ bin/hadoop dfs -put conf input
$ bin/hadoop jar hadoop-examples-1.0.3.jar grep input output 'dfs[a-z.]+'
$ bin/hadoop dfs -cat output
or
$ bin/hadoop dfs -get output output (결과 output을 내려 받는다)
$ cat output/* or