♥️7분 빠른 소식 전달해 드립니다♥️

[Linux] 우분투에서 하둡(hadoop) 설치하기 본문

IT

[Linux] 우분투에서 하둡(hadoop) 설치하기

핫한연예뉴스 2019. 7. 27. 11:53

 

리눅스 우분투상에서 하둡(hadoop)을 설치해보도록 하겠습니다. 하둡(hadoop)은 빅데이터 환경을 구축하기 위해서 필요한 필수 프로그램입니다.

 

빅데이터는 무엇인가? 

디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 제 4차 산업혁명시대를 맞이하여 그 중요성이 점점 커지고 있습니다.

 

하둡이란 무엇인가? 

여러개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이며 하둡은 수천대의 분산된 x86 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템과, 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.

 

이번 포스팅에서는 우분투에서 하둡의 설치방법에 대해서 알아보도록 하겠습니다. 

 

우분투에서 하둡(hadoop) 설치하기

 

먼저 하둡을 설치하기 위한 환경부터 구축할께요

 

sudo apt-get update

 

sudo apt-get upgrade

 

sudo add-apt-repository ppa:webupd8team/java

 

Enter

 

다시 sudo apt-get update

 

sudo apt-get install oracle-java8-installer

 

확인

 

 

설치가 될겁니다.

 

다시 sudo apt-get upgrade

 

java -version 을 입력해 JDK가 제대로 설치되었는지 확인

 

sudo addgroup hadoop

 

sudo adduser --ingroup hadoop hduser 와 비밀번호 user정보 를 차례로 입력한뒤 Y

 

sudo gedit /etc/sudoers를 입력해서

 

이런창을 띄워주세요

빨간색 박스 밑에

 

이런식으로 입력 후 저장 후 다시 터미널로 돌아감

 

apt-get install openssh-server

 

sudo su hduser -> cd -> ssh-keygen -t rsa -P "" -> Enter

 

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

 

sudo gedit /etc/sysctl.conf

비밀번호 를 입력하셔서

 

sysctl.conf 열기

 

가장밑에 다음과 같은 문구 입력 후 저장

 

sudo reboot 을 입력해서 재부팅을 해줍니다.

 

다시 로그인해서 바탕화면으로 접속해준뒤 본격적으로 하둡설치를 해주도록 하겠습니다.

하둡설치경로 으로 접속하여

 

중간부분에 Download Hadoop 페이지에서 releases를 클릭해줍니다.

 

그런뒤 빨간색 박스안의 mirror site를 클릭하고

 

사이트 상단의 빨간색 박스안의 URL을 클릭해주세요

 

자신이 원하는 위 그림에서 보이는 파일을 차례로 클릭합니다.

 

파일저장

 

받은 파일을 바탕화면에 복사한뒤

 

압축을 해제하겠습니다.

그런뒤 다시 터미널로 들어가서

 

hduser로 접속해줍니다.

sudo su hduser / 비밀번호 / cd

 

sudo mv '/home/ubuntu/바탕화면/hadoop-2.7.4' /usr/local/hadoop/ 저는 이렇게 이동시킬꺼지만 이건 사람들마다 조금씩 다르겠죠??

 

sudo chown hduser:hadoop -R /usr/local/hadoop

 

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode

 

sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/

 

sudo gedit .bashrc

 

*.bashrc의 가장 밑부분에

다음과 같은 문구 추가 후 저장

 

cd /usr/local/hadoop/etc/hadoop

sudo gedit hadoop-env.sh /비밀번호

 

표시해둔곳에 export JAVA_HOME='/usr/lib/jvm/java-8-oracle' 입력 후 저장

 

sudo gedit core-site.xml

 

편집

 

sudo gedit hdfs-site.xml

 

문구 추가 후 저장

(여기서 hadoop_store가 아니고 hadoop_temp입니다.) -kim-

 

 

sudo gedit yarn-site.xml

 

다음 문구 추가 후 저장

(여기서 <name>yarn.nodemanager.aux-servieces</name> 가 아니고

<name>yarn.nodemanager.aux-services</name> 입니다.

 

cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

 

sudo gedit mapred-site.xml

 

가장밑에 다음과 같은 문구 추가 후 저장

 

cd

 

source ~/.bashrc

cd /usr/local/hadoop_tmp/hdfs

 

hadoop namenode -format

 

start-dfs.sh 

이후에 yes/no 질문이 나오면 yes를 입력해주시면 됩니다.

 

start-yarn.sh

 

jps

 

이런식으로 나오면 성공입니다.

 

참고 유튜브 영상링크 바로가기

참고한 유튜브 영상이니 참고하실분 참고하시기 바랍니다.

Comments