Jeeseung Han
Jeeseung Han
~1 min read

Categories

  • Portfolio

Tags

  • Flume
  • Hadoop
  • Hive
  • Java
  • MySQL
  • Spring
  • Sqoop
  • Zookeeper

이전 프로젝트인 공영주차장 실시간 예측 프로젝트에서 분산파일시스템에 대한 필요성을 뼈저리게 느꼈던 적이 있습니다. 해당 프로젝트로 인해 하둡 시스템이 만들어지고 발전하게된 이유를 그 누구보다도 잘 알게 되었습니다. 사실 저는 학문에 익히고 이해하는데 있어서 발생 원리와 발전 과정을 알아야 해당하는 학문을 더 깊이 있고 넓게 익힐 수 있다고 생각하기에 하둡에 대한 공부는 그 어느때보다도 재밌었던 것 같습니다.

하둡에 대한 작동원리와 하둡 에코시스템을 이해를 위해 이론 뿐만아니라 실제 실무적인 경험을 얻기 위해 프로젝트를 기획하게 되었습니다. 때마침 대한민국 헌정사상 최초로 탄핵이 이루어지면서 대통령 선거가 필요하게 되었고 이는 빅데이터를 수집하고 분석하고 싶다는 생각이 들었습니다. 이에 대통령 후보자들이 언급되는 빈도에 따라 후보자에 대한 관심도와 나아가 언론사별로 지지하는 후보자를 알 수 있을 거란 생각이 들었습니다. 개인이 수집한 데이터의 양이기 때문에 생각보다 많은 데이터의 양은 아니였지만 충분히 의미있는 분석을 할 수 있었습니다.

무엇보다도 하둡 에코시스템을 직접 구축하고 운영하면서 한번! 수집된 데이터를 통해 재미있는 정보를 분석을 명령하고 결과가 도출 됐을때 한번! 두번의 즐거움은 이루 말할 수 없었던 것 같습니다. 무엇보다도 저에게 뜻깊은 프로젝트였습니다.


기간

  • 2017년 4월 ~ 2017년 5월 (1개월)

개발환경

  • Ubuntu 14.04(하둡 시스템) * 4, Ubuntu 16.04(웹서버)
  • Hadoop 2.7.2
  • Hive 2.1.1
  • Zookeeper 3.4.10
  • Flume 1.7
  • Sqoop 1.4.6
  • MySQL 5.6
  • Spring Boot 1.3
    • Spring Web, Spring Security, Spring JDBC

소스코드 및 서비스

Source