호빗의 인간세상 탐험기
1. Hadoop하둡 분산 파일 시스템 (HDFS) HDFS는 일반적인 분산 파일 시스템의 설계를 따라 마스터 (master) 노드와 슬레이브 (slave) 노드 로 구성되어 있다. HDFS의 마스터 노드는 네임노드 (namenode)라 불리며, 데이터노드 (datanode)로 불리는 슬레이브 노드의 동작 상태를 실시간으로 관리하고 최대 수천 대의 데이터노드에 분산 저장되 어 있는 데이터에 대한 메타데이터를 관리하는 일을 한다 (Figure 3.1 하단). 데이터는 여러 개의 블 록으로 쪼개어져 몇 대의 데이터노드가 한 블록을 복제해서 보관하는 방식으로 분산 저장된다. 네임노 드가 관리하는 메타데이터는 해당 블록이 어느 데이터노드에 저장되어 있는지의 여부 등이다. 이와 같 은 방식을 사용하면 데이터노드 ..
구글 논문을 통해 발표된 ‘구글 파일 시스템(Google File System)’은 대량의 데이터를 복수의 서버에 저장할 수 있는 파일 시스템이다. Hadoop에서 구글 파일 시스템에 해당하는 것이 HDFS(Hadoop Distributed File System)다.한편 ‘MapReduce(맵리듀스. 이하 MapReduce)’는 구글 파일 시스템에 저장되어 있는 대량의 데이터를 분산 처리하기 위한 알고리즘 프레임워크다. Hadoop에서는 Hadoop MapReduce5가 이에 해당한다. 이 두 가지 외에도 연동 소프트웨어에 대한 아이디어도 논문을 통해 공개하고 있다. Hadoop프로젝트에서는 HDFS와 MapReduce뿐만 아니라 오픈 소스 개발도 함께 진행하고 있다. 처리내용 구글 Hadoop 분산 파..
1. Hadoop 이란?IT시스템 세계에서 ‘Hadoop(하둡, 이하 Hadoop)’이라는 소프트웨어 사용이 늘어나고 있다. 아직 Hadoop에 대해 잘 몰라도 소프트웨어 이름이라는 것 정도는 알고 있겠지만, ‘도대체 용도가 뭐야?’, ‘뭐 하는 거지?’ 하고 묻는 사람도 적지 않을 것이다. 어떤 데이터를 취급하기 위한 미들웨어라는 것은 알고 있더라도 ‘관계형 데이터베이스랑은 어떻게 달라?’, ‘파일 시스템이랑 달라?’, ‘처리를 위한 새로운 개념인가?’ 등 다양한 의문이 많을 것이다. 1.1 Hadoop 개요Hadoop을 한마디로 정의하자면▒대량의 데이터를 처리하기 위한 병렬 분산 처리 소프트웨어 오늘날의 IT시스템은 예전에는 생각할 수 없었을 정도의 대규모 데이터를 다루어야 하는 현실에 직면했다. 그..