목록Hadoop (11)
호빗의 인간세상 탐험기
Apache Spark OverviewApache Spark is a general framework for distributed computing that offers high performance for both batch and interactive processing. It exposes APIsforJava, Python, and Scala and consists of Spark core and severalrelated projects: • Spark SQL - Module for working with structured data. Allows you to seamlessly mix SQL queries with Spark programs. • Spark Streaming - API that..
1. A Quick OverviewHaving had some fun with Solr, you will now learn about all the cool things it can do. Here is a example of how Solr might be integrated into an application:In the scenario above, Solr runs along side other server applications. For example, an online store application would provide a user interface, a shopping cart, and a way to make purchases for end users; while an inventory..
5 Data Replication HDFS is designed to reliably store very large files across machines in a large cluster. It stores each file as a sequence of blocks; all blocks in a file except the last block are the same size. The blocks of a file are replicated for fault tolerance. The block size and replication factor are configurable per file. An application can specify the number of replicas of a file. T..
1 Introduction The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, the differences from other distributed file systems are significant. HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware. HDFS provides high throughput access to applica..
Sharding The term sharding describes the logical separation of records into horizontal partitions. The idea is to spread data across multiple storage files—or servers—as opposed to having each stored con‐ tiguously. The separation of values into those partitions is performed on fixed boundaries: you have to set fixed rules ahead of time to route values to their appropriate store. With it comes t..
The Problem with Relational Database Systems RDBMSes have typically played (and, for the foreseeable future at least, will play) an integral role when designing and implementing business applications. As soon as you have to retain information about your users, products, sessions, orders, and so on, you are typically go‐ ing to use some storage backend providing a persistence layer for the fronte..
1.시대의 화두 Big Data최근 IT 분야의 화두가 무엇인지 물어본다면, 빅 데이터가 대답들 중 하나일 것이다. 20년 전의 PC의 메모리, 하드디스크의 용량과 최신 PC, 노트북 사양을 비교해보면 과거에 비해 데이터가 폭발적으로 늘어났다는 것을 실감할 수 있을 것이다. 특히 스마트 단말 및 소셜미디어 등으로 대표되는 다양한 정보 채널의 등장과 이로 인한 정보의 생산, 유통, 보유량의 증가는 계속적으로 데이터의 기하급수적인 증가를 이끌고 있다. 하지만 아래 그림과 같이 수 많은 데이터 중에서 가치 있는 데이터는 소수에 불과하다. 따라서 대용량 데이터를 처리하고, 의미 있는 데이터를 발굴하는 기술이 필요하다. 본고에서는 빅 데이터의 정의와 종류에 대해 알아보고, 거침없이 증가 중인 대용량의 데이터를 관..
1. Hadoop하둡 분산 파일 시스템 (HDFS) HDFS는 일반적인 분산 파일 시스템의 설계를 따라 마스터 (master) 노드와 슬레이브 (slave) 노드 로 구성되어 있다. HDFS의 마스터 노드는 네임노드 (namenode)라 불리며, 데이터노드 (datanode)로 불리는 슬레이브 노드의 동작 상태를 실시간으로 관리하고 최대 수천 대의 데이터노드에 분산 저장되 어 있는 데이터에 대한 메타데이터를 관리하는 일을 한다 (Figure 3.1 하단). 데이터는 여러 개의 블 록으로 쪼개어져 몇 대의 데이터노드가 한 블록을 복제해서 보관하는 방식으로 분산 저장된다. 네임노 드가 관리하는 메타데이터는 해당 블록이 어느 데이터노드에 저장되어 있는지의 여부 등이다. 이와 같 은 방식을 사용하면 데이터노드 ..
구글 논문을 통해 발표된 ‘구글 파일 시스템(Google File System)’은 대량의 데이터를 복수의 서버에 저장할 수 있는 파일 시스템이다. Hadoop에서 구글 파일 시스템에 해당하는 것이 HDFS(Hadoop Distributed File System)다.한편 ‘MapReduce(맵리듀스. 이하 MapReduce)’는 구글 파일 시스템에 저장되어 있는 대량의 데이터를 분산 처리하기 위한 알고리즘 프레임워크다. Hadoop에서는 Hadoop MapReduce5가 이에 해당한다. 이 두 가지 외에도 연동 소프트웨어에 대한 아이디어도 논문을 통해 공개하고 있다. Hadoop프로젝트에서는 HDFS와 MapReduce뿐만 아니라 오픈 소스 개발도 함께 진행하고 있다. 처리내용 구글 Hadoop 분산 파..
1. Hadoop 이란?IT시스템 세계에서 ‘Hadoop(하둡, 이하 Hadoop)’이라는 소프트웨어 사용이 늘어나고 있다. 아직 Hadoop에 대해 잘 몰라도 소프트웨어 이름이라는 것 정도는 알고 있겠지만, ‘도대체 용도가 뭐야?’, ‘뭐 하는 거지?’ 하고 묻는 사람도 적지 않을 것이다. 어떤 데이터를 취급하기 위한 미들웨어라는 것은 알고 있더라도 ‘관계형 데이터베이스랑은 어떻게 달라?’, ‘파일 시스템이랑 달라?’, ‘처리를 위한 새로운 개념인가?’ 등 다양한 의문이 많을 것이다. 1.1 Hadoop 개요Hadoop을 한마디로 정의하자면▒대량의 데이터를 처리하기 위한 병렬 분산 처리 소프트웨어 오늘날의 IT시스템은 예전에는 생각할 수 없었을 정도의 대규모 데이터를 다루어야 하는 현실에 직면했다. 그..