하둡 에코시스템 - HDFS

1. HDFS 확장성과 장애 허용성을 가진 분산 파일 시스템입니다. 일반적으로 상당히 긴 순차 접근 방식을 통해 불변 데이터를 저장하는데 최적화되어있습니다. 데이터를 블록(block) 단위로 저장을 하는데, 이는 사용자가 설정할 수 있습니다. 기본은 128MB입니다. 장애를 허용하기 때문에 장애 발생 시, 빠르게 회복하기 위해 여러 대의 서버에 각 블록의 복제본(복제 계수의 기본값은 3)을 저장합니다. 동일한 블록이 여러 대의 서버에 저장되어 있기 때문에 병렬성도 가질 수 있습니다. 2. HDFS 노드 하둡 클러스터의 마스터와 워커처럼 HDFS도 마스터-슬레이브 방식으로 작동합니다. 마스터인 네임노드와 슬레이브인 데이터 노드가 존재합니다. 네임 노드(NameNode) 마스터 서버에서 실행되는 데몬으로 클..

→2021.12.10

Backend Technologies/Hadoop

빅데이터와 하둡

1. 빅데이터 기존 시스템에서 저장하고 처리하기에는 너무 크고 복잡한 데이터를 의미합니다. 이러한 데이터는 우리와 동 떨어진 이야기가 아닙니다. 매분마다 2억 4백만 개의 이메일이 보내지며, 180만 개의 좋아요가 생성되고, 27만 8천 개의 트위터의 글이 만들어지며, 20만 개의 사진이 페이스북에 업로드됩니다. 빅데이터 목적 빅데이터를 탐구하여 과거의 원인을 발견하고, 현재의 상황을 이해하며, 미래를 예측하여 최종적으로 비용 절감, 수익 창출, 문제 해결이 목표입니다. 그렇기 위해서는 빅데이터 인사이트를 발견해야 합니다. 빅데이터 인사이트(통찰력) - 현상 이해 : 대규모 데이터를 통해 과거에 발생한 일에 대한 이해와 원일을 찾습니다. - 현상 발견 : 지금까지 알지 못했던 데이터 패턴을 발견 및 해석..

→2021.11.30

하둡 에코시스템 - HDFS

빅데이터와 하둡

티스토리툴바