1.  Nguồn gốc của

Dự án Hadoop của được gợi ý và phát triển từ công việc trước đây của . Mặc dù nắm giữ bằng sáng chế cho phương pháp xử lý dữ liệu quy mô lớn này, nên họ đã hào phóng cấp giấy phép cho Hadoop.
2. Hadoop là gì?

Dưới đây là một vài định nghĩa về Hadoop, mỗi định nghĩa nhắm vào một nhóm đối tượng khác nhau trong doanh nghiệp.

Đối với các giám đốc điều hành: Hadoop là một dự án phần mềm nguồn mở của Apache để thu được giá trị từ khối lượng/ tốc độ/ tính đa dạng đáng kinh ngạc của dữ liệu về tổ chức của bạn. Hãy sử dụng dữ liệu thay vì vứt bỏ hầu hết dữ liệu đó đi.

Đối với các giám đốc kỹ thuật: Hadoop là một bộ phần mềm nguồn mở để khai phá Big Data có cấu trúc và không có cấu trúc về công ty của bạn. Nó tích hợp với hệ sinh thái Business Intelligence của bạn.

Đối với nhân viên pháp lý: Hadoop là một bộ phần mềm nguồn mở được nhiều nhà cung cấp đóng gói và hỗ trợ. Hãy xem phần Tài nguyên về việc trả tiền sở hữu trí tuệ ().
Đối với các kỹ sư: Hadoop là một môi trường song song thực thi map-reduce dựa trên , không chia sẻ gì cả. Hãy nghĩ đến hàng trăm, hàng ngàn đang làm việc để giải quyết cùng một vấn đề, có khả năng khôi phục lỗi dựng sẵn. Các dự án trong hệ sinh thái Hadoop cung cấp khả năng load (tải) dữ liệu, hỗ trợ ngôn ngữ cấp cao, triển khai trên đám mây tự động và các khả năng khác.

Đối với chuyên gia : Hadoop là một bộ phần mềm -Kerberos.

3.Hadoop có những thành phần nào?

Dự án Hadoop của Apache có hai thành phần cốt lõi, kho lưu trữ tệp gọi là Hadoop Distributed System (HDFS – Hệ thống tệp phân tán Hadoop) và khung công tác lập trình gọi là MapReduce.
HDFS: Nếu bạn muốn có hơn 4000 máy tính làm việc với dữ liệu của bạn, thì tốt hơn bạn nên phổ biến dữ liệu của bạn trên hơn 4000 máy tính đó. HDFS thực hiện điều này cho bạn. HDFS có một vài bộ phận dịch chuyển. Các Datanode (Nút dữ liệu) lưu trữ dữ liệu của bạn và Namenode (Nút tên) theo dõi nơi lưu trữ các thứ. Ngoài ra còn có những thành phần khác nữa, nhưng như thế đã đủ để bắt đầu.

MapReduce: Đây là mô hình lập trình cho Hadoop. Có hai giai đoạn, không ngạc nhiên khi được gọi là Map và Reduce. Để gây ấn tượng với các bạn bè của bạn hãy nói với họ là có một quá trình shuffle-sort (ND.: một quá trình mà hệ thống thực hiện sắp xếp và chuyển các kết quả đầu ra của map tới các đầu vào của các bộ rút gọn) giữa hai giai đoạn Map và Reduce. JobTracker (Trình theo dõi công việc) quản lý hơn 4000 thành phần công việc MapReduce. Các TaskTracker (Trình theo dõi nhiệm vụ) nhận các lệnh từ JobTracker. Nếu bạn thích Java thì viết mã bằng Java. Nếu bạn thích hoặc các ngôn ngữ khác không phải Java thì rất may là bạn có thể sử dụng một tiện ích gọi là Hadoop Streaming (Luồng dữ liệu Hadoop).

Xem thêm

Xử lý dữ liệu phân tán bằng Hadoop

Distributed data processing with Hadoop

Print Friendly, PDF & Email

Comments

comments

Bài viết liên quan