Published Tuesday, 5:11 a.m. 7 min read

Hướng dẫn toàn diện về Apache Kafka: Kiến thức cơ bản, kiến trúc và các khái niệm cốt lõi

Apache Kafka là một nền tảng mã nguồn mở phổ biến dành cho luồng sự kiện phân tán. Nó hỗ trợ các pipeline dữ liệu hiệu suất cao, phân tích dữ liệu thời gian thực, tích hợp dữ liệu, và các ứng dụng quan trọng trong hàng ngàn công ty trên toàn thế giới.

Ban đầu được phát triển bởi LinkedIn, Kafka nổi tiếng với khả năng mở rộng cao, tốc độ xử lý nhanh, và độ bền dữ liệu mạnh mẽ. Đây là một thành phần quan trọng trong các hệ thống kiến trúc hướng sự kiện (event-driven architecture) hiện đại.

Kiến Trúc Kafka

Brokers (Máy Chủ Kafka)

Một Kafka Broker là một máy chủ Kafka đơn lẻ. Mỗi broker hoạt động như một tiến trình độc lập trên một máy chủ riêng biệt, giao tiếp với các broker khác qua mạng tốc độ cao.

Thông thường, một hệ thống Kafka tối thiểu có ít nhất 3 broker để đảm bảo tính khả dụng ngay cả khi có một máy chủ gặp sự cố hoặc cần bảo trì.

Producers

Producer là ứng dụng khách đưa dữ liệu vào Kafka. Nó tạo ra thông điệp theo định dạng phù hợp và gửi chúng qua giao thức Kafka. Producer có thể được cấu hình để kiểm soát việc tạo và gửi tin nhắn theo nhiều cách khác nhau.

Consumers

Consumer là ứng dụng khách đọc dữ liệu từ Kafka bằng cách gửi yêu cầu "fetch" đến broker quản lý phân vùng mà nó muốn tiêu thụ. Consumer nhận về một đoạn log chứa tất cả các thông điệp trong topic kể từ vị trí offset hiện tại.

Nhóm Consumer (Consumer Groups) là một tập hợp các consumer hợp tác với nhau để tiêu thụ dữ liệu từ một hoặc nhiều topic.

Topic

Topic trong Kafka là nơi chứa các tin nhắn, được sử dụng để tổ chức dữ liệu. Kafka coi mỗi topic như một hàng đợi độc lập, nơi các consumer có thể đăng ký để chỉ nhận tin nhắn thuộc về topic đó.

Các topic trong Kafka được phân vùng (partitioned) và sao chép (replicated) trên nhiều broker, đảm bảo tính sẵn sàng cao.

Cluster

Cụm Kafka là tập hợp các broker kết nối với nhau để quản lý luồng dữ liệu ra vào hệ thống. Khi lưu lượng dữ liệu tăng, có thể thêm nhiều broker để xử lý tải lớn hơn.

Cụm Kafka cho phép sao chép dữ liệu giữa các broker, đảm bảo tính khả dụng cao ngay cả khi một node gặp sự cố.

Partitions

Partitions giúp Kafka mở rộng theo chiều ngang, cho phép xử lý dữ liệu song song hiệu quả.

Mỗi partition có thể có nhiều bản sao (replica) trên các broker khác nhau, giúp đảm bảo tính chịu lỗi (fault tolerance) và dự phòng dữ liệu.

KRaft (Kafka Raft Metadata Mode)

KRaft là giao thức đồng thuận được giới thiệu trong KIP-500 để loại bỏ sự phụ thuộc của Kafka vào ZooKeeper trong việc quản lý metadata. Nó sử dụng thuật toán Raft để thực hiện bầu cử leader và quản lý metadata ngay trong Kafka, giúp hệ thống hoạt động độc lập mà không cần đến hệ thống điều phối bên ngoài.

Các khái niệm cốt lõi

Events

Kafka hoạt động như một nhật ký kỹ thuật số, lưu trữ mọi sự kiện quan trọng trong hệ thống.

Mỗi sự kiện có các thành phần chính:

Key: Định danh duy nhất của sự kiện.
Value: Nội dung của sự kiện.
Timestamp: Thời gian xảy ra sự kiện.
Headers (tùy chọn): Thông tin bổ sung về sự kiện.
Replication (Sao chép dữ liệu): Kafka sao chép dữ liệu để đảm bảo tính sẵn sàng ngay cả khi một broker gặp sự cố.

Các bản sao của partition được lưu trữ trên nhiều broker và sử dụng write-ahead log, nơi mọi thông điệp được lưu trữ theo thứ tự để đảm bảo tính toàn vẹn dữ liệu.

Offsets (Chỉ số dữ liệu)

Offset giúp Kafka theo dõi vị trí của tin nhắn trong topic.

Các consumer offset cho phép hệ thống tiếp tục xử lý từ nơi nó dừng lại, ngay cả khi ứng dụng bị tắt hoặc gặp lỗi. Điều này đặc biệt quan trọng đối với các hệ thống xử lý dữ liệu thời gian thực, như dịch vụ tài chính.

Consumer Groups

Các consumer trong một consumer group có thể làm việc song song để xử lý sự kiện từ một topic.

Ví dụ:

Nếu một topic có hai partitions và chỉ một consumer, consumer đó sẽ xử lý cả hai partitions.
Nếu có thêm một consumer tham gia group, mỗi consumer sẽ chỉ xử lý một partition.

Điều này giúp hệ thống mở rộng một cách hiệu quả khi cần tăng cường khả năng xử lý.

Retention (Lưu trữ dữ liệu)

Kafka cho phép thiết lập thời gian lưu trữ dữ liệu để kiểm soát kích thước log topic.

Retention có thể được cấu hình theo:

Dung lượng (log retention): Giới hạn kích thước log.
Thời gian (time-based retention): Giới hạn thời gian lưu trữ tin nhắn.

Bạn có thể áp dụng retention chung cho tất cả các topic hoặc thiết lập riêng cho từng topic tùy vào yêu cầu cụ thể.

Kết luận

Apache Kafka là một nền tảng xử lý luồng dữ liệu phân tán mạnh mẽ, kết hợp khả năng truyền tải tin nhắn (messaging) và lưu trữ dữ liệu (storage).

Với kiến trúc dựa trên brokers, topics, partitions, Kafka mang đến khả năng mở rộng (scalability) và chịu lỗi cao (fault tolerance). Các tính năng như consumer groups và offsets giúp xử lý dữ liệu hiệu quả và tin cậy.

Với khả năng xử lý dữ liệu lớn và hỗ trợ ứng dụng thời gian thực, Kafka là một thành phần cốt lõi trong các hệ thống dữ liệu hiện đại. Nó giúp các nhà phát triển xây dựng các ứng dụng mạnh mẽ, dựa trên dữ liệu, giải quyết thách thức trong thế giới số ngày nay.

apache kafka