Перейти до основного вмісту

Основні поняття Apache Kafka

Producer - клієнт, який генерує (публікує) повідомлення в Kafka-топік. Може відправляти повідомлення в конкретну партицію (використовуючи ключ) або дозволяти Kafka автоматично вибирати партицію. Підтримує acknowledgments для підтвердження успішного запису.

Consumer - клієнт, який читає повідомлення з Kafka-топіка. Консюмери об'єднуються в групи споживачів (consumer groups), щоб розподіляти навантаження. Кожна партиція обробляється лише одним консюмером у межах групи.

Message - основна одиниця даних у Kafka. Складається з ключа (optional), значення (дані) та метаданих. Зберігається у партиції топіка.

Topic - логічна категорія або ім'я каналу, через який Kafka передає дані. Дані в Kafka організовані в топіки. Кожен топік може мати одну або більше партицій. Споживачі (consumers) читають дані із заданих топіків.

Partition - фізичний підрозділ топіка, який зберігає впорядковану послідовність повідомлень. Повідомлення у партиції мають унікальний offset (зміщення). Партиції розподіляються між брокерами для масштабованості.

Broker - сервер у кластері Kafka, який зберігає дані топіків і обробляє запити на читання та запис. Кожен брокер відповідає за одну або кілька партицій. Один із брокерів може виконувати роль контролера, який координує кластер.

Offset - унікальний номер, що визначає позицію повідомлення в партиції. Консюмери використовують offset для відстеження того, які повідомлення вже прочитані.

Consumer Group - Kafka гарантує, що кожна партиція буде оброблятися лише одним консюмером у межах групи. Дозволяє масштабувати обробку даних.

Cluster - група брокерів, що працюють разом. Забезпечує високу доступність і стійкість до відмов. Брокери використовують ZooKeeper або Kafka Raft (KRaft) для координації.

Replication - процес копіювання даних із партиції на інші брокери. Кожна партиція має лідерську репліку та одну чи більше резервних (follower replicas). Лідер обробляє всі операції читання та запису.

ZooKeeper - зовнішній сервіс, який координує брокери та слідкує за станом кластера. Використовується в старих версіях Kafka.

Kafka Raft (KRaft) - інтегрована система координації в Kafka, яка замінює ZooKeeper у нових версіях.

Producer Acknowledgment - механізм підтвердження від брокера, що повідомлення було успішно записано.

  • acks=0 - без підтвердження
  • acks=1 - лише лідер підтверджує запис
  • acks=all - підтверджують усі репліки

Retention Policy - політика зберігання повідомлень у Kafka.

Типи:

  • За часом. Повідомлення видаляються через заданий проміжок часу.
  • За розміром. Видаляються найстаріші повідомлення, коли досягається граничний розмір.

Rebalancing - процес перерозподілу партицій між консюмерами в разі змін у групі споживачів. Може виникати під час додавання або видалення консюмерів.

Stream Processing - обробка потокових даних у реальному часі за допомогою Kafka Streams або інших фреймворків, наприклад Apache Flink або Spark. Використовується для трансформації, фільтрації, агрегації даних тощо.

Коментарі

Популярні публікації

Шпаргалка по базових командах PostgreSQL

1. Підключення до PostgreSQL через командний рядок: psql -h <host> -p <port> -U <username> -d <database> 2. Підключення до бази без параметрів (якщо користувач і база мають однакове ім’я): psql 3. Показати список усіх баз даних: \l 4. Підключитися до іншої бази даних: \c <database_name> 5. Показати список таблиць у поточній базі: \dt 6. Показати всі об'єкти (таблиці, індекси, секвенції): \d 7. Показати таблиці з усіх схем: \dt *.* 8. Переглянути структуру конкретної таблиці: \d <table_name> 9. Виконати SQL-запит (приклад): SELECT * FROM users; 10. Вийти з psql: \q 11. Створити нову базу даних: CREATE DATABASE mydb; 12. Створити нову таблицю: CREATE TABLE users ( id SERIAL PRIMARY KEY, name TEXT NOT NULL, email TEXT UNIQUE ); 13. Додати новий запис: INSERT INTO users (name, email) VALUES ('Іван', 'ivan@example.com'); 14. Оновити дані в таблиці: UPDATE users SET name = 'Петро' WH...

Створення нового Elixir-проєкту

Для створення новго Elixir-проєкту можна використати команду mix new first_project --sup Зрозуміло, що Elixir має бути встановлений раніше. Пояснення команди: mix — це вбудований інструмент для управління проєктами в Elixir (аналог maven у Java чи npm у JavaScript ). new — підкоманда mix, яка створює новий проєкт. first_project — назва твого нового проєкту. Папка з цією назвою буде створена у поточному каталозі. --sup — опціональний прапорець, який додає шаблон структури з Supervision Tree. Це означає, що створений проєкт одразу буде мати структуру, яка підтримує супервізор (супервізор керує життєвим циклом процесів у системі, перезапускаючи їх при падінні). Щоб створити файл з тестом, можна запустити команду із директорії проєкту mix test Приблизний вигляд структури проєкту:

Docker-compose для створення Postgresql бази даних

Docker Compose — це інструмент, який дозволяє визначати та запускати багатоконтейнерні Docker-застосунки. Замість того, щоб вручну запускати кожен контейнер із довгими командами docker run, docker-compose.yml надає простий спосіб описати всю архітектуру додатка у вигляді YAML-файлу. Це дозволяє легко створювати, запускати, зупиняти та масштабувати сервіси за допомогою однієї команди, що значно спрощує розробку, тестування та розгортання застосунків. Основні можливості Docker Compose включають: запуск кількох контейнерів одночасно, визначення мережі та спільних томів між контейнерами, налаштування змінних середовища та автоматичне підключення сервісів один до одного через імена сервісів. Він особливо корисний для локального середовища розробки, CI/CD-процесів і навіть невеликих продакшен-рішень, де потрібно швидко відтворити середовище для тестування або демонстрації. Мінімальний docker-compose.yml для локального використання PostgreSQL без збереження даних після видалення контейне...

Шпаргалка по запуску та збірці Spring Boot-проєктів

Maven + Spring Boot 1. Збірка проєкту (із завантаженням залежностей, компіляцією, запуском тестів та створенням артефакту) mvn clean install 2. Збірка артефакту без встановлення у локальний репозиторій mvn package 3. Збірка без тестів mvn clean package -DskipTests 4. Запуск Spring Boot-проєкту mvn spring-boot:run 5. Запуск із активним профілем Spring Boot mvn spring-boot:run -Dspring-boot.run.profiles=dev 6. Запуск із параметрами mvn spring-boot:run -Dspring-boot.run.arguments="--server.port=8081 --spring.profiles.active=prod" 7. Запуск з jar-файлу java -jar target/your-app-name.jar 8. Запуск тестів mvn test 9. Запуск, якщо pom.xml у підкаталозі mvn -f шлях/до/pom.xml spring-boot:run 10. Запуск із Maven-профілем (не плутати з Spring Boot профілем) mvn clean install -P dev Gradle + Spring Boot 1. Збірка проєкту (з компіляцією, тестами та створенням jar) ...

Прості типи даних в Elixir

Мова Elixir має низку простих (примітивних) типів даних, які часто використовуються в повсякденному програмуванні. Числа Elixir підтримує цілі (integer) та дійсні числа (float). # Цілі числа a = 42 b = -7 # Дійсні числа c = 3.14 d = -0.001 Булеві значення Elixir має два булевих значення: true та false . x = true y = false z = x and y # false Атоми Атоми — це константи з іменем, що починається з двокрапки. Вони широко використовуються, наприклад, для імен параметрів або станів. :ok :error :running :elixir_is_fun Рядки Рядки в Elixir — це двійкові дані з кодуванням UTF-8, оголошуються в подвійних лапках. name = "Pavlo" greeting = "Привіт, #{name}!" Nil Nil — це спеціальне значення, що позначає "відсутність значення". value = nil is_nil(value) # true Бінарні дані та байти Бінарні дані оголошуються в подвійних лапках або як бінарні літерали. string = "Привіт" # це рядок, але також бінарні дані binary = ...