前陣子我們 Team 上在研究 Application layer 的 Scaled-out solution,我負責研究其中的 Database cluster package,在這邊想分享一下當時研究的技術和開發心得,也作為自己未來可以參考的筆記 XD。
另外這篇文章比較偏向一種 Replication 模型的實務架設,非常推薦閱讀 Designing Data-Intensive Applications 的第五章來更全面的認識 Replication,也希望之後能排出時間整理這本書一些章節的讀書筆記。
以 PostgreSQL 來說,每一個 Server 即為由多個 Database 共同組成的 Cluster,不過我在這篇文章中提到的 Cluster 是指藉由 PostgreSQL physical replication 同步資料的多個 PostgreSQL server。
What is Replication? Why is It Necessary?
Replication 即是將資料同步至其他 Database server 的過程。單一 Server 常受限於效能與可靠性,此時可以付出較高昂的成本 Scaled-up,不過也只能改善效能;而 Scaled-out solution 則有機會同時改善這兩個項目,以下條列包含 Replication 在內的一些相關功能:
- Performance
- Load distribution
- Read/Write splitting
- High Availability
- Replication
- Failover
- Main server recovery
我們的產品使用 PostgreSQL 作為 Database,因此關於 Replication 主要就是在 Physical 和 Logical 間考量。由於產品目標主要是整個 Database 的 Repliation,不需要為了追求 Logical replication 的高自由度而承擔如這篇提到的限制,因此還是選用了 Physical replication。
至於其他條列的功能,經過一番調查,我們選擇功能較為完整的 PgPool-II 作為研究對象。
TODO: 今天這篇主要會分享 PostgreSQL 的 Physical replication,預期會再有一篇文章介紹 PgPool-II 的部分。
PostgreSQL Physical Replication
在介紹設定方式,先來介紹一下 Physical replication:
- Single leader (Primary/Main server) and multiple follower (Replica):
- Main server 負責處理 Write queries,再將改動的資訊同步給所有 Replica。
- 所有 Node 都能處理 Read queries,不過如果要實現 Read/Write splitting 的話通常會分流給 Replica。
- Delivery of WAL files: 上述的資訊傳遞是 Primary server/Replica 分別藉由 WAL sender/receiver 來傳送/接收,由於是直接傳送 WAL file,因此會有以下特性:
- 需要 Binary level 相容性,也是被稱為
Physical
的原因 (相對而言 Logical 則是 Protocol level 相容性)。 - Primary server/Replica 的 PostgreSQL 版本需要相同。
- 沒有辦法做到 Parital/Conditional replication,只能以整個 Server 為單位進行 Replicate。
- 需要確保資訊傳遞時 WAL file 仍存在。
- Replication slot: 紀錄每個 Replica 目前接收到的最新 LSN,WAL file 需要在確認所有 Replica 都已經同步到其中的紀錄之後才可以清掉。下文的流程介紹會用這種方式。
- WAL archive: 設定會在 WAL file 滿的時候執行的
archive_command
來產生 WAL file 的備份,要同步給 Replica 時如果發現 WAL 已經清掉了就會透過restore_command
從 Archive 拿。
- 需要 Binary level 相容性,也是被稱為
Setup Steps and Configuration
以下會大致介紹 Physical replication 的設定流程 (1 Main server and 1 Replica),其中 Command/Configuration 僅供參考,請依環境/需求調整:
Main Server
- Initialize the main server:
1
sudo -u postgres initdb -D /var/lib/pgsql/data
- Setup
postgresql.conf
for main server:1
2
3
4# Physical replication can run with default configuration.
# Therefore, only connection related setting are configured here.
listen_addresses = '*'
# Connection permission in pg_hba.conf. - Start the main server:
1
sudo -u postgres pg_ctl -D /var/lib/pgsql/data start
- Create role for replication:
1
psql -U postgres -tA -c "CREATE ROLE replication WITH LOGIN REPLICATION;"
- Create replication slot:
1
psql -U postgres -tA -c "SELECT pg_create_physical_replication_slot('replica_1');")
Replica
- Create a standalone backup from primary server:
1
sudo -u postgres pg_basebackup -h ${PRIMARY_IP} -U replication -D /var/lib/pgsql/data -X stream
- Setup
postgresql.conf
for replica:1
2primary_conninfo = 'host=${PRIMARY_IP} port=5432 user=replication application_name=replica_1'
primary_slot_name = 'replica_1' - Tell the server to start as standby mode:
1
sudo -u postgres touch /var/lib/pgsql/data/standby.signal
- Start the replica:
1
sudo -u postgres pg_ctl -D /var/lib/pgsql/data start
Monitoring
- Show the state of the replication:
1
psql -U postgres -x -c "SELECT * FROM pg_stat_replication"
- Check the current replication role:
1
psql -U postgres -c "SELECT pg_is_in_recovery()"
- f: Primary
- t: Replica
- Monitor the status of the replication slots:
1
psql -U postgres -c "SELECT * FROM pg_replication_slots"
More Issues about PostgreSQL Cluster
至此我們已經初步建起藉由 PostgreSQL physical replication 同步資料的 Primary-Replica servers,此後只要 Primary server 接收到 Write query 就會將改變同步至 Replica,也可以兩台 Server 處理相同的 Read query 應該要能觀察到相同的結果。
在這篇文章的最後,我們回到這篇文章開頭提及的: Scaled-out solution 追求的幾個面向繼續進行討論,也延伸討論一些 Replication 在實務上會遇到的議題。
Request Routing
雖然我們已經建立多個 PostgreSQL server 參與的 Replciation 系統,每個 Server 各自能獨立處理 request,但如何將 Request 導到這些 Server 呢?我們可以讓 Application 自行處理,不過後續無論是新增 Replica,或 Primary server 的改變,都會需要 Application 接 hook 去改動連線對象,且需要自行實作演算法來均分 Request,因此除非受限環境或 Application 的 Request 非常
單純,不然不太推薦這種做法。
比較常見的還是會在中間有一層 Proxy 來作為 Router,例如用途比較廣泛的 HAProxy,以及 For PostgreSQL 的 PgPool-II。如前文提到之後預期會有文章進一步介紹後者,因此這邊就不細談。
Network
想像中多台 Server 各自處理連線應該會對效能有很大的改善,不過在實務上需要考慮 Network 的開銷。由於這點在加入上述的 Proxy 後會更為明顯,因此一樣預期在之後的文章中再討論。
Promote Replica to Main Server
需要對其中一台 Replica 進行 Role swtich 升級為 Main server 的場合主要有兩種:
- Scheduled switchover: 如原 Main Server 需要週期性的維護,但不想要因此中斷服務。
- Emergency switchover: Main server failure,即 Failover。
只需在剛剛設定好的 Replica 執行以下指令即可升級:
1 | sudo -u postgres pg_ctl -D /var/lib/pgsql/data -w promote |
Main Server Recovery
等到原先的 Main server 維護完畢或異常修復後,需要再以 Replica 的身份去 Follow 新的 Main Server。
如果原先的 Main server 是因為 Hardware 或 File system error 壞掉:
- 只能清掉舊資料,重新以前文設定 Replica 的方式重建。
如果新 Main server 出現後,原本的 Main server 仍有處理 Write query,導致兩個 Server timeline diverge:
- 一樣可以直接清掉再重建。
- 有機會藉由
pg_rewind
來重置差異,失敗了才整個清掉重建,參考指令如下:1
pg_rewind -D /var/lib/pgsql/data --source-server="user=postgres host=${PRIMARY_IP} port=5432 dbname=postgres"
需注意要使用這個 Tool 的話需要滿足: the target server either has the wal_log_hints option enabled in postgresql.conf or data checksums enabled when the cluster was initialized with initdb. Neither of these are currently on by default. full_page_writes must also be set to on, but is enabled by default.
Automation
PostgreSQL 原生並不支援 Failure detection,因此上面介紹的指令都需要手動執行。不過若是手動的話就無法支援 Emergency switchover 的情境了,也因此通常還需要額外有 Watchdog 來 Monitor 各 Server 的狀態,像是 repmgr 或前文提及多次的 PgPool-II 都可以指定 Failover, recovery 等事件發生時要執行的指令。
Synchronization
PostgreSQL 的參數 synchronous_commit 在 synchronous_standby_names 不為空的時候 有多種不同設定,詳細等級可以參考官網說明。在這邊主要想探討的是除了最高等級的 remote_appy
之外,都有可能遇到的 Replication lag 現象,即同時間發給不同台 Server 的 Read request 可能得到不同的結果。
前文因為想要盡量簡化設定流程,因此這項參數維持預設值。
這可能導致 Application 行為有微妙的異常,例如對話內容時有時無、同時間和其他人看到的資訊不同等等。這些異常是 Distributed storage 常見的限制,有些在非同步的情況難以改善,有些則可能透過 Application 或 Request router 特別處理來克服,例如讓來自同個 User 的 Request 都被導到固定的 Server。
這部分在 DDIA 的第五章中有相關的介紹,像一開始提到的希望之後能排出時間來整理筆記分享。