只要提到 System design 的推薦書籍,總是會看到 Designing Data-Intensive Applications 這本書。實際上閱讀後覺得雖然偶爾會有點偏向理論,但內容的確非常廣泛,且介紹概念的情境、案例非常豐富,目前已經閱讀的前半本,每個章節都讓我收益良多,也因此想挑選這本書來整理摘要與筆記。
本書的第一章節主要在討論一個好的 Software service,其背後的 Data system (如 Database, message queue, cache, search indexes 等 tool) 該如何設計、建構。書中以三個面向: Reliability, scalability, maintainablity 來探討,非常值得一讀。不過由於並未涉及太多實際應用的技術,建議直接閱讀即可,關於本書的讀書筆記也將從第二章,也就是這篇文章開始做。
本文的圖片和程式碼都來自原書內容。
Data Model
Application 常常建立在分為多層 (Layer) 的 Data model,對於每層的開發者來說,只需關注如何用下一層的 Interface 來表現本層 (建模) ,如此透過抽象化底層實作來降低開發的複雜度。
graph TD; api[API]-->struct[Data Structures] struct-->store[Data Storage: JSON/XML/relational/graph data] store-->bytes[Bytes in memory, on disk, or on a network] bytes-->signal[Electrical currents, pulses of light, magnetic fields]
世界上存在很多 Data models,各自有其特性與適用情境。接下來的小節會介紹上圖 Data storage 那層的 Relational, document 以及一些 Graph data model。
Relational Model Versus Document Model
SQL and NoSQL
SQL (Relational model) 是至今最為盛行的一種 Data model,本節帶過其歷史,並繼續介紹到 NoSQL 的誕生(Non-SQL, Not Only SQL),其相對於 Relational database 的優勢為:
- Scalability: 可以達到更大的 Dataset 與更高的 throughput。
- 通常為 Open source。
- Relational model 對部分 Queries 支援性不佳。
- Relational schema 限制太多,彈性與表意能力太差。
當然不同 Applications 有不同 use case,不同需求下最適合的 Model 也不同,因此這兩者的關係並非互斥而是共存,即 Polyglot persistence。
The Object-Relational Mismatch
為了配合 Application 開發常用的 OO 語言 (請參考 讀書筆記|Clean Architecture|Part 2. Programming Paradigms 的介紹),Relational model 常常需要有一層 Object-relational mapping (ORM) 的 Translation layer 來解決 Object (Application code) 和 Relational data 間的 impedance mismatch。
不過 ORM 無法完全消除 Object 和 Relational data 的不同。例如 one-to-many relationship,如上圖一個
user 可能有多個
工作經歷 (positions
),多個
教育背景 (educations
),其 Relational schema 設計可能有以下幾種:
- 較傳統的方式是正規化將工作經歷、教育背景等資訊各自存在獨立的 Table
positions
,educations
,再透過 Foreign key referernce 建立與users
的聯繫。 - 較新的 SQL standard 有支援 Structured datatypes,如 XML, JSON document,可以讓
users
的一個 Column 就能存多個工作經歷、教育背景 (muti-value data),並支援對這些 Document 的 Query 與 Index。。 - 可以自行 encode 多個工作經歷、教育背景為 XML, JSON document,並儲存於 Text column,由 Application 拿到後自行 decode。不過這種方式就沒有辦法直接透過 Database 查詢到其中的值,也無法 Index。
如果 Relational model 設計成第一種 multi-table schema,則需要透過多個 Query 或將不同表格透過join
結合,才能查詢到想要的結果。而如果後兩者較不會遇到這樣的問題,也可以說 Document model 較適合處理 one-to-many relationship data。
工作在開發時常用 soci 這個 LIbrary 來實作 ORM,由於在 Schema 設計上還是比較常使用第一種,也的確會遇到上文提到的問題。發多個 Query 很容易遇到 N + 1 queries 的效能問題,因此是不能接受的,因此目前常用的解法是針對每個需要 Join 的場合先建好 View,或是直接放棄ORM 改用 Raw query。
Many-to-One and Many-to-Many Relationships
在上圖的履歷可以看到 user 的 region, industry 資訊是存為 id 而非有意義的文字,其實就是我們常說的正規化 (normalization) 去重複,能讓這些資訊更好維護。不過這樣的正規化會導致 many-to-one, many-to-many relationship 的產生,即 多個
user 可能都居住於 一個
地區,或 多個
user 各自的 多個
工作經歷可能都含有某公司。
Relational model:和 one-to-many relationship 相同都可以用
join
結合後查詢。Document model:支援性較差。
以前出現過和 Document model 有類似特性的 Hierarchical model 與 Network model,當時就有討論 Many-to-xxx relationship 在不同模型下的支援。
Network model 主要是由 Application developer 決定 Query 的 access path,這和這篇文章開頭 Data model 的分層相違背。
相對而言 Relational database 通常由 Query optimizer 決定 access path,雖然 Query optimizer 的實作難度很高非常複雜,但一勞永逸,從長遠角度來說是較好的選擇。
為了避免步上這些歷史上的 Model 的後塵,現行的 Document model 有 Document reference,類似於 Relational model 的 Foreign key,用來支援
join
等 Query。
Relational Versus Document Databases Today
從 Data model 的角度來說這兩種 Database 各有優勢:
- Relational:對 many-to-one, many-to-many relationship data,
join
的支援較好。 - Document:schema flexibility, locality。
不過對於高度關聯的資料,雖然 Relational model 是優於 Document model 的選擇,但後文將介紹的 Graph model 是更適用的選擇。
本小節雖然在比較 Document 和 Relational model,但這兩者並不是互斥的:
- 如前文提到有些 Relational database system 有支援 Structured datatypes,如 XML, JSON document。
- 有些 Document database 有支援 Relational-like joins。
如果將來有更多 Database 同時支援這兩種 Model 的特性,對於 Application 來說也更便於挑選適合他們需求的功能。
Schema Flexibility in the Document Model
前文提到 Document model 具有 Schema flexibility 的優勢,相對於 Relational model 必須嚴格根據 schema 進行寫入 (schema-on-write),Doucment model 通常不具有這樣的限制,Document 如 JSON 可以寫入任意 key-value pair,自由度較高,但也因此在讀取時不保證資料存在 (schema-on-write)。詳細比較兩者的差異:
schema-on-write | schema-on-read |
---|---|
static (compile-time) type checking | dynamic (runtime) type checking |
強型別 | 弱型別 (record 可以是不同結構的, heterogeneous) |
性能較佳 | 讀取時動態解析,因此性能較差 |
舉例來說,如果新版本想要對 schema 進行改動,如果是 schema-on-read 的 JSON,則對於未更新的既有資料 Application 可以直接在 code 中處理:
1 | if (user && user.name && !user.first_name) { |
而 schema-on-write 的 Relational schema 則需要 downtime 進行 Migration / Upgrade:
1 | ALTER TABLE users ADD COLUMN first_name text; |
以上面用來 Migrate 的 SQL 來說,ALTER
通常不會造成太大的開銷,不過 UPDATE
在資料量大時會很慢不太適合,通常會建議用 ALTER ... WITH DEFAULT
,或類似 Document model 的做法,一開始給 default 值 NULL
,讀取時發現是 NULL
時再 UPDATE
。
Data Locality for Queries
- Document model 通常存於 encoded 為 JSON, XML 的 string,或其 Binary 格式。
- 存取整個 Document,則會有 storage locality 的效能優勢。
- 但由於通常都需要將整個 Document load 進來才能操作,因此會建議控管每個 Document 的大小。
- 其他 Data model 也有類似的將資料 grouping 以達到 Locality 的優勢,例如 Oracle 的 multi-table index cluster tables。
Query Languages for Data
這個小節前半部分主要在介紹 Imperative 和 Declarative 兩種 Programming language,以 Query language 來說,Imperative language 像是一步步下指令來取得資料 (Traverse 全部資料並將符合條件的資料加入結果);Declarative language 則是直接宣告欲取得的資料的特徵 (需滿足什麼條件、怎麼呈現)。後者通常更簡潔,且隱藏了 Database engine 的實作細節,讓 Database system 有機會決定要用怎麼樣的 Algorithm 查詢,例如是否要平行運算。
後半部分則介紹了 MapReduce,由於其在第十章節才會詳細介紹,這個小節只簡單介紹 MongoDB 中的 MapReduce。以統整每個月觀察到的鯊魚數量報告為例,以 PostgreSQL 的 Declarative SQL 和 MongoDB 中的 MapReduce 比較:
1 | # PostgreSQL |
1 | // MongoDB |
SQL 的範例較好理解因此這邊略過說明,MapReduce 的部分處理步驟如下:
只要是符合 #12 Query 條件的 Record,就會對其呼叫 #3 實作的
map
function,每個 Record 最後需回傳 (emits
) 一個 key-value pair,以 Record 如下為例會回傳{1995-12, 3}
。1
2
3
4
5
6{
observationTimestamp: Date.parse("Mon, 25 Dec 1995 12:34:56 GMT"),
family: "Sharks",
species: "Carcharodon carcharias",
numAnimals: 3
}對所有 key-value pairs 根據 Key 分組,對每一組有相同 Key 的 key-value pairs 呼叫 #8 實作的
reduce
function,加總所有 Value。將結果寫至 #13 的 output 中。
MapReduce 這個 Programming model 還有一些特性如下:
map
,reduce
在 Functional programming language 中常被使用,這兩隻 Function 常對實作有所限制,以利於背後平行分派,如限制其為 pure function (同樣 Input 就會得到同樣 Output、不能有 Side effects)。- 是 Low-level programming model,即有可能是 SQL 這個高階宣告式查詢語言背後的實作。
- 這邊的範例使用到 Javascript,不過這並非是 MapReduce 的專利。
另外也可以利用 MongoDB 2.2 開始支援的 aggregate pipeline 來讓其更貼近 Declarative query language 的特性:Query optimizer 有更高的自由度去改善此 Query 的效能。
1 | db.observations.aggregate([ |
Graph-Like Data Models
前文提到對於高度關聯的資料 (Social graph, web graph, road networks),Graph model 是更適用的選擇,包含:
- Property graph model
- Triple-store model
相關的 Query languarge 則有
- Cypher
- SPARQL
- Datalog
不過這篇文章只打算介紹其中 Property graphs 和 Cypher 的部分來大致了解 Graph model 的 Use case,其餘就等有碰到再回去書中查詢。以下圖中一對夫妻的 Social graph 為例 :
Property Graphs
Property graph model 包含 Vertex 和 Edge,我們用 Relational schema 來表示這兩者的組成:
1 | CREATE TABLE vertices ( |
和 #12, #13 建立的 Index 類似,Property graph model 可以快速找到和各個 Vertex 的 Outgoing / Ingoing edges。
label
可以用來表達不同的關係,如上圖 Social graph 的born_in
,lives_in
,within
,married
。有很多關係是傳統 Relational schema 難以表達的,例如不同國家對於行政區的劃分個有規則、Lucy 現在住在 City 但出生於 State。
Graphs are good for evolvability.
The Cypher Query Language
Cypher 是用來查詢 Property graphs 的 Declarative query language。
Cypher query to add data:
1
2
3
4
5
6
7CREATE
(NAmerica:Location {name:'North America', type:'continent'}),
(USA:Location {name:'United States', type:'country'}),
(Idaho:Location {name:'Idaho', type:'state'}),
(Lucy:Person {name:'Lucy'}),
(Idaho) -[:WITHIN]-> (USA) -[:WITHIN]-> (NAmerica),
(Lucy) -[:BORN_IN]-> (Idaho)Cypher query to get data matching conditions:
1
2
3
4MATCH
(person) -[:BORN_IN]-> () -[:WITHIN*0..]-> (us:Location {name:'United States'}),
(person) -[:LIVES_IN]-> () -[:WITHIN*0..]-> (eu:Location {name:'Europe'})
RETURN person.name- 用類似 Regular expersion 的方式 Match (WITHIN 出現 0 或多次)。
和一般的 Declarative language 相同,我們不需要擔心執行的實作細節。
Graph Queries in SQL
之前有用 Relational schema 來表示 Graph data 的 Vertex 和 Edge,換言之我們可以將 Graph data 以 Relational model 儲存,對於前面 Cypher 的 :WITHIN*0..
,SQL 可以用 recursive common table expressions (WITH RECURSIVE
) 來實現:
1 | WITH RECURSIVE |
Cypher 只需要 4 行即可完成的 Query 以 SQL 實現需要 30 行左右,只能說不同的 Data model 真的各有 Use case,Application 需要根據需求挑選適合的 Data model。
Summary
We have different systems for different purposes, not a single one-size-fits-all solution:
Relational model
- Targeting use case: many-to-many relationships (while graph maybe more suitable when data is highly connected).
- Explicit schema, which enforces the structure during write operations.
NoSQL
- Document model:
- Targeting use case: data comes in self-contained document.
- Graph model:
- Targeting use case: anything is potentially related to everything.
- Typically implicit schema, where the structure is handled during read operations.
- Easier to adapt applications to changing requirements.
- Document model:
Full-text search
- Unmentioned in this chapter. Search indexes would be touched in Chapter 3 and Part III.
Each data model comes with its own query language or framework:
- SQL, MapReduce, MongoDB’s aggregation pipeline, Cypher, SPARQL, and Datalog.