先上個pgsql操作的對比,然后引出ignite的并置處理規則
ddl:
drop table student;CREATE TABLE student(sid int PRIMARY KEY ,sname varchar(64), cid int);
drop table course;CREATE TABLE course(cid int PRIMARY KEY ,cname varchar(64));
drop table score;CREATE TABLE score(sid int ,cid int,score int,PRIMARY KEY (sid,cid));
dml:
course表:
| cid | cname |
|---|---|
| 1 | yuwen |
| 2 | shuxue |
| 3 | yingyu |
student表:
| sid | sname | cid |
|---|---|---|
| 1 | zhang | 1 |
| 2 | wang | 2 |
| 3 | liu | 1 |
| 4 | li | 3 |
| 5 | chen | 3 |
| 6 | zhao | 3 |
score表:
| sid | cid | score |
|---|---|---|
| 1 | 1 | 99 |
| 3 | 1 | 99 |
| 2 | 2 | 50 |
| 4 | 3 | 79 |
dql 查詢有成績的學生資訊
SELECT student.* FROM student inner JOIN score ON STUDENT
.sid=score.sid
pgsql結果
| sid | sname | cid |
|---|---|---|
| 1 | zhang | 1 |
| 3 | liu | 1 |
| 2 | wang | 2 |
| 4 | li | 3 |
ignite結果
| SID | SNAME | CID |
|---|---|---|
| 1 | zhang | 1 |
| 2 | wang | 2 |
顯然,ignite結果不正確,似乎是少了部分結果
ignite 并置:
- ignite的資料是分布式存在的
- join類計算只會在本地的資料集上執行,不會跨節點
因此有兩種處理方式:
- 設計時就把具有E-R關系的資料分布在相同的節點,此種方式最優,在設計分庫分表時也需要考慮這一點
- 開啟并置處理:affinity_key=sid,即是告訴ignite,涉及到這個欄位的計算時,需要把資料廣播到其他所有節點,由此可見,當表的資料量較大時,性能很差
改寫score表的ddl如下:
CREATE TABLE score(sid int(11) ,cid int(11),score int(11),PRIMARY KEY (sid,cid))
WITH "template=partitioned,backups=1,affinity_key=sid" ;
再執行:
SELECT student.* FROM student inner JOIN score ON STUDENT
.sid=score.sid
ignite結果
| SID | SNAME | CID |
|---|---|---|
| 1 | zhang | 1 |
| 2 | wang | 2 |
| 3 | liu | 3 |
| 4 | li | 3 |
連序都排好了,你說贊不贊 _

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/3138.html
標籤:大數據
