- ถ้าต้องการจัดกลุ่มข้อมูล (grouping data) เช่น Join, Merge หรือ Remove duplicate ให้ใช้ HASH partitioning
- ถ้า key ที่ใช้แบ่ง partition มีแค่ 1 column และเป็น integer ให้ใช้ MODULUS partitioning
- กรณีที่การกระจายของข้อมูลมั่วซั่วไปหมด ใช้ hash แล้วไม่สามารถ balance มันได้ ให้ใช้ RANGE partitioning
- ถ้าไม่มีการจัดกลุ่มข้อมูล (grouping data) ให้ใช้ ROUND ROBIN เพราะ overhead น้อยสุด
- ให้มีการ re-partition น้อยที่สุดเท่าที่จะทำได้
- ใช้ SAME ให้เยอะที่สุดเท่าที่จะเป็นไปได้ เพราะฉะนั้นต้องออกแบบ job ดีดี
- การรับส่งไฟล์ระหว่าง job ให้ใช้ dataset เพราะยังคง partition อยู่
10 April 2010
Partitioning Strategy
ข้อคำนึงในการเลือกใช้ partition
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment