10 April 2010

Optimizing Sort Performance

Optimizing Sort Performance

1. ให้ Sort น้อยครั้งที่สุดเท่าที่จะทำได้ เพราะ
  • การ sort แต่ละครั้งจะไป interrupt parallel pipeline -- ติดแหงกอยู่ตรง sort ไม่สามารถไปทำ step ถัดไปได้จนกว่า sort จะเสร็จ
  • ต้องอ่านข้อมูลทุก record ใน partition ก่อนถึงจะเริ่มพ่น output ออกมาได้
2. Sort บน key column ที่จำเป็นเท่านั้น
3. หลีกเลี่ยงการใช้ stable sort* โดยไม่จำเป็น
4. ถ้าเป็นไปได้ กำหนดค่า Sort Key Mode บน column ที่ถูก sort มาแล้วเสมอ
5. ปรับขนาดของ Restrict Memory Usage ให้เหมาะสม

Stable sort คือ การ sort ข้อมูลบน key column ที่ต้องการ แล้วในกรณีที่ key column มีค่าซ้ำกัน ให้คง order เหมือนกับ source โดย default เราไม่ได้กำหนดให้เป็น Stable sort

ตัวอย่าง

col1 col2
2  D
1  B
1  A
2  C

sort by col1 + stable sort

col1 col2
1 B
1 A
2 D
2 C

Sort - Resource Usage

การ Sort บน DataStage กิน memory และ disk อย่างไร

โดย default การ sort แต่ละครั้งจะจอง memory ไว้ 20MB ต่อ partition 

เราสามารถปรับขนาด memory ได้ที่ option "Restrict Memory Usage" ยิ่งใหญ่ยิ่งดี แต่ต้องระวัง memory จะไม่พอ

หรือจะไปปรับที่ Environment variable ชื่อ $APT_TSORT_STRESS_BLOCKSIZE = [mb] เลยก็ได้ เสมือนเราไปตั้งค่า default นั่นแหละ ซึ่งมันจะถูก override โดย option "Restrict Memory Usage" อยู่ดี

ที่พูดไปทั้งหมดเป็นการ set ขนาด memory ที่ใช้ในการ sort พอเริ่ม sort จริง มันก็จะอ่าน data file เข้าสู่ memory ถ้า memory เต็มก็จะไปใช้ Temp disk ตาม path ดังนี้
  • Scratch disk in the $APT_CONFIG_FILE with "sort" named disk pool
  • Scratch disk in the $APT_CONFIG_FILE default named disk pool
  • $TMPDIR aka. UVTEMP
  • UNIX /tmp directory

Sort Tips

Resorting on Sub-Groups

เมื่อเราต้องการ sort data เพิ่มเติมจาก data ที่เคยถูก sort มาแล้ว เช่น input data เคยถูก sort by col1, col2 มาแล้ว แต่เราต้องการ sort by col1, col2, col3 เราไม่จำเป็นต้อง sort ใหม่ทั้งหมด ให้ใช้ Sort Key Mode property เป็นประโยชน์ ดังนี้
  1. กำหนด Key = col1 > Sort Key Mode = Don't Sort (Previously Sorted)
  2. กำหนด Key = col2 > Sort Key Mode = Don't Sort (Previously Sorted)
  3. กำหนด Key = col3 > Sort Key Mode = Sort
  4. Key column order สำคัญนะครับ ต้องเรียงให้เหมือนกัน ถ้าสลับตำแน่งกัน ผลลัพธ์อาจจะผิดได้
  5. อย่าลืมใช้ SAME partition บน input data เพื่อให้ sort order (ที่เคยถูก sort มาแล้ว) ยังคงเหมือนเดิม เพราะถ้ามีการ re-partition เกิดขึ้น row order หรือ grouping จะเละหมดเลย ต้อง sort ใหม่
วิธีนี้จะทำให้ Performance ดีขึ้นมาก เพราะใช้ memory และ disk น้อยลงเยอะ

Total Sorting Methods

โดยปกติแล้ว Sort Stage จะทำการ Sort แบบ Parallel คือ sort data ภายใน partition ตัวเองเท่านั้น partition ใคร partition มัน ไม่เกี่ยวกัน

ที่นี้ถ้าเราอยาก Sort data ทั้งไฟล์หรือที่เรียกว่า Total Sort หล่ะ ทำได้ 2 วิธีคือ
  1. ใช้ Sort stage โดยกำหนด Execution mode = Sequential
  2. ใช้ Collector stage โดยกำหนด Collector logic = Sort Merge
วิธีการที่เร็วที่สุดคือ ทำ Parallel Sort (sort แต่ละ partition) ก่อน แล้วตามด้วยวิธีใดวิธีหนึ่งข้างต้น

Automatic Sorting

การ Combine data ที่ต้องใช้ key ชนกัน เช่น Join, Merge หรือ Remove Duplicate โดยทั่วไปแล้ว DataStage จะฉลาดพอที่จะเติม tsort operator ไปให้ใน Job Score โดยอัตโนมัติเมื่อ user ไม่ได้ระบุการ Sort ลงไปใน Designer ไม่ว่าจะเป็น Sort Stage หรือ Sort in-link ก็ตาม

ถ้าเข้าไปอ่านใน job score จะเห็นคำว่า "inserted tsort operator"

การ set $APT_SORT_INSERTION_CHECK_ONLY = True  DataStage จะลดบทบาทตัวเอง จากการ sort ให้อัตโนมัติ เหลือแค่ verify ว่าข้อมูลที่เข้ามาถูก sort บน column ที่ถุกต้องแล้วหรือยัง ถ้าไม่ถูก sort job ก็จะตาย

แนะนำให้ทำก็ต่อเมื่อรู้สึกว่า job มันช้าอันเนื่องมาจาก Auto Sort ให้อยู่นั่นแหละ

การหา Sequence Number

@INROWNUM เป็น counter นับ record ใน partition เท่านั้น partition ใคร partition มัน ไม่ได้นับรวม

ถ้าอยากได้แบบนับรวม ไม่ให้เลขซ้ำกันเลย 

1. ใน Transformer Stage ให้ใช้
@PARTITIONNUM + (@ NUMPARTITIONS * @INROWNUM -1)
@PARTITIONNUM คือ Partition number, start at 0
@NUMPARTITIONS คือ Total number of partitions
@INROWNUM  คือ row id in the partition, start at 1

2. ใน Row Generator Stage ให้กำหนด
Type = Cycle
Initial value = part (partition number)
Increment = partcount (number of partitions)

3. ใช้ Surrogate Key Generator Stage 

Partitioning Strategy

ข้อคำนึงในการเลือกใช้ partition
  1. ถ้าต้องการจัดกลุ่มข้อมูล (grouping data) เช่น Join, Merge หรือ Remove duplicate ให้ใช้ HASH partitioning
  2. ถ้า key ที่ใช้แบ่ง partition มีแค่ 1 column และเป็น integer ให้ใช้ MODULUS partitioning
  3. กรณีที่การกระจายของข้อมูลมั่วซั่วไปหมด ใช้ hash แล้วไม่สามารถ balance มันได้ ให้ใช้ RANGE partitioning
  4. ถ้าไม่มีการจัดกลุ่มข้อมูล (grouping data) ให้ใช้ ROUND ROBIN เพราะ overhead น้อยสุด
  5. ให้มีการ re-partition น้อยที่สุดเท่าที่จะทำได้
  6. ใช้ SAME ให้เยอะที่สุดเท่าที่จะเป็นไปได้ เพราะฉะนั้นต้องออกแบบ job ดีดี
  7. การรับส่งไฟล์ระหว่าง job ให้ใช้ dataset เพราะยังคง partition อยู่

Auto Partitioning

เคยสงสัยกันมั้ยว่า Auto Partitioning เนี่ย มันเลือกวิธีการ partition ให้เรายังงัย? รู้ไว้จะได้ไม่ถูก Auto Partitioning ปั่นหัวเรา ทำให้ data ออกมาผิดๆได้

ถ้าเราเลือก Auto Partitioning DataStage จะเลือกวิธีการ partition ให้โดยอัตโนมัติ โดยคำนึงถึงความถูกต้องของผลลัพธ์ที่ควรจะเป็น เป็นพื้นฐาน กล่าวคือ
  1. ถ้าเป็น stage แรกของ job เลย Auto จะเท่ากับ Round Robin กรณี Sequential-Parallel หรือ Same กรณี Parallel-Parallel
  2. เลือกใช้ Hash ใน stage ที่ต้องการการ match key value เช่น Join, Merge, Remove Duplicate
  3. เลือกใช้ Entire บน Lookup reference link ซึ่งไม่เหมาะกับ MPP/cluster เพราะเปลือง memory
เนื่องจาก DataStage ไม่รู้หรอกว่า data และ business rule ของเราเป็นยังงัย เพราะฉะนั้น ควรกำหนดการแบ่ง partition แบบ Hash เอง
  • ก่อน Sort และ Aggregrator stage ควรทำ Hash Partitioning
  • When processing requires groups of related records
บางครั้ง DataStage ก็ชอบเพิ่ม step การ re-partition มาให้โดยไม่จำเป็น อันนี้ต้องไปอ่านใน Job Score เอานะถึงจะรู้

09 April 2010

Compress and Expand Stage

Compress stage ทำหน้าที่บีบอัด data set โดยใช้ UNIX compress หรือ GZIP utility มันจะ convert data set จาก sequence of records ไปเป็น stream of raw binary data ส่งผลให้การ write ข้อมูลลง data set นั้นเร็วขึ้น และเปลืองที่น้อยลง

อย่างไรก็ตาม data set ที่ถูก compress แล้วจะไม่สามารถนำไปใช้งานต่อได้ ยกเว้น Copy Stage เพราะ Copy Stage ไม่ได้ทำอะไรแค่ move ตรงไปตรงมา

ถ้าจะนำ data set ที่ถูก compress ไปใช้งาน เราต้อง expand ให้มันกลับเข้าสู่ format ปกติเสียก่อนโดยใช้ Expand stage

Reading Sequential File in Bulk

การเพิ่มประสิทธิภาพในการอ่าน Sequential File ให้เร็วขึ้น โดยการใช้ Sequential Stage ควบคู่ไปกันกับ Column Import Stage

เร็วขึ้นเพราะว่า เราแยกงานออกเป็น 2 ส่วน
  1. Sequential Stage ทำหน้าที่อ่าน record ซึ่งด้วยข้อจำกัดของมันคือเป็น sequential process
  2. Column Import Stage ทำหน้าที่ตัดแบ่ง column ซึ่งสามารถทำเป็น parallel process ได้
ขั้นตอน

1. Read data into one column
  • Specify as char or varchar
  • Max length = record size
2. Parse using Column Import or Transformer
  • ถ้าใช้ Column Import ก็กำหนด column, data type ลงไป
  • ถ้าใช้ Transformer ก็ใช้ field() หรือ substring() ช่วย

จะใช้ Lookup Stage หรือ Join Stage ดี

The two major ways of combining data in a WebSphere DataStage job are via a Lookup stage or a Join stage
How do you decide which one to use? Lookup and Join stages perform equivalent operations: combining two or more input data sets based on one or more specified keys. 

1. คำนึงถึงปริมาณข้อมูลและการ Sort ของ Input Link
When one unsorted input is very large or sorting is not feasible, Lookup is preferred. 
When all inputs are of manageable size or are pre-sorted, Join is the preferred solution.

2. คำนึงถึงปริมาณข้อมูลของ Reference Data
The Lookup stage is most appropriate when the reference data for all Lookup stages in a job is small enough to fit into available physical memory
If performance issues arise while using Lookup, consider using the Join stage. The Join stage must be used if the data sets are larger than available memory resources.

3. คำนึงถึงปริมาณข้อมูลของ Input เมื่อเปรียบเทียบกับ Reference Data
If the reference to a lookup is directly from a DB2® or Oracle table and the number of input rows is significantly smaller than the reference rows, 1:100 or more, a Sparse Lookup might be appropriate. 


Shared Container เปลี่ยน ต้อง Recompile Job ใหม่

Use shared containers to share common logic across a number of jobs.
Remember that shared containers are inserted when a job is compiled.

If the shared container is changed, the jobs using it will need recompiling.

08 April 2010

Join and Nullable Columns

เหมือน lookup เลยคือ เวลาทำ Outer join ไม่ว่าจะเป็น left, right, full outer join ให้ set non-key columns ของ outer link เป็น NULLABLE เพื่อให้มั่นใจว่า มันจะพ่น NULL มาให้ กรณีที่ join กันไม่เจอ

Lookup and Nullable Columns

When using Lookup Failure = Continue, set reference link non-key columns to be NULLABLE even if the reference data is NOT NULLABLE

เพื่อเป็นการยืนยันว่า ถ้า lookup ไม่เจอ มันจะใส่ค่า NULL มาให้ใน output แน่ๆ ทำให้เรา check ได้ง่ายว่า record ไหนบ้างมี lookup ไม่เจอ

ถ้าเราดื้อจะ set reference like non-key columns to be NOT NULLABLE สิ่งที่เกิดขึ้นคือ มันจะใส่ค่า default value มาให้กรณีที่ lookup ไม่เจอ

ทำให้เวลาจะไปเขียนดักว่า record ไหนบ้างที่ lookup ไม่เจอใน step ถัดไปก็ยุ่งยากขึ้นไปอีก

ไอ้ default value เนี่ย มันคืออะไรหล่ะ 
  • ถ้าเป็น Integer, default value = 0 เห็นมั้ยว่า เราจะแยก 0 จริงๆ กับ 0 ที่เป็น default value ไม่ออกละ
  • ถ้าเป็น varchar, default value คือ empty string ซึ่งไม่ใช่ null นะ ใช้ฟังก์ชั่น isnull() มันก็จะบอกว่า ไม่ใช่ null หึหึ
  • ถ้าเป็น char, default value คือ $APT_STRING_PADCHAR

05 April 2010

IIS Web Console

IIS Web Console คืออะไร

IIS Web Console คือ Web application สำหรับ amin Information Server
เข้าผ่า URL http://[machine name]:[port number]
default port number = 9080
user และ password อันแรกจะถูกกำหนดตอนที่เรา install

IIS Web Console ทำอะไรได้บ้าง
  1. Users and groups management
  2. Domain management
  3. Session management
  4. Logging management
  5. Scheduling management
User and Group Management

การกำหนดสิทธิ์ (Authorization) สามารถกำหนดได้ที่ระดับ user และ group ผ่านการกำหนดบทบาท (role) ซึ่งมี role อยู่ 2 ประเภท คือ


Infosphere Information Server Deployment

Infosphere Information Server (IIS) domain ประกอบด้วย 3 ส่วนหลักๆ

  1. One Metadata Server, hosted by IBM Application Server (Websphere)
  2. One or more DataStage Server
  3. One repository database (default is DB2)
ส่วนประกอบที่เป็น Optional คือ