04 October 2010

How to make an Index creation Faster

When an index is created on a table , a full table scan is
performed. Oracle fetches rows from the table into memory and sorts them prior  to creating the index.  For this task, Oracle requires sort area space in memory.  If memory areas for sorting are not large enough, Oracle will divide the data into smaller sections, sort each section individually, and then merge  together the results.  This is not as efficient as if memory allocated were large enough for the sort.

1) Increase "SORT_AREA_SIZE" parameter in the "init.ora".

 Sqlplus> alter session set sort_area_size=25000;


2) PARALLEL Option: While creating index oracle must first collect the symbolic key/ROWID pairs with a full-table scan. With Parallel option supplied to the create index script oracle will

scan full table parallel based on the number of CPUs, table partitioning and disk configuration and thus do the tasks faster.

On a server that have 6 CPUs you may give parallel 5 as below.
create index emp_idx on emp(id,code) parallel 5;

3) NOLOGGING Option: With the NOLOGGING option provided while creating index you can restrict database to generate a large redo log. NOLOGGING option generates minimal redo. So you will achieve higher performance.

create index emp_idx on emp(id,code) parallel 5 nologging;

 4) Larger Block Size: You can create an index in a tablespace that uses Larger block size. If you have DSS environment then you can do it. This will improve performance while creating index.

You can do it by first creating a tablespace with 32k blocksize and then create index under it,

create tablespace index_ts
datafile '/u01/index_file.dbf' size 1024m
blocksize 32k;

create index emp_idx on emp(id,code) parallel 5 nologging  tablespace index_ts;

Tag: Oracle, Rebuild Index, Create Index

Import Sequential File with Extra Column


Job reads sequential file and load into RDBMS table.

What happen if sequential file has extra column in the back of each record?

It depends on data type of last column defined by DS and RDBMS table.
  • If data type of last column = varchar, extra column will be included as last column.
  • If data type of last column = numeric, last column value will become 0 because there is delimiter character which usually not a numeric.
  • If data type of last column = date, extra column will be dropped.
Their result base on transformer stage behavior on implicit data type conversion.



01 August 2010

วิธีการ create table บน Teradata

วิธีการสร้าง Permanent Table

CREATE SET TABLE DB1.TABLE1, NO FALLBACK
      ( CALL_START_DT DATE,
        ACCT_ID INTEGER,
        MSISDN VARCHAR(15),
        VC_AMNT DECIMAL(18,4),
        VAS_AMNT DECIMAL(18,4)
      )
UNIQUE PRIMARY INDEX (CALL_START_DT,ACCT_ID,MSISDN); 

วิธีการสร้าง Volatile Table (Temporary Table)

แบบที่ 1 - แบบระบุ column

CREATE VOLATILE SET TABLE VOL_TABLE1, NO LOG
      ( CALL_START_DT DATE,
        ACCT_ID INTEGER,
        MSISDN VARCHAR(15),
        VC_AMNT DECIMAL(18,4),
        VAS_AMNT DECIMAL(18,4)
      )
UNIQUE PRIMARY INDEX (CALL_START_DT,ACCT_ID,MSISDN) ON COMMIT PRESERVE ROWS;
แบบที่ 2 - แบบ select มาจาก table อื่นอีกที
 CREATE VOLATILE MULTISET TABLE VOL_TABLE2, NO LOG AS
      ( SELECT ACCT_ID, MSISDN, PKG_NM, PKG_START_DT, PKG_END_DT
        FROM DB2.TABLE2
        WHERE SWON_DT >= '2010-01-01'
      ) WITH DATA
PRIMARY INDEX (ACCT_ID,MSISDN)
INDEX (PKG_NM) ON COMMIT PRESERVE ROWS;
การ create แบบที่ 2 จะได้ schema table ตาม data ที่ select มา
โดยจะต้องมีการระบุว่า WITH DATA (ได้มาทั้ง schema และ data) 
หรือ WITH NO DATA (ได้ schema อย่างเดียว ไม่เอา data)

Teradata Table Type and Index Type

Teradata มี table อยู่ 2 ประเภท คือ
  1. Set table: การเก็บข้อมูลใน table จะต้องไม่มี data ที่ duplicate กันทั้ง record กรณีที่มี data duplicate เข้ามาจะโดน reject ออก
  2. Multiset table: สามารถมี data ที่ duplicate กันทั้ง record เก็บใน table เดียวกันได้
Index เป็นตัวกำหนดการกระจายตัวของ data ลงในแต่ละ disk มีผลต่อประสิทธิภาพในการ access data 
มี 2 ประเภท เช่นกัน ได้แก่
  1. Primary Index (PI): column ที่กำหนดสามารถเป็น column ที่เป็น unique data หรือไม่ก็ได้
  2. Unique Primary Index (UPI): column ที่กำหนดจะต้องเป็น column ที่เป็น unique data

NLS_DATE_FORMAT

สำหรับ Oracle ถ้าอยากให้ผลของ SQL display date ออกมาเป็นยังงัย ให้รัน command นี้ก่อนเพื่อกำหนด format ของ session นั้น
alter session set NLS_DATE_FORMAT = 'mm-dd-yyyy HH24:mi:ss';

How to see code of store procedure from sqlplus

login as system or owner of stored procedure
set long 1000000;
select dbms_metadata.get_ddl('PROCEDURE','ADDSUBPARTITION') FROM dual;

Find and remove duplicate rows from a table

http://www.remote-dba.cc/oracle_tips_duplicate_rows.htm

13 July 2010

Limit of File Pattern

Symptom:
Usually job can run successfully, but sometimes job failed with this error message.
seq_Read_CCN: Unable to generate a node map from fileset /tmp/import_tmp_433284afb15c.fs.
Cause:
There are too many files to read in file pattern. It hit some OS limit proven by use ls in command line
$ ls -l /etl_uat/source/in/SCP/VOICE*100707*
-bash: /bin/ls: Argument list too long

Workaround:
Separate job to more than 1 job to read small set of files. For example, /etl_uat/source/in/SCP/VOICE*100707*[0-4]  and
/etl_uat/source/in/SCP/VOICE*100707*[5-9]

10 July 2010

How to set job user status

วิธีการส่งค่าจาก job หนึ่งไปยังอีก job หนึ่ง ภายใน job sequencer



1. ใน job ที่หนึ่ง ให้กำหนด user status ของ job ใน Job Properties > Job Control แล้วใส่คำสั่ง 
Call DSSetUserStatus("XXX")
ตัวอย่างเช่น 
Call DSSetUserStatus(DSJobStartTimestamp)


2. ใน Job Activity หรือ Execute Command Activity อื่นๆ ที่รันหลังจาก job ที่หนึ่ง สามารถเข้าถึงค่า user status โดยการเรียก
#[Stage Name].$UserStatus#

Oracle Bulk Load in DataStage

Error message:
ora_write_SOR_RI,10: [IIS-CONN-ORA-001003] The OCI function OCIDirPathPrepare returned status -1. Error code: 2,373, Error message: ORA-02373: Error parsing insert statement for table UAT_SOR.RI.
ORA-01502: index 'UAT_SOR.RI_PK' or partition of such index is in unusable state. (CC_OraLoad::prepareDirectPathLoad, file CC_OraLoad.cpp, line 1,039)
Cause:
Bulk load into Oracle table with index and/or constraint and/or trigger

Solution:
Disable index and/or constraint and/or trigger before loading and enable them back.
Setting bulk load option in Oracle Connector Stage as follow.




Cache Oracle Sequence

ถ้าสร้าง surrogate key ช้า ลองเพิ่ม cache ของ Oracle Sequence ดู
The way to improve performance of generating new surrogate key ID.

อ่านเพิ่มเติมที่ http://www.techonthenet.com/oracle/sequences.php

APT_IMPORT_PATTERN_USES_FILESET

ถ้า job ต้องอ่าน sequential file หลายๆไฟล์ ใน Sequential Stage ให้กำหนดดังนี้
  • Read Method = File Pattern
  • File Name Column = SRC_FILE_NM
 แต่ File Name Column จะมีค่าเป็น File Pattern (เช่น /source/abc*.txt) ไม่ได้เป็นชื่อ File จริงๆ (เช่น /source/abc_1234.txt)

ให้เพิ่ม Environment Variable ชื่อ APT_IMPORT_PATTERN_USES_FILESET = True เข้าไปใน job ก็จะทำให้ File Name Column = ชื่อไฟล์ตามที่ต้องการ

09 July 2010

System Monitoring

Link นี้ละเอียดสุดยอด
http://adminschoice.com/iostat-vmstat-netstat

Link นี้ของไทย อ่านแบบคร่าวๆ
http://www.numsai.com/คอมพิวเตอร์/System-Watch-สารพัดวิธีการเฝ้ามองระบบลีนุกซ์.html

อันนี้เป็นตัวอย่าง โคตรคร่าว
http://www.thaiadmin.org/board/index.php?action=printpage;topic=3922.0

ORA-24334

Symptom:
Cannot select/insert/bulk load to Oracle via Oracle Connector Stage

Message:
ora_Write_STG_ZTE_SMS,0: [IIS-CONN-ORA-001003] The OCI function OCIParamGet returned status -1. Error code: 24,334, Error message: ORA-24334: no descriptor for this position. (CC_OraLoad::initColumns, file CC_OraLoad.cpp, line 671)

Solution
Check column definition. It have to exactly match between Oracle Connector Stage and Table itself in Oracle DB.

20 June 2010

Absolute value function

การหาค่า Absolute มี function ให้ใช้อยู่ 2 function คือ

  1. Abs()
  2. Fabs()
ต่างกันที่ Argument ที่รับเข้ามา Abs() รับ int32 ส่วน Fabs() รับ dfloat ส่วน output ที่ได้เป็น dfloat เหมือนกันทั้งคู่

เพราะฉะนั้นควรระวังการใช้ Abs() กับข้อมูลที่เป็น decimal หรือ dfloat ด้วยเพราะมันจะ round ค่าให้เป็น integer ก่อนหาค่า absolute ซึ่งทำให้ผลลัพธ์ผิดได้

09 June 2010

Sort Key No Longer Exists

Warning Message:
main_program: Sort key "GTEWAY_TP_ID" no longer exists in dataset schema. It will be dropped from the inserted sortmerge collector.




Job:











Solutions:
1. แก้ชื่อ column ของ join key (GTEWAY_TP_ID -> KEY) ที่ Input link ทั้ง 2 link ของ join stage ถ้า source ของ link นั้นเป็น Oracle Stage ให้ SELECT col as Newname เช่น SELECT GTEWAY_TP_ID as KEY



2. Rename column กลับไปเป็นชื่อปกติ (GTEWAY_TP_ID) ที่ output link ของ join stage

Environment Variable ที่ควร set

1. $APT_CONFIG_FILE
DS/EE configuration file

2. $APT_DUMP_SCORE
Flag to identify report score

3. $OSH_ECHO
Includes a copy of the generated osh in the job’s DataStage log. Default to 1 (enabled)

4. $APT_RECORD_COUNTS
Outputs record counts to the DataStage job log as each operator completes processing. The count is per operator per partition. Default to 0 (disabled)

5. $OSH_PRINT_SCHEMA
Outputs actual runtime metadata (schema) to DataStage job log. Default to 0 (disabled)

6. $APT_PM_SHOW_PIDS
Places entries in DataStage job log showing UNIX process ID (PID) for each process started by a job. Does not report PIDs of DataStage “phantom” processes started by Server shared containers. Default to 1 (enabled)

7. $APT_BUFFER_MAXIMUM_TIMEOUT
Maximum buffer delay in seconds. Default to 1

8. $APT_PM_CONDUCTOR_HOSTNAME
Specifies the name of processing node which is required for Sequential File to be run on Processing Nodes without Conductor Node and the File is in Conductor Node.


Update and Merge Statement for Oracle


Update based on a query returning multiple values

UPDATE <table_name> <alias>
SET (<column_name>,<column_name> ) = (
SELECT (<column_name>, <column_name>)
FROM <table_name>
WHERE <alias.column_name> = <alias.column_name>)
WHERE <column_name> <condition> <value>;

Update the results of a SELECT statement
UPDATE (<SELECT Statement>)
SET <column_name> = <value>
WHERE <column_name> <condition> <value>;
http://psoug.org/reference/update.html

Merge Statement Demo
MERGE <hint> INTO <table_name>
USING <table_view_or_query>
ON (<condition>)
WHEN MATCHED THEN <update_clause>
DELETE <where_clause>
WHEN NOT MATCHED THEN <insert_clause>

EDW UAT Case & Strategy

UAT 
ภาพคือรันข้อมูล1วัน ปรู๊ด รอไปข้ามคืน
เช้ามา ไม่มี job aborted
แล้วก็ตะลุย test บน sor เลย
ข้อมูลวันแรกผ่าน ก็รันวันที่2 ต่อ
แล้วก็ตะลุย test บน sor อีกรอบ

จะไม่สนใจ HA เลย HA เอาไว้ทำ Unit Test เท่านั้น

UAT Test Case
1. Compare #records between source file & staging table
2. Compare staging table & SOR
  2.1 #records including rejects
  2.2 Checking lookup values
  2.3 count/sum measurement values group by dimensions


27 May 2010

ACCESS DENIED: Project currently locked. The project is currently locked by the Administrator.

Problem(Abstract)
IBM® InfoSphere™ DataStage®: If there are a large number of users performing concurrent activities such as logging into a client, job design, job compilation, some of these activies can fail.

Symptom
The activities can fail with one or more of the following error messages:
  • Error calling subroutine DSR_JOB (Action=5); check DataStage is set up correctly in project dstage_perf (Subroutine failed to complete successfully (30107)) (This problem can occur on any operating system)
  • ACCESS DENIED: Project currently locked. The project is currently locked by the Administrator. Try again later or see your Administrator.
  • Record J\x\yyyyyy in file DS_JOBOBJECTS is locked by another user

Remove Duplicate and Sort Warning Message

Error Message:
rmd_msisdn_y: When checking operator: User inserted sort "srt_EFF_DT" does not fulfill the sort requirements of the downstream operator "rmd_msisdn_y"


24 May 2010

ETL Design Consideration - Multiple Steps/Stages/Area Required for Different Purposes

Normally we'll need multiple steps/stages/area which can be flat files, dataset or RDBMS to allow us to achieve the followings -
  1. Reusability
  2. Restartablility
  3. Performance
  4. Quality Assurance
  5. Reconciliation
  6. Data Integrity
  7. Change Detection
RDBMS is typically the recommended method of storage of all the above steps/stages/area as the End Stage while datasets are preferred for Intermediate Stage.

The name maybe different but the functions/purposes/needs should be the same -
  1. Staging Area - This is the place where we load the source files into RDBMS. RDBMS is used to allow us to reduce the impact on ETL Jobs when source files change. With this RDBMS, we just need to change the Loading ETL jobs which is simple as it is typically 1 to 1 simple load. It also facilitate in reconciliation, quality assurance and testing as we can make queries in RDBMS compare to flat files.
  2. Working Area - This is the place where we will stored the X-Ref table which is used to standardized all the codes and also all the Intermediate Tables/datasets that are used for ETL to produce the final tables for Holding Area. Source Change Detection will be done here if the Source cannot provide only records that has been change.
  3. Holding Area - This is the final step before moving the data into SOR. This area have the tables totally the same as SOR and normally we will keep only 1 day of data. This area allow us to do the follow quality assurance, reconciliation, data integrity and change detection. It also provide better performance and flexibility for loading as the Holding Area may not need all the indexes that SOR required and it will also prevent locking of tables which is a requirements for LOAD that's not good for SOR if the loading happened in office hours.
  4. SOR - This is where our Industry Models will be. Due to our highly normalize nature of our Industry Model it maybe difficult for user to use and most of the time even for data modeler to understand as our model come with hundreds of entities and thousands of attributes. We will need to build the necessary Views to help simplify the model to allow better usage.
  5. Data Marts - This is normally optional for high performance RDMS like DB2 with DPF or our main competitors Teradata. We will use Views, MQT, Cube Services, MDC etc. to reduce the requirements to build Physical Data Marts. The requirements of Physical Data Marts will also increase efforts and availability of the system in term of ETL.

08 May 2010

How to Restart IIS

1. login as dsadm - Stop DS
[dsadm@ETL_Dev_1 script]$ cd $DSHOME
[dsadm@ETL_Dev_1 DSEngine]$ . ./dsenv
[dsadm@ETL_Dev_1 DSEngine]$ ./bin/uv -admin -stop

2. login as root (should be dsadm) - Stop ASB Node
[root@ETL_Dev_1 bin]# cd /opt/IBM/InformationServer/ASBNode/bin
[root@ETL_Dev_1 bin]# ./NodeAgents.sh stop
Agent stopped.
rm: remove write-protected regular file `Agent.pid'? y
LoggingAgent stopped.
rm: remove write-protected regular file `LoggingAgent.pid'? y

3. login as root (should be dsadm) - Stop Metadata Server
[root@ETL_Dev_1 bin]# cd /opt/IBM/InformationServer/ASBServer/bin
[root@ETL_Dev_1 bin]# ./MetadataServer.sh stop
ADMU0118E: The log file cannot be written to location
           /opt/IBM/WebSphere/AppServer/profiles/default/logs/server1/stopServer.log;
           please specify a different location with -logfile
ADMU0128I: Starting tool with the default profile
ADMU3100I: Reading configuration for server: server1
ADMU3201I: Server stop request issued. Waiting for stop status.
ADMU4000I: Server server1 stop completed.

4. login as root - Start Metadata Server
[root@ETL_Dev_1 bin]# cd /opt/IBM/InformationServer/ASBServer/bin
[root@ETL_Dev_1 bin]# ./MetadataServer.sh run
ADMU0116I: Tool information is being logged in file
           /opt/IBM/WebSphere/AppServer/profiles/default/logs/server1/startServer.log
ADMU0128I: Starting tool with the default profile
ADMU3100I: Reading configuration for server: server1
ADMU3200I: Server launched. Waiting for initialization status.
ADMU3000I: Server server1 open for e-business; process id is 14906

5. login as root (should be dsadm) - Stop ASB Node
[root@ETL_Dev_1 bin]# cd /opt/IBM/InformationServer/ASBNode/bin
[root@ETL_Dev_1 bin]# ./NodeAgents.sh start
6. login as dsadm - Start DS
[dsadm@ETL_Dev_1 script]$ cd $DSHOME
[dsadm@ETL_Dev_1 DSEngine]$ . ./dsenv
[dsadm@ETL_Dev_1 DSEngine]$ ./bin/uv -admin -start

07 May 2010

Change DS logs from xmeta to UV

Symptom: 

Some errors we used to see because of performance of DB logging -
1. DS Director becomes slower and slower.
2. When I tried to log in I got the following message:
ACCESS DENIED: Project currently locked. The project is currently locked by the Administrator. Try again later or see your administrator.
3. We would see the director just freeze up as we try to open the logs.
4. You could not rerun a job for a very long time after it was done.
5. Job is not in a runnable state. This we learnt was because the logs were still being written long after job completed and the server thought the job is still active.

Cause: 
DS logs are kept in xmeta (DB2)

Solution: 
Move logs from xmeta to UV

Step:
1. In DSParams file, change RTLogging=1, ORLogging=0
2. Restart the DataStage
3. Note that all logs in DS Director will be disappeared because of storage changed. (DB2 > UV)

10 April 2010

Optimizing Sort Performance

Optimizing Sort Performance

1. ให้ Sort น้อยครั้งที่สุดเท่าที่จะทำได้ เพราะ
  • การ sort แต่ละครั้งจะไป interrupt parallel pipeline -- ติดแหงกอยู่ตรง sort ไม่สามารถไปทำ step ถัดไปได้จนกว่า sort จะเสร็จ
  • ต้องอ่านข้อมูลทุก record ใน partition ก่อนถึงจะเริ่มพ่น output ออกมาได้
2. Sort บน key column ที่จำเป็นเท่านั้น
3. หลีกเลี่ยงการใช้ stable sort* โดยไม่จำเป็น
4. ถ้าเป็นไปได้ กำหนดค่า Sort Key Mode บน column ที่ถูก sort มาแล้วเสมอ
5. ปรับขนาดของ Restrict Memory Usage ให้เหมาะสม

Stable sort คือ การ sort ข้อมูลบน key column ที่ต้องการ แล้วในกรณีที่ key column มีค่าซ้ำกัน ให้คง order เหมือนกับ source โดย default เราไม่ได้กำหนดให้เป็น Stable sort

ตัวอย่าง

col1 col2
2  D
1  B
1  A
2  C

sort by col1 + stable sort

col1 col2
1 B
1 A
2 D
2 C

Sort - Resource Usage

การ Sort บน DataStage กิน memory และ disk อย่างไร

โดย default การ sort แต่ละครั้งจะจอง memory ไว้ 20MB ต่อ partition 

เราสามารถปรับขนาด memory ได้ที่ option "Restrict Memory Usage" ยิ่งใหญ่ยิ่งดี แต่ต้องระวัง memory จะไม่พอ

หรือจะไปปรับที่ Environment variable ชื่อ $APT_TSORT_STRESS_BLOCKSIZE = [mb] เลยก็ได้ เสมือนเราไปตั้งค่า default นั่นแหละ ซึ่งมันจะถูก override โดย option "Restrict Memory Usage" อยู่ดี

ที่พูดไปทั้งหมดเป็นการ set ขนาด memory ที่ใช้ในการ sort พอเริ่ม sort จริง มันก็จะอ่าน data file เข้าสู่ memory ถ้า memory เต็มก็จะไปใช้ Temp disk ตาม path ดังนี้
  • Scratch disk in the $APT_CONFIG_FILE with "sort" named disk pool
  • Scratch disk in the $APT_CONFIG_FILE default named disk pool
  • $TMPDIR aka. UVTEMP
  • UNIX /tmp directory

Sort Tips

Resorting on Sub-Groups

เมื่อเราต้องการ sort data เพิ่มเติมจาก data ที่เคยถูก sort มาแล้ว เช่น input data เคยถูก sort by col1, col2 มาแล้ว แต่เราต้องการ sort by col1, col2, col3 เราไม่จำเป็นต้อง sort ใหม่ทั้งหมด ให้ใช้ Sort Key Mode property เป็นประโยชน์ ดังนี้
  1. กำหนด Key = col1 > Sort Key Mode = Don't Sort (Previously Sorted)
  2. กำหนด Key = col2 > Sort Key Mode = Don't Sort (Previously Sorted)
  3. กำหนด Key = col3 > Sort Key Mode = Sort
  4. Key column order สำคัญนะครับ ต้องเรียงให้เหมือนกัน ถ้าสลับตำแน่งกัน ผลลัพธ์อาจจะผิดได้
  5. อย่าลืมใช้ SAME partition บน input data เพื่อให้ sort order (ที่เคยถูก sort มาแล้ว) ยังคงเหมือนเดิม เพราะถ้ามีการ re-partition เกิดขึ้น row order หรือ grouping จะเละหมดเลย ต้อง sort ใหม่
วิธีนี้จะทำให้ Performance ดีขึ้นมาก เพราะใช้ memory และ disk น้อยลงเยอะ

Total Sorting Methods

โดยปกติแล้ว Sort Stage จะทำการ Sort แบบ Parallel คือ sort data ภายใน partition ตัวเองเท่านั้น partition ใคร partition มัน ไม่เกี่ยวกัน

ที่นี้ถ้าเราอยาก Sort data ทั้งไฟล์หรือที่เรียกว่า Total Sort หล่ะ ทำได้ 2 วิธีคือ
  1. ใช้ Sort stage โดยกำหนด Execution mode = Sequential
  2. ใช้ Collector stage โดยกำหนด Collector logic = Sort Merge
วิธีการที่เร็วที่สุดคือ ทำ Parallel Sort (sort แต่ละ partition) ก่อน แล้วตามด้วยวิธีใดวิธีหนึ่งข้างต้น

Automatic Sorting

การ Combine data ที่ต้องใช้ key ชนกัน เช่น Join, Merge หรือ Remove Duplicate โดยทั่วไปแล้ว DataStage จะฉลาดพอที่จะเติม tsort operator ไปให้ใน Job Score โดยอัตโนมัติเมื่อ user ไม่ได้ระบุการ Sort ลงไปใน Designer ไม่ว่าจะเป็น Sort Stage หรือ Sort in-link ก็ตาม

ถ้าเข้าไปอ่านใน job score จะเห็นคำว่า "inserted tsort operator"

การ set $APT_SORT_INSERTION_CHECK_ONLY = True  DataStage จะลดบทบาทตัวเอง จากการ sort ให้อัตโนมัติ เหลือแค่ verify ว่าข้อมูลที่เข้ามาถูก sort บน column ที่ถุกต้องแล้วหรือยัง ถ้าไม่ถูก sort job ก็จะตาย

แนะนำให้ทำก็ต่อเมื่อรู้สึกว่า job มันช้าอันเนื่องมาจาก Auto Sort ให้อยู่นั่นแหละ

การหา Sequence Number

@INROWNUM เป็น counter นับ record ใน partition เท่านั้น partition ใคร partition มัน ไม่ได้นับรวม

ถ้าอยากได้แบบนับรวม ไม่ให้เลขซ้ำกันเลย 

1. ใน Transformer Stage ให้ใช้
@PARTITIONNUM + (@ NUMPARTITIONS * @INROWNUM -1)
@PARTITIONNUM คือ Partition number, start at 0
@NUMPARTITIONS คือ Total number of partitions
@INROWNUM  คือ row id in the partition, start at 1

2. ใน Row Generator Stage ให้กำหนด
Type = Cycle
Initial value = part (partition number)
Increment = partcount (number of partitions)

3. ใช้ Surrogate Key Generator Stage 

Partitioning Strategy

ข้อคำนึงในการเลือกใช้ partition
  1. ถ้าต้องการจัดกลุ่มข้อมูล (grouping data) เช่น Join, Merge หรือ Remove duplicate ให้ใช้ HASH partitioning
  2. ถ้า key ที่ใช้แบ่ง partition มีแค่ 1 column และเป็น integer ให้ใช้ MODULUS partitioning
  3. กรณีที่การกระจายของข้อมูลมั่วซั่วไปหมด ใช้ hash แล้วไม่สามารถ balance มันได้ ให้ใช้ RANGE partitioning
  4. ถ้าไม่มีการจัดกลุ่มข้อมูล (grouping data) ให้ใช้ ROUND ROBIN เพราะ overhead น้อยสุด
  5. ให้มีการ re-partition น้อยที่สุดเท่าที่จะทำได้
  6. ใช้ SAME ให้เยอะที่สุดเท่าที่จะเป็นไปได้ เพราะฉะนั้นต้องออกแบบ job ดีดี
  7. การรับส่งไฟล์ระหว่าง job ให้ใช้ dataset เพราะยังคง partition อยู่

Auto Partitioning

เคยสงสัยกันมั้ยว่า Auto Partitioning เนี่ย มันเลือกวิธีการ partition ให้เรายังงัย? รู้ไว้จะได้ไม่ถูก Auto Partitioning ปั่นหัวเรา ทำให้ data ออกมาผิดๆได้

ถ้าเราเลือก Auto Partitioning DataStage จะเลือกวิธีการ partition ให้โดยอัตโนมัติ โดยคำนึงถึงความถูกต้องของผลลัพธ์ที่ควรจะเป็น เป็นพื้นฐาน กล่าวคือ
  1. ถ้าเป็น stage แรกของ job เลย Auto จะเท่ากับ Round Robin กรณี Sequential-Parallel หรือ Same กรณี Parallel-Parallel
  2. เลือกใช้ Hash ใน stage ที่ต้องการการ match key value เช่น Join, Merge, Remove Duplicate
  3. เลือกใช้ Entire บน Lookup reference link ซึ่งไม่เหมาะกับ MPP/cluster เพราะเปลือง memory
เนื่องจาก DataStage ไม่รู้หรอกว่า data และ business rule ของเราเป็นยังงัย เพราะฉะนั้น ควรกำหนดการแบ่ง partition แบบ Hash เอง
  • ก่อน Sort และ Aggregrator stage ควรทำ Hash Partitioning
  • When processing requires groups of related records
บางครั้ง DataStage ก็ชอบเพิ่ม step การ re-partition มาให้โดยไม่จำเป็น อันนี้ต้องไปอ่านใน Job Score เอานะถึงจะรู้

09 April 2010

Compress and Expand Stage

Compress stage ทำหน้าที่บีบอัด data set โดยใช้ UNIX compress หรือ GZIP utility มันจะ convert data set จาก sequence of records ไปเป็น stream of raw binary data ส่งผลให้การ write ข้อมูลลง data set นั้นเร็วขึ้น และเปลืองที่น้อยลง

อย่างไรก็ตาม data set ที่ถูก compress แล้วจะไม่สามารถนำไปใช้งานต่อได้ ยกเว้น Copy Stage เพราะ Copy Stage ไม่ได้ทำอะไรแค่ move ตรงไปตรงมา

ถ้าจะนำ data set ที่ถูก compress ไปใช้งาน เราต้อง expand ให้มันกลับเข้าสู่ format ปกติเสียก่อนโดยใช้ Expand stage

Reading Sequential File in Bulk

การเพิ่มประสิทธิภาพในการอ่าน Sequential File ให้เร็วขึ้น โดยการใช้ Sequential Stage ควบคู่ไปกันกับ Column Import Stage

เร็วขึ้นเพราะว่า เราแยกงานออกเป็น 2 ส่วน
  1. Sequential Stage ทำหน้าที่อ่าน record ซึ่งด้วยข้อจำกัดของมันคือเป็น sequential process
  2. Column Import Stage ทำหน้าที่ตัดแบ่ง column ซึ่งสามารถทำเป็น parallel process ได้
ขั้นตอน

1. Read data into one column
  • Specify as char or varchar
  • Max length = record size
2. Parse using Column Import or Transformer
  • ถ้าใช้ Column Import ก็กำหนด column, data type ลงไป
  • ถ้าใช้ Transformer ก็ใช้ field() หรือ substring() ช่วย

จะใช้ Lookup Stage หรือ Join Stage ดี

The two major ways of combining data in a WebSphere DataStage job are via a Lookup stage or a Join stage
How do you decide which one to use? Lookup and Join stages perform equivalent operations: combining two or more input data sets based on one or more specified keys. 

1. คำนึงถึงปริมาณข้อมูลและการ Sort ของ Input Link
When one unsorted input is very large or sorting is not feasible, Lookup is preferred. 
When all inputs are of manageable size or are pre-sorted, Join is the preferred solution.

2. คำนึงถึงปริมาณข้อมูลของ Reference Data
The Lookup stage is most appropriate when the reference data for all Lookup stages in a job is small enough to fit into available physical memory
If performance issues arise while using Lookup, consider using the Join stage. The Join stage must be used if the data sets are larger than available memory resources.

3. คำนึงถึงปริมาณข้อมูลของ Input เมื่อเปรียบเทียบกับ Reference Data
If the reference to a lookup is directly from a DB2® or Oracle table and the number of input rows is significantly smaller than the reference rows, 1:100 or more, a Sparse Lookup might be appropriate. 


Shared Container เปลี่ยน ต้อง Recompile Job ใหม่

Use shared containers to share common logic across a number of jobs.
Remember that shared containers are inserted when a job is compiled.

If the shared container is changed, the jobs using it will need recompiling.

08 April 2010

Join and Nullable Columns

เหมือน lookup เลยคือ เวลาทำ Outer join ไม่ว่าจะเป็น left, right, full outer join ให้ set non-key columns ของ outer link เป็น NULLABLE เพื่อให้มั่นใจว่า มันจะพ่น NULL มาให้ กรณีที่ join กันไม่เจอ

Lookup and Nullable Columns

When using Lookup Failure = Continue, set reference link non-key columns to be NULLABLE even if the reference data is NOT NULLABLE

เพื่อเป็นการยืนยันว่า ถ้า lookup ไม่เจอ มันจะใส่ค่า NULL มาให้ใน output แน่ๆ ทำให้เรา check ได้ง่ายว่า record ไหนบ้างมี lookup ไม่เจอ

ถ้าเราดื้อจะ set reference like non-key columns to be NOT NULLABLE สิ่งที่เกิดขึ้นคือ มันจะใส่ค่า default value มาให้กรณีที่ lookup ไม่เจอ

ทำให้เวลาจะไปเขียนดักว่า record ไหนบ้างที่ lookup ไม่เจอใน step ถัดไปก็ยุ่งยากขึ้นไปอีก

ไอ้ default value เนี่ย มันคืออะไรหล่ะ 
  • ถ้าเป็น Integer, default value = 0 เห็นมั้ยว่า เราจะแยก 0 จริงๆ กับ 0 ที่เป็น default value ไม่ออกละ
  • ถ้าเป็น varchar, default value คือ empty string ซึ่งไม่ใช่ null นะ ใช้ฟังก์ชั่น isnull() มันก็จะบอกว่า ไม่ใช่ null หึหึ
  • ถ้าเป็น char, default value คือ $APT_STRING_PADCHAR

05 April 2010

IIS Web Console

IIS Web Console คืออะไร

IIS Web Console คือ Web application สำหรับ amin Information Server
เข้าผ่า URL http://[machine name]:[port number]
default port number = 9080
user และ password อันแรกจะถูกกำหนดตอนที่เรา install

IIS Web Console ทำอะไรได้บ้าง
  1. Users and groups management
  2. Domain management
  3. Session management
  4. Logging management
  5. Scheduling management
User and Group Management

การกำหนดสิทธิ์ (Authorization) สามารถกำหนดได้ที่ระดับ user และ group ผ่านการกำหนดบทบาท (role) ซึ่งมี role อยู่ 2 ประเภท คือ


Infosphere Information Server Deployment

Infosphere Information Server (IIS) domain ประกอบด้วย 3 ส่วนหลักๆ

  1. One Metadata Server, hosted by IBM Application Server (Websphere)
  2. One or more DataStage Server
  3. One repository database (default is DB2)
ส่วนประกอบที่เป็น Optional คือ

05 January 2010

ทิปและเทคนิคการใช้ google calendar

เอาประโยชน์ของ Google Calendar มาแบ่งปันกัน

1. เราสามารถให้ Google มันส่ง SMS มาเตือนเราได้ ที่สำคัญฟรีครับ
วิธีทำตามนี้ http://www.google.com/support/calendar/bin/answer.py?hl=en&answer=45351
มือถือ DTAC , AIS, TrueMove ใช้ได้ ส่วน Hutch อดครับ

2. นอกเหนือจากการเตือนเราผ่าน SMS แล้ว ยังมี email และ pop-up ด้วย
pop-up คือ มีหน้าจอเด้งขึ้นมา ซึ่งไม่ค่อย work หรอกเพราะเราต้องเปิด google calendar ทิ้งไว้ตลอดเวลา
เราสามารถ customize และ set ค่า default ให้มันได้ เช่น ส่ง email มาเตือนก่อน 1 วัน ตามด้วย SMS มาล่วงหน้า 10 นาที เป็นต้น
http://www.google.com/support/calendar/bin/answer.py?hl=en&answer=37242
http://www.google.com/support/calendar/bin/answer.py?hl=en&answer=37079

3. ไปดูปฏิทินของคนอื่นได้ หรือเอาปฏิทินของเราไป share ให้คนอื่นดูได้
เช่น
3.1 เพิ่มปฏิทินวันหยุดของบริษัท ให้ไปที่ link นี้ แล้วกดปุ่ม +Google Calendar ที่อยู่มุมล่งซ้ายของหน้าจอ

3.2 เพิ่มปฏิทินงานของ Project ต่างๆ เช่น BAY ก็ทำเหมือนข้อ 3.1

3.3 ดูปฏิทินของเพื่อนร่วมงาน ให้ใส่ email address เช่น kittisak@intelligence.co.th เข้าไปในช่อง Other calendars เลย แต่ทั้งนี้ทั้งนั้น ขึ้นอยู่กับว่าเจ้าของปฏิทินเค้าเปิด share หรือเปล่าด้วยนะ