Intelligence Base: DataStage: Dataset เก็บข้อมูลไว้ที่ไหน

dataset จะมีการแยกเก็บข้อมูลเป็น 2 ส่วน คือ ส่วน header และ ส่วน data

header จะเก็บไฟล์ตาม path ที่ระบุไว้ใน DataStage Job โดยในไฟล์จะเก็บรายละเอียดเกี่ยวกับ configuration file ที่ใช้ในการรัน และบอกว่าไฟล์ที่เก็บ data จริงๆ ของ dataset นั้นๆ อยู่ที่ไหน

data จะถูกเก็บไว้ตาม path ที่ระบุไว้ที่ resource disk ใน configuration file โดยจะแยกเก็บเป็นไฟล์ๆ ขึ้นอยู่กับจำนวน node ที่ระบุใน Configuration file

กรณีที่พื้นที่ในการเก็บ dataset เต็ม สามารถตรวจสอบได้โดยดู path ทั้งหมดที่ใช้เก็บ dataset จาก Configurtion file จากนั้นทำการตรวจสอบแต่ละ path ที่ list มา โดยดูเปอร์เซ็นต์การใช้งานว่า path ไหนเต็มบ้าง (โดยใช้คำสั่ง df [-k|-h] [path]) หรือดูได้จาก Data Set Management ว่าไฟล์นี้ใช้ node ไหนบ้าง และ data จริงถูกเก็บไว้ที่ไหน ดังรูป

Intelligence Base

24 March 2009

DataStage: Dataset เก็บข้อมูลไว้ที่ไหน

No comments: