dataset จะมีการแยกเก็บข้อมูลเป็น 2 ส่วน คือ ส่วน header และ ส่วน data
- header จะเก็บไฟล์ตาม path ที่ระบุไว้ใน DataStage Job โดยในไฟล์จะเก็บรายละเอียดเกี่ยวกับ configuration file ที่ใช้ในการรัน และบอกว่าไฟล์ที่เก็บ data จริงๆ ของ dataset นั้นๆ อยู่ที่ไหน
- data จะถูกเก็บไว้ตาม path ที่ระบุไว้ที่ resource disk ใน configuration file โดยจะแยกเก็บเป็นไฟล์ๆ ขึ้นอยู่กับจำนวน node ที่ระบุใน Configuration file
กรณีที่พื้นที่ในการเก็บ dataset เต็ม สามารถตรวจสอบได้โดยดู path ทั้งหมดที่ใช้เก็บ dataset จาก Configurtion file จากนั้นทำการตรวจสอบแต่ละ path ที่ list มา โดยดูเปอร์เซ็นต์การใช้งานว่า path ไหนเต็มบ้าง (โดยใช้คำสั่ง df [-k|-h] [path]) หรือดูได้จาก Data Set Management ว่าไฟล์นี้ใช้ node ไหนบ้าง และ data จริงถูกเก็บไว้ที่ไหน ดังรูป
No comments:
Post a Comment