Data Warehouse & Data Mining

Data_Warehouse ครั้งนี้เป็นการสรุปครั้งที่ 3 แล้ว ติดใจจริงๆ แหละ ถ้าสรุปกากยังไงก็ comment ได้นะครับ ไม่ว่ากัน ฮ่าๆ

Business Intelligence

เพิ่มความสามารถในการทำธุรกิจ นำข้อมูลมาวิเคราะห์เพื่อช่วยในการตัดสินใจกลยุทธ์

Data Warehousing : คลังข้อมูล จะแบ่งโครงสร้างตามเนื้อหา เก็บข้อมูลไปเพื่อวิเคราะห์ช่วยในการตัดสินใจ เป็นข้อมูลที่จำเป็น (ตัดสิ่งที่ไม่จำเป็นออก)

คุณสมบัติ

  • จัดเก็บตามเนื้อหาลูกค้า

  • การร่วมเป็นหนึ่งของข้อมูล มีการปรับข้อมูลให้สอดคล้องการ เช่น ค่าตัวแปร

  • ความสัมพันธืกับเวลา (ข้อมูลยอดขายแต่ล่ะปี)

  • จะไม่มีการเปลี่ยนแปลง (Operation จะเปลี่ยน) สามารถโหลดข้อมูลมาดูเท่านั้น

Data Mart : คลังข้อมูลขนาดเล็กที่ออกแบบสำหรับธุรกิจเชิงกลยุทธ์

ความแตกต่างระหว่าง Warehouse กับ Mart

  • ขอบเขต : M จะเก็บข้อมูลย่อยๆ

  • แหล่งข้อมูล : M จะมีเอาแต่แหล่งข้อมูลของเรื่องนั้นๆ

  • ขนาด : M ขนาดเล็ก

  • ระยะเวลาการพัฒนา : M สร้างง่ายกว่า

OLAP : การประมวลผลออนไลน์เชิงวิเคราะห์ (Online Analytical Processing) : วิเคราะห์ข้อมูลในหลายมิติ เช่น วิเคราะห์ข้อมูลแต่ล่ะแผนก แต่ล่ะเรื่อง วิเคราะห์มุมมองทางด้าน time series และ trend analysis ซึ่งเป็นการวิเคราะห์แบบตาราง และกราฟ

CRM Analysis

  • Data Mining : กระบวนการค้นหาข้อมูลและวิเคราะห์ และตัดสินใจอย่างรวดเร็ว

  • Market Management : จัดกระเช้าปีใหม่ ส่งจดหมายตรงกลุ่มลูกค้า รับรู้เพิ่มขึ้นว่าลูกค้าต้องการอะไร

  • Risk Analysis : Forcasting (Uncertainty)

  • Fraud  Detection : ตรวงจับกลโกง

  • Web mining : เอกสาร

  • ขนาดข้อมูลเติบโตเกินความสามารถของมนุษย์ในการวิเคราะห์ด้วยตนเอง

  • แก้ปัญหาที่ซับซ้อนที่เกิดขึ้นใหม่

แหล่งข้อมูลในการทำ Data Mining

1. Database,   2. Data Warehouses,   3. Flat File

Data mining คือ ?

Data mining คือ กระบวนการที่กระทํากับข้อมูลจํานวนมากเพื่อค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น หรือวิเคราะห์ข้อมูลเชิงลึก, แยกข้อมูลที่ไม่ทราบมาก่อน มาใช้ตัดสินใจในธุรกิจ Knowledge Discovery in Database (KDD)

กระบวนการที่กระทํากับข้อมูลจํานวนมากเพื่อค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น

การบวนการทำงาน Data Mining

1. Business Obj. Objective Determination กำหนดวัตถุประสงค์ เช่น เพื่อแบ่งกลุ่มลูกค้า เพื่อหาลักษณะลูกค้า กำหนดปัญหา และโอกาส

2. Seletion

กำหนดข้อมูลทั้งหมด แล้วเลือกกลุ่มของข้อมูลที่ต้องการ

3. Data Preparation เตรียมข้อมูล

กำหนดเป้าหมายในการเตรียมข้อมูลที่มีคุณภาพ เพื่อมั่นใจว่าเลือกข้อมูลถูกต้อง และ Transfformation สร้างข้อมูลชุดใหม่

  • Data Selection เลือกข้อมูล เพศ อายุ รายได้

  • Data Preprocessing ทำข้อมูลให้มีคุณภาพดี

  • Data Transfformation สร้างข้อมูลชุดใหม่ เพื่อให้สอดคล้องกับ model ที่จะมา map

4. Data mining Analysis of  Results

เลือก model technique

  • Predictive : สร้างจากข้อมูลเก่า เพื่อทำนายข้อมูลอนาคต = Neural network
  • Segmentation : กลุ่มข้อมูล = K-means
  • Association Rule Discovery : ความสัมพันธ์แบบเชื่อมโยง โครงสร้างข้อมูล = Apiori, Visualization
  • Prediction มีข้อมูล อดีต ปัจจุบัน เพื่อทำนายข้อมูลอนาคต เช่น ราคาทอง

  • Classification ทำนายเป็นกลุ่ม (AI)

  • Value ทำนายเป็นตัวเลข

  • Database Segmentation

  • Clustering คล้ายกันไว้กลุ่มเดียวกัน

  • Link Analysis

วิเคราห์ ตีความข้อมูล และประเมิณ output

  • Example Data Mining System
  • IBM Intelligent = DB2
  • SAS = Data Warehouse tools
  • SQL Server = OLAP
  • Oracle Data miner
  • Weka / Rapid = algorithm

5. Pattern Evaluation

Assimilation of knowledge นำไปใช้ประโยชน์

  • Query and Reporting

  • Knowledge Management

  • Analytic App./DSS

Data Management

  • ปัจจัยสู่ความสำเร็จที่สำคัญ : ข้อมูลควรจะมีคุณภาพสูง (accurate,complete,timely,consistent,accessible,relevant,concise)

  • ความยากลำบากของการจัดการข้อมูล:

  • ปริมาณของข้อมูลที่เพิ่มขึ้นชี้แจงกับเวลา

  • ข้อมูลที่มีกระจายอยู่ทั่วทั้งองค์กรและมีการเก็บรวบรวมโดยวิธีการและอุปกรณ์ต่างๆ

  • ข้อมูลทั่วทั้งองค์กรจะซ้ำซ้อน

  • จำนวนเพิ่มมากขึ้นของข้อมูลภายนอกจะต้องพิจารณาในการทำการตัดสินใจขององค์กร