Agglomerative Hierarchical Clustering (การแบ่งกลุ่มลำเดียงในรูปแบบของต้นไม้) เป็นเทคนิคทางสถิติที่ใช้ในการทำ Cluster Analysis โดยทำการรวมกลุ่มข้อมูลเว็บแทงบอลเข้าด้วยกันโดยเริ่มต้นจากการที่แต่ละข้อมูลถือว่าเป็นกลุ่มด้วยตัวเอง จากนั้นจะรวมกลุ่มที่มีความคล้ายคลึงกันมาเรื่อย ๆ จนกว่าจะได้กลุ่มเดียวที่มีข้อมูลทั้งหมดอยู่ในนั้น กระบวนการนี้สร้าง Dendrogram ซึ่งเป็นแผนภาพต้นไม้ที่แสดงความคล้ายคลึงของข้อมูลแต่ละตัวอย่าง ต้นไม้นี้สามารถนำไปใช้ในการวิเคราะห์และการเลือกจำนวน Cluster ที่เหมาะสมได้.
ขั้นตอนในการทำ Agglomerative Hierarchical Clustering:
- คำนวณความคล้ายคลึง:
- คำนวณความคล้ายคลึงระหว่างทุกคู่ของข้อมูลเว็บแทงบอล โดยใช้วิธีการคำนวณระยะห่าง (distance) เช่น Euclidean distance, Manhattan distance, หรือ Correlation coefficient
- สร้างตารางความคล้ายคลึง:
- สร้างตารางความคล้ายคลึงที่บ่งบอกถึงความคล้ายคลึงระหว่างข้อมูลเว็บแทงบอลทุกคู่
- รวมกลุ่มที่มีความคล้ายคลึงน้อยที่สุด:
- รวมกลุ่มเว็บแทงบอลที่มีความคล้ายคลึงน้อยที่สุดตามตารางความคล้ายคลึง
- ปรับปรุงตารางความคล้ายคลึง:
- ปรับปรุงตารางความคล้ายคลึงใหม่เว็บแทงบอลหลังจากรวมกลุ่ม
- ทำซ้ำขั้นตอน 3-4:
- ทำซ้ำขั้นตอนที่ 3-4 จนกระทั่งได้กลุ่มเดียว
Dendrogram:
Dendrogram เป็นแผนภาพต้นไม้ที่แสดงความคล้ายคลึงของข้อมูล ส่วนล่างของ Dendrogram จะแสดงตัวอย่างข้อมูลเว็บแทงบอลแต่ละตัวอย่าง และการแต่งกลุ่มข้อมูลไปยังกลุ่มอื่น ๆ จนกระทั่งได้กลุ่มเดียวที่มีข้อมูลทั้งหมด
ประเภทของ Agglomerative Hierarchical Clustering:
- Single Linkage (เชื่อมโยงเดี่ยว):
- ในขั้นตอนการรวมกลุ่ม, ความคล้ายคลึงระหว่างกลุ่มถูกนำมาเปรียบเทียบเว็บแทงบอลและเลือกใช้ความคล้ายคลึงระหว่างตัวอย่างที่มีระยะห่างน้อยที่สุด
- Complete Linkage (เชื่อมโยงสมบูรณ์):
- ในขั้นตอนการรวมกลุ่ม, ความคล้ายคลึงระหว่างกลุ่มถูกนำมาเปรียบเทียบเว็บแทงบอลและเลือกใช้ความคล้ายคลึงระหว่างตัวอย่างที่มีระยะห่างมากที่สุด
- Average Linkage (เชื่อมโยงเฉลี่ย):
- ในขั้นตอนการรวมกลุ่ม, ความคล้ายคลึงระหว่างกลุ่มถูกนำมาเปรียบเทียบเว็บแทงบอลและเลือกใช้ความคล้ายคลึงระหว่างตัวอย่างที่มีระยะห่างเฉลี่ยที่น้อยที่สุด
Agglomerative Hierarchical Clustering มีความยืดหยุ่นและให้ภาพรวมของโครงสร้างเว็บแทงบอลการแบ่งกลุ่มที่ชัดเจน และ Dendrogram ที่ได้นั้นสามารถใช้ในการวิเคราะห์และการเลือกจำนวน Cluster ที่เหมาะสม