Hi, I am

Ngô Tôn

I am a programmer.

Home / HCMUS / Data Mining / Gom cụm dữ liệu – Clustering

Gom cụm dữ liệu – Clustering

Hỗ trợ giai đoạn tiền xử lý dữ liệu (data preprocessing) ‡

Mô tả sự phân bố dữ liệu/đối tượng (data distribution) ‡

Nhận dạng mẫu (pattern recognition) ‡

Phân tích dữ liệu không gian (spatial data analysis) ‡

Xử lý ảnh (image processing) ‡

Phân mảnh thị trường (market segmentation) ‡

Gom cụm tài liệu ((WWW) document clustering)

Thuật Toán K-Means

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất.

1.    Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại diện bằng các tâm của cụm.

2.    Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

3.    Nhóm các đối tượng vào nhóm gần nhất

4.    Xác định lại tâm mới cho các nhóm

5.    Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

 

Hỗ trợ giai đoạn tiền xử lý dữ liệu (data preprocessing) ‡ Mô tả sự phân bố dữ liệu/đối tượng (data distribution) ‡ Nhận dạng mẫu (pattern recognition) ‡ Phân tích dữ liệu không gian (spatial data analysis) ‡ Xử lý ảnh (image processing) ‡ Phân mảnh thị trường (market segmentation) ‡ Gom cụm tài liệu ((WWW) document clustering) Thuật Toán K-Means K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K…

User Rating: 5 ( 1 votes)

About ngoton

Ngô Tôn is a programmer with passion for tailored software solutions. Comes with 6+ years of IT experience, to execute beautiful front-end experiences with secure and robust back-end solutions.

Leave a Reply

Your email address will not be published. Required fields are marked *