Gaussian mixture model (GMM) là mô hình xác suất miêu tả các quần thể con của một tập dữ liệu không gắn nhãn. GMM được phát biểu lần đầu bởi Karl Pearsons vào năm 1894. Về sau, với sự phát triển và phổ biến của maximum likelihood estimation, mô hình này được nghiên cứu và ứng dụng trong các bài toán như phân cụm dữ liệu (clustering), nhận dạng chữ viết tay (handwriting recognition), phân đoạn hình ảnh (image segmentation). Trong dự án này, chúng ta sẽ tìm hiểu về ứng dụng của GMM trong clustering và cách cập nhật các tham số của phân phối Gaussian và các cụm dữ liệu với thuật toán expectation maximization (EM algorithm).
LinkGeneralized Linear Model (GLM) là những mô hình thống kê nâng cao tổng quát hóa từ mô hình Hồi quy Tuyến tính (Linear Regression, LR). GLM được phát minh bởi John Nelder và Robert Wedderburn vào năm 1972. Mô hình này được dùng rất nhiều trong các bài toán hồi quy và phân lớp dữ liệu. Trong dự án này, ta sẽ tìm hiểu về cấu trúc của GLM và áp dụng vào bài toán thực tế thông qua việc chọn mô hình, ước lượng tham số trong mô hỉnh, dự đoán kết quả và đánh giá.
LinkManifold Learning (“Học đa tạp”) là tên một nhóm các thuật toán giảm chiều dữ liệu không giám sát với điểm chung là bắt đầu với giả thiết các điểm dữ liệu trong không gian D chiều đều nằm trên một manifold (đa tạp) d chiều với d < D, và sử dụng các tính chất cục bộ (local properties) của manifold để tìm ra biểu diễn d chiều của các điểm dữ liệu ban đầu. Thuật toán Isomap (Isometric mapping - “Ánh xạ đẳng cự”) là một thuật toán Manifold Learning với mục tiêu bảo toàn khoảng cách địa lý (geodesic distance) giữa mọi cặp điểm trong input data, tận dụng hình dạng hình học của manifold.
LinkManifold Learning (“Học đa tạp”) là tên một nhóm các thuật toán giảm chiều dữ liệu không giám sát với điểm chung là bắt đầu với giả thiết các điểm dữ liệu trong không gian D chiều đều nằm trên một manifold (đa tạp) d chiều với d < D, và sử dụng các tính chất cục bộ (local properties) của manifold để tìm ra biểu diễn d chiều của các điểm dữ liệu ban đầu. Thuật toán Locally Linear Embedding (“Phép nhúng tuyến tính địa phương/cục bộ”) là một thuật toán Manifold Learning với mục tiêu bảo toàn các quan hệ tuyến tính giữa các điểm gần nhau, lợi dụng tính chất tuyến tính cục bộ của manifolds.
LinkMean shift là một ý tưởng thuật toán được phát minh bởi Fukunaga và Hostetler vào năm 1975. Thuật toán này và các phiên bản hoàn thiện hơn của nó thường được ứng dụng vào các bài toán: phân cụm dữ liệu (clustering), phân mảng hình ảnh (image segmentation), dò theo đối tượng hình ảnh (object tracking). Trong dự án này, chúng ta sẽ tìm hiểu cơ sở lý thuyết và ứng dụng cụ thể của mean shift.
LinkThuật toán Principal Component Analysis (“Phân tích chiều chính”) là một trong những thuật toán giảm chiều dữ liệu không giám sát được phát minh sớm nhất mà vẫn được dùng rộng rãi tới ngày nay. Mục tiêu của PCA là tìm một phép chiếu trên không gian ít chiều sao cho hình chiếu của dữ liệu mới qua phép chiếu này có các tính chất tối ưu nhất định.
LinkMô hình Spectral Clustering trong Machine Learning được phổ biến bởi Shi, Malik (2000) và Ng, Jordan, Weiss (2002). Mô hình này lấy ý tưởng từ việc biểu diễn dữ liệu dưới dạng đồ thị và sử dụng thông tin về dữ liệu thông qua các ma trận đặc biệt từ đồ thị đó. Trong dự án này, chúng ta sẽ tìm hiểu về thuật toán Spectral Clustering.
LinkSupport Vector Machine (SVM) là mô hình học có giám sát được phát minh bởi Vladimir Naumovich Vapnik và Alexey Yakovlevich Chervonenkis năm 1963. Mô hình này được dùng chủ yếu là trong bài toán phân lớp (classification) dữ liệu. Trong dự án này, các bạn sẽ tìm hiểu hiểu về SVM và các biến thể của nó áp dụng trong bài toán phân lớp nhị phân sử dụng một siêu phẳng phân tách.
Link