Khóa học Machine Learning online trên Coursera miễn phí – Andrew NG
I. Khi nói về dữ liệu, ta thường nói đến một loạt đặc trưng.
Ví dụ: người thì có chiều cao, cân nặng, sở thích, etc.
Và ta cũng đã biết về tạo cá đặc trưng đa thức khi các đặc trưng bậc 1 không đủ để miêu tả tốt dữ liệu.
Giả sử, ta có một dữ liệu X có các đặc trưng x1, x2, x3, x4, x5, x6.
Giờ ta cần thêm các đặc trưng dạng đa thức bậc 2, tức là ta phải thêm các dạng x1^2, x1x2, x2^2...
Sẽ có khoảng O(N^2) đặc trưng như thế. (Với N là số đặc trưng ban đầu).
Khi N tăng, con số trên sẽ tăng rất nhanh.
Khi số bậc tăng nữa, con số kia còn tăng nhanh hơn.
=> Gần như không thể sử dụng các biểu diễn này vi số chiều quá lớn. (???)
Và Neural Network là một cách biểu diễn thay thế khi có một hyphotheses với nhiều đặc trưng.
Lấy ý tưởng từ việc mô phỏng đơn giản cách hoạt động của não bộ trong thần kinh học.
II. Tiếp đến, nói về biểu diễn của Neural Network.
Ta có thể hiểu là có nhiều đầu vào (mỗi đầu vào là một đặc trưng) được kết nối (các dây – hay chính là hệ số tuơng ứng với mỗi dây nối) đến 1 đầu ra thông qua một hàm (thường là không linear), để tạo ra chỉ một đầu ra duy nhất.
Hàm được nói ở trên gọi là activation function. Thường là hàm sigmoid được nhắc đến ở bài trước.
III. Tuần này cũng nói đến cách biểu diễn thành các lớp.
Lớp đầu tiên là Input (được đánh số là 1), mỗi giá tri ở lớp này tuơng ứng với một đặc trưng của đầu vào.
Lớp cuối cùng là Output (gọi là lớp thứ L – giả sử có L lớp) chứa giá trị đầu sau khi qua các lớp ẩn.
Các lớp ở giữa Input và Output là các lớp ẩn, được đánh số từ 2.
Mỗi Neuron trong lớp ẩn và lớp Output là kết quả từ hàm activation của tổng của tichtất cả các Neuron từ lớp ngay trước đó nhân kết nối tương ứng. Mỗi Neuron có tập kết nối khác nhau. Mỗi kết nối đó chính là một tham số cần phải được điều chỉnh trong quá trình Training.
Ta biết hàm sigmoid hay bộ phân lớp sử dụng hàm sigmoid dùng để phân loại 2 lớp.
Khi cần phân loại K lớp, ta cần K nàm sigmoid tuơng ứng thì ta cần K bộ phân lớp. Mỗi bộ phân lớp đó sẽ phân biệt một đầu vào thuộc lớp đó hay không, và xác suất là bao nhiêu.
Tuơng ứng ta sẽ có K đầu ra ứng với K bộ phân lớp, K đầu ra này chính là đầu ra của lớp Output ở trên.
IV. Trong tuần này, cũng nhắc đến cách biểu diễn one-hot, khi phân loai nhiều lớp.
Leave a Reply