Học sâu (Deep Learning) là một tập hợp con của học máy, dựa trên các mạng nơ-ron đa tầng để học những biểu diễn phức tạp của dữ liệu.
Thay vì yêu cầu kỹ sư lập trình từng quy tắc cụ thể, học sâu để hệ thống tự rút ra quy luật từ hàng triệu ví dụ thực tế. Về bản chất, đây là một kiến trúc toán học được tối ưu qua hàng tỷ tham số, biến dữ liệu thô thành những dự đoán có giá trị.
Khi Google Photos nhận diện khuôn mặt của bạn suốt nhiều năm, hay Google Translate dịch theo thời gian thực, đó đều là kết quả của việc huấn luyện mạng nơ-ron trên những tập dữ liệu khổng lồ. Học sâu là một "bộ xấp xỉ vạn năng" (universal approximator) — có thể mô phỏng gần như bất kỳ hàm số phức tạp nào. Chính điều đó biến nó thành công cụ thay thế cho những hệ thống dựa trên quy tắc kinh nghiệm (heuristic) cứng nhắc trước đây.

Học sâu là gì?
Học sâu giữ vị trí trung tâm trong hệ sinh thái trí tuệ nhân tạo (AI) hiện đại vì nó tháo gỡ "điểm nghẽn kỹ thuật đặc trưng" (feature engineering) — rào cản lớn nhất của học máy truyền thống. Ở các phương pháp cũ, kỹ sư phải mất hàng tháng thiết kế thủ công từng đặc trưng, chẳng hạn tìm cạnh hay bánh xe để nhận diện một chiếc ô tô. Học sâu bỏ qua bước đó bằng cách tự học các "phân cấp đặc trưng" (feature hierarchies): từ những cạnh đơn giản ở lớp đầu, đến hình khối phức tạp, rồi vật thể hoàn chỉnh ở các lớp sâu hơn.
Một hệ thống được gọi là "học sâu" khi có ít nhất bốn lớp: một lớp đầu vào (input layer), ít nhất hai lớp ẩn (hidden layers) và một lớp đầu ra (output layer). Chính khả năng tự động trích xuất đặc trưng khiến học sâu mở rộng (scale) rất tốt: dữ liệu càng nhiều, hiệu suất càng tăng — trong khi các phương pháp thống kê cũ thường chạm ngưỡng bão hòa từ sớm.
Mạng nơ-ron thực sự hoạt động như thế nào?
Mạng nơ-ron nhân tạo là một kiến trúc phần mềm mô phỏng đơn giản hóa nơ-ron sinh học. Mỗi đơn vị tính toán — một nơ-ron — chạy đúng bốn bước:
- Tiếp nhận đầu vào: nhận tín hiệu (x) từ lớp trước.
- Nhân trọng số (weight): mỗi đầu vào được nhân với một trọng số (w) thể hiện mức độ quan trọng.
- Cộng độ lệch (bias): một giá trị (b) dịch chuyển kết quả để khớp dữ liệu tốt hơn.
- Hàm kích hoạt (activation function): quyết định cường độ tín hiệu truyền đi. Công thức tổng quát:
Z = (w · x) + b.
Một vài hàm kích hoạt thường gặp:
- ReLU: phổ biến nhất, tính nhanh và hạn chế hiện tượng biến mất đạo hàm.
- Leaky ReLU: cho một lượng nhỏ tín hiệu âm đi qua để tránh hiện tượng "nơ-ron chết" (dead neurons).
- Sigmoid và Tanh: ép đầu ra về khoảng (0, 1) hoặc (-1, 1), thường dùng cho xác suất hoặc chuẩn hóa dữ liệu.
Nhờ cấu trúc phân tầng, dữ liệu đi từ lớp đầu vào (nhận pixel ảnh hoặc mẫu âm thanh), qua các lớp ẩn (trung tâm tính toán — càng sâu càng trích xuất đặc trưng phức tạp), rồi kết thúc ở lớp đầu ra để đưa ra dự đoán cuối cùng.

Mô hình học sâu học như thế nào?
Huấn luyện là quá trình tinh chỉnh hàng tỷ trọng số sao cho hàm mất mát (loss function) nhỏ nhất có thể. Vòng lặp này gồm ba giai đoạn:
- Lan truyền xuôi (forward pass): dữ liệu chạy qua các lớp để tạo ra dự đoán Ŷ.
- Tính hàm mất mát: so sánh Ŷ với kết quả thực tế để đo mức sai lệch.
- Lan truyền ngược (backpropagation): bước quan trọng nhất. Dựa trên quy tắc chuỗi (chain rule) trong giải tích, thuật toán tính đạo hàm của hàm mất mát theo từng trọng số, qua đó biết mỗi tham số đóng góp bao nhiêu vào sai số chung.

Để cập nhật trọng số, ta dùng lao dốc gradient (gradient descent) — kỹ thuật dò tìm điểm cực tiểu của hàm mất mát. Các bộ tối ưu (optimizer) như Adam được ưa chuộng nhờ tự điều chỉnh tốc độ học. Nhiều kỹ sư kỳ cựu lại chọn AdamW, vì nó tách phần suy giảm trọng số (weight decay) khỏi các bước cập nhật theo gradient, giúp mô hình tổng quát hóa tốt hơn. Song song đó, các kỹ thuật như Dropout (ngắt ngẫu nhiên một số nơ-ron) và Batch Normalization được dùng để chống quá khớp (overfitting) và giữ cho quá trình huấn luyện ổn định.
Có những loại mô hình học sâu chính nào?
Mỗi kiến trúc mạng nơ-ron được thiết kế riêng cho một loại dữ liệu đầu vào:
- CNN (mạng nơ-ron tích chập): trượt các bộ lọc (filter) qua dữ liệu để bắt các mẫu cục bộ; tối ưu cho thị giác máy tính.
- RNN và LSTM (mạng nơ-ron tái phát): dành cho dữ liệu chuỗi như văn bản hay chuỗi thời gian. LSTM vượt trội hơn RNN nhờ các cổng (gate) giúp ghi nhớ thông tin dài hạn. Tuy nhiên, cả hai đều bị giới hạn bởi tính toán tuần tự, nên chậm khi xử lý chuỗi dài.
- Transformer: bước ngoặt của xử lý ngôn ngữ tự nhiên (NLP) nhờ cơ chế tự chú ý (self-attention). Khác với RNN, Transformer xử lý song song toàn bộ chuỗi cùng lúc, gỡ bỏ nút thắt hiệu suất và học được ngữ cảnh ở khoảng cách xa.
- Mô hình tạo sinh (GAN, Diffusion): dùng cơ chế đối nghịch hoặc khử nhiễu để tạo ra nội dung mới như ảnh hay video chất lượng cao — nhánh được trình bày kỹ trong AI tạo sinh là gì?.

Học sâu được dùng ở đâu trong thực tế?
Học sâu không còn là lý thuyết trong phòng thí nghiệm mà đã trở thành động lực kinh tế thực thụ:
- Y tế: đọc ảnh X-quang và MRI với độ chính xác ngang chuyên gia, mô phỏng cấu trúc phân tử để phát triển thuốc.
- Tài chính: phát hiện gian lận thẻ theo thời gian thực và vận hành các thuật toán giao dịch tần suất cao.
- Giao thông: là lõi của xe tự lái, xử lý luồng dữ liệu cảm biến khổng lồ để ra quyết định an toàn.
- Công nghệ tiêu dùng: trợ lý ảo như Siri và Alexa, hệ thống gợi ý của Netflix hay Spotify, và các công cụ dịch đa ngôn ngữ.
Khi nào học sâu không phải là công cụ phù hợp?
Kỹ sư giỏi không mặc định dùng học sâu cho mọi bài toán. Công cụ này tỏ ra không phù hợp trong vài trường hợp:
- Dữ liệu nhỏ và có cấu trúc: với dữ liệu dạng bảng quy mô nhỏ, các thuật toán học máy cổ điển như Random Forest hay XGBoost vừa nhanh hơn vừa hiệu quả hơn.
- Đòi hỏi khả năng giải thích: học sâu là một "hộp đen" (black box). Trong pháp lý hay y khoa, việc không thể giải trình logic đằng sau một quyết định là rào cản lớn.
- Hạn chế tài nguyên: huấn luyện mô hình sâu cần hạ tầng bộ xử lý đồ họa (GPU) đắt đỏ và ngốn rất nhiều điện năng. Trên các thiết bị biên (edge device) cấu hình yếu, việc triển khai gần như bất khả thi.