Deep learning không phải kỹ thuật mới. Backpropagation — thuật toán cốt lõi để huấn luyện mạng nơ-ron sâu — đã được mô tả từ 1970. Nhưng phải đợi đến tháng 10/2012, khi AlexNet thắng ImageNet với top-5 error 15.3%, cách runner-up tới 10.8 điểm, giới nghiên cứu mới tin nó hoạt động. Từ thời điểm đó, hầu hết bước nhảy lớn trong AI — nhận dạng ảnh, dịch máy, ChatGPT, AlphaFold — đều là deep learning (DL, học sâu).

Nguồn: Deep learning — Wikipedia
Deep Learning là gì?
Theo Wikipedia, deep learning là "a field of machine learning that focuses on utilizing multilayered neural networks to perform tasks such as classification, regression, and representation learning" — nhánh của machine learning dùng mạng nơ-ron nhiều lớp để phân loại, hồi quy và học biểu diễn.
Chữ "deep" (sâu) không có nghĩa "thông minh hơn". Nó chỉ một thứ rất kỹ thuật: số lớp ẩn trong mạng nơ-ron. Mạng có ít nhất hai lớp ẩn giữa input và output gọi là deep neural network. Một mô hình với ba lớp là "deep" theo nghĩa hẹp; GPT-4 hay AlphaFold 2 có hàng trăm lớp.
DL nằm ở tầng thứ ba trong cây phân loại: AI → Machine Learning → Deep Learning → LLM. Nếu chưa rõ bốn tầng khác nhau ra sao, đọc AI là gì và Machine Learning là gì trước.
Deep Learning hoạt động như thế nào?
Mạng nơ-ron sâu là một chuỗi phép biến đổi toán học. Dữ liệu đi vào lớp đầu vào (input layer), chạy qua nhiều lớp ẩn (hidden layer), rồi ra ở lớp đầu ra (output layer). Mỗi lớp học một mức trừu tượng khác nhau.
Wikipedia mô tả ngắn gọn nhất bằng ví dụ nhận dạng ảnh: "the first representational layer may attempt to identify basic shapes such as lines and circles, the second layer may compose and encode arrangements of edges, the third layer may encode a nose and eyes" — lớp đầu nhận cạnh, lớp giữa ghép thành sắp xếp cạnh, lớp sau gộp thành mắt mũi, lớp cuối ra "đây là mặt người".
Điểm quan trọng: bạn không phải bảo nó tìm "cạnh" hay "mắt". Mô hình tự rút ra các mức trừu tượng từ dữ liệu — đây gọi là representation learning (học biểu diễn). Đó là khác biệt lớn nhất so với ML cổ điển, nơi con người phải nghĩ trước những đặc trưng (feature) đáng đo.
Còn "học" cụ thể là gì? Là tinh chỉnh hàng triệu hoặc hàng tỷ trọng số bên trong các kết nối giữa neuron, sao cho dự đoán càng khớp nhãn càng tốt. Thuật toán tiêu chuẩn để làm việc này là backpropagation — tính sai số ở output, lan ngược về các lớp trước, điều chỉnh trọng số theo gradient.
Vì sao Deep Learning bùng nổ từ 2012?

Nguồn: AlexNet — Wikipedia
Lý thuyết mạng nơ-ron sâu đã có từ thập niên 80. Geoffrey Hinton, David Rumelhart và Ronald Williams phổ biến backpropagation năm 1986. Nhưng suốt 25 năm sau, deep learning gần như không cạnh tranh được với SVM, random forest, hay logistic regression trên các bài toán thực.
Khúc rẽ là tháng 10/2012. Tại cuộc thi ImageNet (phân loại 1.2 triệu ảnh vào 1000 lớp), nhóm SuperVision của Alex Krizhevsky, Ilya Sutskever và Geoffrey Hinton đẩy lên một mạng tích chập (CNN) tên AlexNet. Kết quả gây sốc: top-5 error 15.3%, cách runner-up (dùng phương pháp cổ điển) tới 10.8 điểm phần trăm — khoảng cách lớn chưa từng thấy trong lịch sử thi.
Ba điều kiện gặp nhau đúng lúc:
- Dữ liệu lớn. ImageNet có hơn 14 triệu ảnh đã gắn nhãn — quy mô mà các thập niên trước không có.
- GPU đủ rẻ. AlexNet chứa 60 triệu tham số và 650 nghìn neuron, huấn luyện trên hai card NVIDIA GTX 580. Wikipedia ghi: "the depth of the model was essential for its high performance, which was computationally expensive, but made feasible due to the utilization of graphics processing units (GPUs) during training" — chiều sâu là chìa khóa, GPU làm cho chiều sâu khả thi.
- Kiến trúc đủ sâu. Mạng 8 lớp — sâu hơn hẳn các mô hình trước đó.
Sau 2012, mọi thứ chạy rất nhanh. Năm 2017, Google ra bài "Attention Is All You Need" giới thiệu kiến trúc transformer — nền tảng cho mọi LLM hiện đại. Năm 2018, ACM trao Turing Award cho Yoshua Bengio, Geoffrey Hinton và Yann LeCun "for conceptual and engineering breakthroughs that have made deep neural networks a critical component of computing". Năm 2024, Hinton nhận tiếp Nobel Vật lý cùng John Hopfield "for foundational discoveries and inventions that enable machine learning with artificial neural networks".
Deep Learning khác Machine Learning cổ điển ở điểm nào?
DL là một nhánh của ML, nhưng khác biệt thực dụng đủ lớn để gọi riêng. Tóm tắt nhanh:
| Tiêu chí | ML cổ điển | Deep Learning |
|---|---|---|
| Dữ liệu cần | Vài nghìn — vài chục nghìn dòng đủ | Vài triệu mẫu trở lên |
| Phần cứng | Chạy được trên CPU laptop | Gần như bắt buộc GPU |
| Feature | Con người chọn (feature engineering) | Mô hình tự rút |
| Diễn giải | Decision tree, logistic regression dễ giải thích | Hộp đen — khó giải thích quyết định cụ thể |
| Hiệu năng dữ liệu nhỏ | Thường thắng | Thường thua |
| Hiệu năng dữ liệu lớn, phi cấu trúc | Thường thua | Thường thắng |
Coursera tóm gọn khác biệt dữ liệu: "A machine learning algorithm can learn from relatively small sets of data, but a deep learning algorithm requires big data sets that might include diverse and unstructured data".
Quy tắc thực dụng: nếu dữ liệu là bảng Excel vài nghìn dòng, gần như chắc chắn XGBoost hoặc random forest sẽ thắng deep learning — và rẻ hơn cả nghìn lần. Nếu dữ liệu là ảnh, âm thanh, hay văn bản tự nhiên, ngược lại.
Deep Learning đã làm được những gì?
Bốn ví dụ đủ thấy quy mô tác động trong 13 năm gần đây.
Nhận dạng ảnh. AlexNet 2012 mở màn. Đến nay CNN — "a type of feedforward neural network that learns features via filter (or kernel) optimization" — là kiến trúc tiêu chuẩn cho mọi tác vụ thị giác máy tính, từ Face ID đến xe tự lái.
Ngôn ngữ. Kiến trúc transformer ra mắt 2017 trong bài "Attention Is All You Need" đẻ ra cả họ LLM — GPT, Claude, Gemini, Llama. Mọi chatbot AI bạn dùng hôm nay đều là deep learning quy mô khổng lồ — đọc LLM là gì để hiểu chi tiết.
Khoa học cơ bản. AlphaFold 2 của DeepMind dự đoán cấu trúc 3D của protein — bài toán mở suốt 50 năm. Ở CASP14 (2020), nó đạt median GDT 92.4/100, gần ngang độ chính xác thí nghiệm. Tháng 10/2024, Demis Hassabis và John Jumper nhận một nửa giải Nobel Hóa học "for protein structure prediction" — lần đầu một sản phẩm AI mang lại Nobel khoa học cứng.

Nguồn: AlphaFold — Wikipedia
Khi nào Deep Learning không phải lựa chọn tốt?
DL không phải búa vạn năng. Năm trường hợp bạn nên dừng lại trước khi gọi PyTorch:
- Dữ liệu nhỏ. Vài nghìn dòng đến vài chục nghìn dòng — DL gần như chắc chắn overfit. ML cổ điển ổn hơn, nhanh hơn, rẻ hơn.
- Dữ liệu bảng (tabular). Doanh số theo tháng, log giao dịch, file Excel — XGBoost và random forest vẫn thắng trên đa số bài toán này. Chi tiết trong Machine Learning là gì.
- Cần giải thích quyết định. Ngân hàng từ chối khoản vay, bệnh viện chẩn đoán bệnh — yêu cầu pháp lý hoặc đạo đức là phải nói được vì sao. Deep learning là hộp đen; decision tree không.
- Không có ngân sách GPU. Huấn luyện một mô hình DL nhỏ trên cloud có thể tốn vài trăm USD; mô hình lớn lên đến hàng triệu. Nếu không có nguồn này, đừng bắt đầu bằng DL.
- Quy tắc đã rõ. Tính thuế VAT, kiểm tra định dạng email, sắp xếp danh sách — đừng dùng mạng nơ-ron để làm thứ if–else giải được.
Người làm DL giỏi không phải người đẩy mọi bài toán vào mạng nơ-ron. Là người biết khi nào không nên.
Bạn nên bắt đầu học Deep Learning từ đâu?
Tùy mục tiêu, có hai con đường:
- Dùng deep learning. Học PyTorch trong 1–2 tháng, lấy mô hình có sẵn từ Hugging Face, fine-tune cho bài toán riêng. Phần lớn công việc DL thực tế trong công ty là việc này.
- Nghiên cứu kiến trúc. Cần đại số tuyến tính, xác suất, giải tích nhiều biến. "Deep Learning Specialization" của Andrew Ng trên Coursera là điểm bắt đầu chuẩn; sau đó đọc thẳng bài gốc trên arXiv.
Lời khuyên thực dụng: huấn luyện một CNN nhỏ trên CIFAR-10 trong tuần này — chạy miễn phí trên Google Colab. Một mô hình tệ chạy được dạy nhiều hơn 10 cuốn sách.
Câu hỏi thường gặp
Deep Learning và Machine Learning khác nhau như thế nào? Deep Learning là một nhánh của Machine Learning — cụ thể là nhánh dùng mạng nơ-ron nhiều lớp. ML rộng hơn, bao gồm cả decision tree, SVM, k-means, logistic regression. Trên dữ liệu bảng nhỏ, ML cổ điển thường thắng DL. Trên ảnh, âm thanh, văn bản quy mô lớn, DL gần như là lựa chọn duy nhất.
Học Deep Learning có cần biết toán không? Để dùng thư viện sẵn (PyTorch, Hugging Face): chỉ cần Python và xác suất cơ bản. Để tối ưu kiến trúc hoặc đọc paper: cần đại số tuyến tính, xác suất, giải tích nhiều biến. Đừng để thiếu toán cản bạn bắt đầu — phần lớn việc DL thực tế ở công ty không cần đến giải tích vector.
Deep Learning có thay thế Machine Learning truyền thống không? Không. Trên dữ liệu bảng vài nghìn dòng — phổ biến nhất trong doanh nghiệp — XGBoost vẫn là lựa chọn mặc định, nhanh hơn DL hàng nghìn lần và dễ giải thích cho bộ phận tuân thủ. DL chỉ vượt trội rõ rệt khi dữ liệu lớn, phi cấu trúc.
Tôi có thể chạy Deep Learning trên laptop không? Một mô hình nhỏ (CNN cho CIFAR-10, fine-tune BERT-base) — được, nếu laptop có GPU rời. Inference (chạy mô hình đã huấn luyện) với mô hình vừa: thường được. Còn huấn luyện LLM lớn từ đầu thì cần cụm GPU đám mây — không phải việc bắt đầu.