Playbook này dành cho ai?

Bạn nghe người ta nói về vector database, embedding, RAG mà không hiểu nó là gì. Hoặc bạn biết AI có thể tìm kiếm "thông minh" hơn Google truyền thống, nhưng không rõ cơ chế bên trong hoạt động ra sao.

Playbook này giải thích từ đầu: database truyền thống thiếu gì, vector database bù vào chỗ nào, và tại sao nó là nền tảng cho nhiều ứng dụng AI hiện tại.

Bạn sẽ đạt được gì?

Giải thích được semantic gap — tại sao database truyền thống không tìm kiếm theo "ý nghĩa" được
Hiểu vector embedding là gì, trông như thế nào, và tại sao "giống nhau = gần nhau"
Phân biệt các loại embedding model cho ảnh, văn bản, âm thanh
Biết cách vector indexing (HNSW, IVF) giúp tìm nhanh trong hàng triệu bản ghi
Hiểu RAG hoạt động ra sao khi kết hợp vector database với LLM

Bạn cần chuẩn bị gì?

Không cần cài đặt hay tài khoản nào
Không cần biết lập trình

Bức tranh toàn cảnh

Hãy tưởng tượng bạn có một thư viện sách. Thư viện truyền thống sắp xếp sách theo tên tác giả, năm xuất bản, thể loại. Bạn tìm được sách nếu biết chính xác thông tin đó. Nhưng nếu bạn hỏi "tìm sách có cảm giác giống Dế Mèn Phiêu Lưu Ký" thì thư viện truyền thống chịu thua.

Vector database giống như một thủ thư đã đọc hết mọi cuốn sách và hiểu "cảm giác" của từng cuốn. Khi bạn mô tả điều bạn muốn, thủ thư này tìm ra những cuốn có nội dung, phong cách, và chủ đề gần nhất với yêu cầu của bạn.

Playbook này đi qua 5 phần: khoảng cách ngữ nghĩa (vấn đề), vector embedding (giải pháp), embedding model (cách tạo), vector indexing (cách tìm nhanh), và RAG (ứng dụng thực tế).

1. Khoảng cách ngữ nghĩa giữa máy tính và con người

Lấy ví dụ đơn giản: bạn có một bức ảnh hoàng hôn trên núi và muốn lưu vào database truyền thống (relational database).

Database truyền thống lưu được gì? Ba thứ:

File ảnh gốc — dữ liệu nhị phân (binary data) của bức ảnh
Metadata cơ bản — định dạng file, ngày tạo, kích thước
Tag thủ công — bạn tự gắn tag "hoàng hôn", "phong cảnh", "cam"

Với 3 thứ này, bạn tìm lại được bức ảnh nếu nhớ chính xác tag đã gắn. Nhưng thử hỏi database: "tìm ảnh có bảng màu tương tự" hoặc "tìm ảnh phong cảnh có núi ở phía sau" — database truyền thống không trả lời được.

Hiểu cách vector database lưu trữ và tìm kiếm dữ liệu

Playbook này dành cho ai?

Bạn sẽ đạt được gì?

Bạn cần chuẩn bị gì?

Bức tranh toàn cảnh

1. Khoảng cách ngữ nghĩa giữa máy tính và con người

Mở khóa toàn bộ nội dung