Google bật mí về quy trình làm Deep Research

Thấy bài hay em lại share lại ạ…


1) Nhận ra nhu cầu của user:

Ban đầu, team nhận thấy user hay dùng Gemini để research, tìm hiểu các thứ. Nhưng mà mấy con chatbot hiện tại, kể cả Gemini lúc đó, toàn kiểu đưa ra khung sườn đáp án thôi, chứ không đào sâu được. Nhất là với mấy câu hỏi hóc búa thì càng bó tay.

Ví dụ: Thay vì trả lời Cách làm bánh mì sourdough tại nhà, nó chỉ đưa ra các bước chung chung, chứ không đi vào chi tiết tỉ mỉ, mẹo, tips, hay các lỗi thường gặp. Thế là user lại phải google thêm, mất công lắm.

2) Nảy ra ý tưởng sản phẩm:

Thế là team mới nghĩ: Hay là tạo ra một con ‘trợ lý research’ riêng, cho nó lượn lờ web thoải mái, ngâm cứu chán chê rồi mới trả lời?. Đánh đổi thời gian lấy chiều sâu thông tin.

3) Sửa giao diện chatbot:

Cái khó là, Gemini vốn là chatbot, giao diện chat chit thì phải nhanh gọn lẹ. Giờ nhét tính năng ngâm cứu lâu la vào thì user có mà chạy mất dép.

Phải làm sao để user biết là đang chờ kết quả gì, chờ bao lâu, rồi kết quả dài ngoằng thì hiển thị thế nào cho dễ đọc, dễ tiêu hóa?

4) Tạo giao diện (UX):

  • Research Plan Card: Trước khi lao vào research, Gemini sẽ đưa ra một cái kế hoạch kiểu như outline, cho user xem trước, thậm chí chỉnh sửa được. Như kiểu bật mí trước là tao sẽ tìm hiểu cái này, cái kia đấy nhé.

  • Real-time Browse Display: Trong lúc chờ đợi, Gemini sẽ show hàng luôn là nó đang lượn ở trang web nào, đọc cái gì. Cho user đỡ sốt ruột, mà cũng công khai quy trình để user tin tưởng là nó không bịa.

  • Artifact Pinning: Kết quả research thường dài, nên team cho phép ghim lại, để user có thể vừa đọc vừa hỏi thêm, giúp tương tác với kết quả.

  • Source Citations: Phải ghi rõ nguồn thông tin lấy từ đâu, vừa để user tin tưởng, vừa ghi công cho mấy trang web kia.

5) Xử lý phần cứng (technical):

Phần này mới khoai này, toàn mấy thứ hầm bà lằng mà user dev phải cày ngày cày đêm:

  • State Management & Error Recovery: Đại khái là quản lý trạng thái của quá trình research, lỡ có lỗi gì thì còn khắc phục được, chứ không toang cả quá trình.

  • Iterative Planning: Cái này kiểu như cho Gemini học cách chia nhỏ vấn đề, lên kế hoạch từng bước, rồi điều chỉnh dần dựa trên thông tin tìm được.

  • Robust Web Browse: Phải làm sao để Gemini lượn lờ web một cách mượt mà, bắt được thông tin chuẩn, không bị lạc trôi giữa biển thông tin.

  • Context Management: Càng research thì thông tin càng nhiều, mà Gemini thì có giới hạn bộ nhớ. Phải làm sao để quản lý đống thông tin đó, không bị quá tải. Team đã dùng các tips như ưu tiên thông tin mới, rồi ghi chú lại các thứ.

6) Ra mắt và hóng feedback:

  • Cuối cùng thì Deep Research cũng được lên sóng. Team cũng hồi hộp không biết user có hứng thú không. Ai dè, phản hồi tích cực ngoài mong đợi.

7) Tương lai phía trước:

  • Thêm chuyên môn cho Gemini, vd cho nó học thêm về các lĩnh vực cụ thể như khoa học, tài chính, v.v.

  • Cá nhân hóa trải nghiệm, vd Gemini sẽ hiểu user hơn, biết user quan tâm đến cái gì, để đưa ra kết quả sát sườn hơn.

  • Đa phương tiện, không chỉ đọc text mà còn xem ảnh, video, thậm chí tạo ra video luôn.

:link: Link video: https://www.youtube.com/live/D7BzTxVVMuw

Tóm lại, Deep Research là một nỗ lực đáng nể của team Gemini. Từ một ý tưởng ban đầu, họ đã vật lộn với đủ thứ thách thức, từ giao diện đến kỹ thuật, để tạo ra một tính năng hay và hữu ích cho user. Ngay cả các đối thủ cạnh tranh như ChatGPT, Perplexity, Grok 3 cũng công nhận tính năng này hay bằng cách copy nó.

Bài viết của Facebook Hoàng Dũng AI