Nguyên tắc tạo Prompt 'Long Chain-of-Thought' hiệu quả cho LLMs

Chain-of-Thought (CoT) đã nổi lên như một phương pháp đột phá để tăng cường khả năng lý luận của Large Language Models (LLM), đặc biệt trong các tác vụ phức tạp đòi hỏi lý luận đa bước. Nghiên cứu khoa học “Demystifying Long Chain-of-Thought Reasoning in LLMs” đã làm sáng tỏ cách LLM phát triển khả năng lý luận mở rộng thông qua Supervised Fine-Tuning (SFT) và Reinforcement Learning (RL), nhấn mạnh tầm quan trọng của dữ liệu Long CoT. Bài viết này tổng hợp các nguyên tắc cốt lõi từ nghiên cứu này và các nguồn khác để cung cấp hướng dẫn toàn diện về cách tạo Long CoT hiệu quả.

1. Phương pháp reasoning có cấu trúc

  • Phân tích từng bước (Step-by-Step Breakdown): Khuyến khích mô hình tạo ra các bước reasoning trung gian, bắt chước quá trình giải quyết vấn đề của con người. Điều này đặc biệt quan trọng đối với Long CoT, nơi các bước reasoning chi tiết và tuần tự tạo nên sức mạnh của nó.

Ví dụ về prompt:

Giải quyết vấn đề này từng bước: [vấn đề]. Đầu tiên, phân tích thông tin đã cho. Thứ hai, áp dụng các công thức liên quan. Thứ ba, xác thực giải pháp.

2. Cân bằng độ sâu và hiệu quả

  • Khen thưởng tính đúng đắn và ngắn gọn (Rewarding Correctness and Brevity): Sử dụng các cụm từ như *“Giải thích ngắn gọn trong 5–7 bước”*để tránh dài dòng trong khi vẫn duy trì độ sâu lý luận. Long CoT không đồng nghĩa với việc nói lan man; đúng hơn, đó là cung cấp đủ các bước chi tiết cần thiết cho lý luận mạnh mẽ.

  • Tránh dư thừa (Avoid Redundancy): Bao gồm các hướng dẫn để tránh logic lặp đi lặp lại trong nhiều bước. Prompt nên khuyến khích sự tiến triển logic tuyến tính và hiệu quả.

3. Neo giữ theo ngữ cảnh (Contextual Anchoring)

  • Tập trung vào lĩnh vực (Domain Focus): Duy trì sự liên quan của chủ đề bằng các cụm từ như “Giữ trong phạm vi [domain]” để tránh lạc đề. Đặc biệt khi CoT được mở rộng, việc duy trì ngữ cảnh là rất quan trọng để đảm bảo mô hình không đi lệch hướng.

Ví dụ về phân tích pháp lý (Legal Analysis):

Phân tích điều khoản hợp đồng này. Tập trung vào nghĩa vụ, trách nhiệm pháp lý và điều kiện chấm dứt. So sánh từng yếu tố với thông lệ ngành tiêu chuẩn.

4. Sửa lỗi và quay lui (Error Correction and Backtracking)

  • Khuyến khích tự sửa lỗi (Incentivize Self-Correction): Hướng dẫn mô hình xác định và sửa các lỗi tiềm ẩn trong lý luận của nó. Đây là một khả năng tiềm ẩn đáng kể được phát hiện trong các mô hình cơ sở và prompt có thể khai thác khả năng này.

Ví dụ:

Nếu bất kỳ bước nào chứa đựng sự không nhất quán, hãy quay lại (backtrack) và đề xuất các phương pháp thay thế.

5. Chiến lược prompt kết hợp (Hybrid Prompting Strategies)

  • Kết hợp CoT với các kỹ thuật khác: Sử dụng kết hợp với Retrieval-Augmented Generation (RAG) để tăng cường nền tảng thực tế hoặc zero-shot CoT cho các tác vụ mới. RAG đặc biệt có lợi cho Long CoT khi cần thiết phải truy cập và tích hợp thông tin bên ngoài trong suốt quá trình lý luận đa bước.

Ví dụ:

Sử dụng [tài liệu được cung cấp], phác thảo các bước để định cấu hình [tính năng phần mềm]. Trích dẫn các phần liên quan trong mỗi bước.

6. Chiến lược tối ưu hóa (Optimization Strategies)

  • Kiểm soát độ dài (Length Control): Sử dụng các từ bổ nghĩa như “Giải thích ngắn gọn trong 5-7 bước” để quản lý tính dài dòng và đảm bảo CoT không trở nên dài dòng không cần thiết.

  • Lấy mẫu ngẫu nhiên (Stochastic Sampling): Điều chỉnh các tham số (ví dụ: temperature) để khám phá các đường dẫn lý luận đa dạng trước khi hội tụ. Điều này có thể giúp khám phá các giải pháp sáng tạo hơn trong Long CoT.

Nguyên tắc nâng cao: Khuyến khích sửa lỗi (Error Correction Incentives) và giàn giáo theo lĩnh vực cụ thể (Domain-Specific Scaffolding)

Khuyến khích sửa lỗi (Error Correction Incentives)

Hướng dẫn mô hình tự xác định lỗi sai:

Nếu bất kỳ bước nào chứa đựng sự không nhất quán, hãy quay lại (backtrack) và đề xuất các phương pháp thay thế.

Ví dụ:

Giải phương trình 3x + 5 = 20. Sau mỗi bước, hãy kiểm tra xem phép toán có phù hợp với các quy tắc đại số hay không.

Giàn giáo theo lĩnh vực cụ thể (Domain-Specific Scaffolding)

Đối với các nhiệm vụ STEM:

1. Parse problem constraints 2. Identify applicable theorems/formulas 3. Execute calculations 4. Validate against edge cases

Đối với Viết sáng tạo (Creative Writing): “Phát triển động cơ của nhân vật chính trong ba giai đoạn: childhood influences, pivotal life events, và current goals.”

Đánh giá và tinh chỉnh (Evaluation and Refinement)

Kiểm tra tính hợp lệ (Validity Checks):

Sau khi đưa ra giải pháp, hãy liệt kê ba sai sót tiềm ẩn trong lý luận này.

Phân tích so sánh (Comparative Analysis):

Tạo hai phương pháp tiếp cận riêng biệt cho vấn đề này, sau đó đánh giá phương pháp nào hiệu quả hơn.

Ví dụ thực tế

Prompt:

`Lập kế hoạch hệ thống giao thông đô thị bền vững cho một thành phố 2 triệu dân. Cơ cấu phản hồi của bạn như sau:

  1. Đánh giá nhu cầu (commuter patterns, existing infrastructure)
  2. Lựa chọn công nghệ (ưu tiên emissions reduction)
  3. Giai đoạn thực hiện
  4. Phân tích chi phí-lợi ích (Cost-benefit analysis)
    Bao gồm các điểm quay lui (backtracking points) nơi các giả định có thể thất bại.`

Kết

Những nguyên tắc này giúp tận dụng khả năng của LLM để lý luận có cấu trúc, nâng cao hiệu suất của chúng trong các tác vụ phức tạp bằng cách khuyến khích các quy trình giải quyết vấn đề chi tiết, từng bước. Long CoT là chìa khóa để mở khóa khả năng lý luận mạnh mẽ của LLM. Bằng cách áp dụng các nguyên tắc này, bạn có thể tạo ra các prompt Long CoT hiệu quả, cho phép LLM giải quyết các vấn đề phức tạp một cách thông minh và đáng tin cậy hơn.

Bài của facebook Frank T. Bergmann (Group Bình dân học AI)

3 Lượt thích

Trong kỷ nguyên AI này, ai cũng nói đến ChatGPT, Deepseek, Gimini… mà đằng sau nó thực sự là LLM (Large Language Model)

Để giao tiếp với máy tính, chúng ta đã trải qua các thời kỳ diễn ra trong vòng vài chục năm:

  • Thời kỳ: Ra lệnh bằng những câu lệnh kỹ thuật như command của Dos

  • Thời kỳ: Khi có giao diện người dùng, người ta giao tiếp với máy đơn giản hơn chỉ với chuột và bàn phím trên macintos, win3.1

  • Thời kỳ: Của cảm ứng, sinh trắc học trên mobile

  • Nhưng giờ đây ta thậm chí giao tiếp và ra lệnh cho máy kể cả bắt nó lập trình bằng chính ngôn ngữ của con người chứ không cần thông qua các ngôn ngữ lập trình.

Đó là thành tựu của công nghệ giúp xoá nhoà khoảng cách giao tiếp giữa người-máy, nhưng đi kèm với nó là sự trả giá, cả về năng lượng lẫn tâm trí.

Nói tiếp đến AI hay cụ thể là LLM.

LLM là trình tạo văn bản dự đoán sinh từ tiếp theo. Nhưng đừng để khả năng ấn tượng của LLM khiến ta nghĩ rằng chúng hiểu được trải nghiệm của con người hoặc có khả năng suy luận logic, nó thuần là một mô hình với hàng nghìn tỷ tham số được học trên lượng dữ liệu số hoá, nó đã dùng gần như cạn kiệt lượng tri thức nhân loại tạo ra, và giờ đây chính nó đang tiếp tục tự tạo ra các dữ liệu của chính nó. Cách nó tương tác không theo cách mà tâm trí hay não bộ con người hoạt động. LLM được thiết kế để tạo ra những câu trả lời hợp lý và trình bày chúng theo giọng điệu của những nhà thông thái.

Tuy nhiên, điều đang sợ là chúng thường bịa ra những điều không đúng sự thật nếu chúng không có dữ liệu đào tạo.

Nhà khoa học AI đặt cho nó một cái tên thật kêu khi nó bịa ra những điều sai trái là “ảo giác”

Trong y học tâm thần, thuật ngữ “ảo giác” ám chỉ trải nghiệm về nhận thức sai lầm hoặc gây hiểu lầm. LLM không phải là con người có trải nghiệm hoặc nhận thức. Hơn nữa, ảo giác là một bệnh lý. Đó là điều xảy ra khi hệ thống không hoạt động bình thường.

Khi một LLM bịa ra một điều sai trái, thì đó không phải là trục trặc hay nhầm lẫn gì cả. Máy móc đang làm chính xác những gì nó được thiết kế: đoán chữ và và tự tin để sinh ra thông tin đó.

Khi các LLM làm sai điều gì đó, chúng không bị ảo giác. Chúng đang đang bịa đặt.

LLM tạo ra tin sai, hoặc “ảo giác”, một cách tràn lan—nhưng chúng ta có rất ít khả năng giải thích tại sao chúng làm như vậy, chứ đừng nói đến cách chúng giải quyết những điều sai trái cụ thể mà chúng tạo ra . Việc loại bỏ hay sửa chữa những hành vi này có thể là điều hoàn toàn bất khả thi khi mô hình và dữ liệu trở nên quá lớn.

Chúng ta khó hay không thể debug/fix bug theo cùng cách chúng ta debug một chương trình phần mềm thông thường.

Người làm công nghệ AI hứa rằng các hệ thống này sẽ tốt hơn theo thời gian. Nhưng sẽ rất khó để khiến các LLM dừng bị ảo giác và đưa ra thông tin sai lệch. Những cái bẫy như vậy rất nguy hiểm.

Thậm chí còn khó khăn hơn để sửa chữa khi mọi thứ đã sai.

Hậu quả của các thông tin sai trái này nguy hiểm đến nổi có thể trả giá bằng cả tính mạng, chứ chưa nói về một thế hệ trẻ con sống dựa trên thông tin mà nó cung cấp. Đã có người nguy kịch khi hỏi ChatGPT về một loại nấm có ăn được không, chúng tự tin trả lời là có, và người ăn vào đã trúng nấm độc.

Và con người chúng ta, những con người dễ tin bởi được tạo hoá dựng nên không những có lý trí từ não bộ mà còn cả cảm xúc từ con tim, thường tin vào điều đó đặc biệt là các lĩnh vực mà chúng ta đang mù tịt

Chúng ta càng biết ít về chủ đề hiện tại, chúng ta càng có nhiều khả năng đánh giá một LLM là đáng tin cậy.

Gần đây, nhiều người hô hào đưa AI vào tiểu học, tôi chưa hiểu phạm vi hay cách thức triển khai, nhưng tôi nghĩ nó sẽ Xấu nhiều hơn là Tốt.

Trẻ con cần học viết trên chính suy nghĩ và đôi tay của chúng khi bước vào môi trường giáo dục ở tuổi thơ.

Viết là một hoạt động có tính sáng tạo. Chúng ta viết để diễn đạt những gì chúng ta nghĩ.

Khi chúng ta viết, chúng ta mài giũa ý tưởng, tinh chỉnh suy nghĩ và tham gia vào một hoạt động sáng tạo mang lại những hiểu biết mới khi viết.

Nếu chúng ta chuyển giao nhiệm vụ viết cho AI, chúng ta sẽ mất cơ hội suy nghĩ, với trẻ con điều đó rất tệ.

Khi chúng ta tham gia vào hành động đọc, chúng ta không chỉ xử lý các từ theo thứ tự tuyến tính; chúng ta đang suy nghĩ và tổng hợp cùng một lúc, đó là điều đặc biệt của tâm trí và não bộ. Tóm tắt bằng AI tước đi cơ hội đó của chúng ta, nhất là con trẻ.

Con trẻ cần tình yêu và kết nối với chính cha mẹ/ thầy cô chứ không phải AI, khi mà tâm hồn của chúng như một tờ giấy trắng.

Cre: Phan Thanh Gian

1 Lượt thích

Nên đọc thêm link này Chain of Thought Prompting Guide để hiểu thêm chủ đề trên hơn nữa

2 Lượt thích