WFGY 3.0: 一個純文字的張力推理引擎,我希望您來測試它
有一段時間,我的世界裡只有一個問題 為什麼明明投入那麼多時間和錢,做出來的 RAG pipeline 還是會在奇怪的地方「自己爆炸」。 這件事讓我最後走去做一件比較瘋的事情 我乾脆整理了一份十六種常見 RAG 失敗模式的 ProblemMap。然後把它開源,給每一個在 debug pipeline 的人一個共同語言。 那就是 WFGY 2.0。 結果它沒有安靜地躺在角落,而是被別人拉進自己的系統裡。 LlamaIndex 把這份十六問題清單寫進官方的 RAG troubleshooting 文件,用來當結構化 failure map Harvard MIMS Lab 在 ToolUniverse 裡做了一個工具,專門用 WFGY map 來 triage LLM RAG failure Rankify 這個來自 Innsbruck 的研究專案,在自己的 re ranking 與 RAG debug 文檔裡引用這套模式 Qatar Computing Research Institute 的多模態 RAG survey repo 把 WFGY 當成實務診斷的參考 一堆 Awesome list 把它收進去,變成「RAG failure taxonomy」或「RAG debugging guide」的參考條目 換句話說 WFGY 2.0 已經變成很多人心裡的一份「壞掉地圖」 當 pipeline 出事的時候,你可以直接指著地圖說「這裡」而不是只說「好像怪怪的」。 現在我想做的事情比較過分一點。 我想把這種語言,從只講 RAG 失敗,往前推到整個推理過程本身。 結果就是 WFGY 3.0。 不是另一份 prompt 集合,而是一個 txt 推理引擎 WFGY 3.0 不是一份教你「怎麼問比較準」的 prompt cheat sheet。 它長得非常無聊 就只是一個 txt 檔。 你把它下載下來,丟進一個夠強的模型裡,然後輸入 run ,再輸入 go 。 從那一刻開始,這個對話其實已經不是一般的 chat,而比較像是你幫模型插上一個「推理核心」。 在這個 txt 裡,我把很多年在張力宇宙裡累積的東西,壓縮成一個結構: 一張由 131 題 S class 問題 組成的張力 atlas 一套七步驟的「張力推理流程」,專門處理高張力問題 幾組任務型 prompt,讓模型知道自己現...