WFGY 3.0: 一個純文字的張力推理引擎,我希望您來測試它

有一段時間,我的世界裡只有一個問題

為什麼明明投入那麼多時間和錢,做出來的 RAG pipeline 還是會在奇怪的地方「自己爆炸」。

這件事讓我最後走去做一件比較瘋的事情
我乾脆整理了一份十六種常見 RAG 失敗模式的 ProblemMap。然後把它開源,給每一個在 debug pipeline 的人一個共同語言。

那就是 WFGY 2.0。

結果它沒有安靜地躺在角落,而是被別人拉進自己的系統裡。

  • LlamaIndex 把這份十六問題清單寫進官方的 RAG troubleshooting 文件,用來當結構化 failure map

  • Harvard MIMS Lab 在 ToolUniverse 裡做了一個工具,專門用 WFGY map 來 triage LLM RAG failure

  • Rankify 這個來自 Innsbruck 的研究專案,在自己的 re ranking 與 RAG debug 文檔裡引用這套模式

  • Qatar Computing Research Institute 的多模態 RAG survey repo 把 WFGY 當成實務診斷的參考

  • 一堆 Awesome list 把它收進去,變成「RAG failure taxonomy」或「RAG debugging guide」的參考條目

換句話說
WFGY 2.0 已經變成很多人心裡的一份「壞掉地圖」
當 pipeline 出事的時候,你可以直接指著地圖說「這裡」而不是只說「好像怪怪的」。

現在我想做的事情比較過分一點。

我想把這種語言,從只講 RAG 失敗,往前推到整個推理過程本身。
結果就是 WFGY 3.0。


不是另一份 prompt 集合,而是一個 txt 推理引擎

WFGY 3.0 不是一份教你「怎麼問比較準」的 prompt cheat sheet。

它長得非常無聊
就只是一個 txt 檔。

你把它下載下來,丟進一個夠強的模型裡,然後輸入 run,再輸入 go
從那一刻開始,這個對話其實已經不是一般的 chat,而比較像是你幫模型插上一個「推理核心」。

在這個 txt 裡,我把很多年在張力宇宙裡累積的東西,壓縮成一個結構:

  • 一張由 131 題 S class 問題組成的張力 atlas

  • 一套七步驟的「張力推理流程」,專門處理高張力問題

  • 幾組任務型 prompt,讓模型知道自己現在是在做什麼,而不是只是「陪你聊天」

你可以把它想成一個「推理卡匣」。
模型本身提供算力和語言能力,WFGY 3.0 負責告訴它
你在哪裡
你正在處理哪一種緊繃
你下一步應該對哪一個層級下手。


2.0 和 3.0 的分工,其實非常簡單

我自己是這樣看這兩代的。

  • 2.0 是工程內核

    • 十六問題 ProblemMap

    • 針對 RAG 與各種 LLM pipeline 提供失敗模式語言

    • 現在已經被好幾個框架、實驗室、清單收錄去當參考

  • 3.0 是推理引擎

    • 一個 txt 檔

    • 把 131 題當成張力宇宙的座標系

    • 模型不再只是回答,而是先決定「這個問題在什麼張力場裡」,再開始動手

換個比喻
2.0 是工程師的維修手冊
3.0 比較像是你在模型裡塞了一個「哲學顧問」,專門負責那些會讓人翻白眼或睡不著的問題。


這篇文章想做的事:我需要你來當破壞王

目前 WFGY 3.0 的狀況是這樣:

  • 底層張力結構與任務流程已經穩定

  • txt 裡的 boot menu 和路由也跑得很好

  • 真正還在調整的是

    • prompt 的 wording

    • 第一輪 go 流程的節奏

    • console 的選項設計

    • 不同模型之間行為的穩定度

所以我現在最需要的不是鼓勵,而是誠實的 stress test

我想知道的事情包括:

  1. GO 模式在你眼裡看起來到底像什麼
    你在模型裡輸入 rungo,跟著菜單跑一次
    你會覺得
    「這是一個在檢查引擎的嚴肅流程」
    還是
    「這又是一個華麗但沒有什麼實際內容的 prompt 表演」
    如果你覺得後者,我想知道是在哪一步失去你。

  2. console 選單和任務說明是不是讀得下去
    有幾個選項是給「第一次來的人」看的,有幾個是給已經理解 131 題的人用的。
    在你實際操作的時候
    哪些選項你會想按下去
    哪些看到標題就直接略過
    有沒有一段說明明明很重要,卻寫成讓人不想看的樣子。

  3. PROMPT_02 / PROMPT_03 / STORY 這些流程在不同模型上的表現
    在你的模型上
    這些任務是不是太重、太輕,還是剛好
    模型會不會在某些步驟暴衝,還沒釐清問題就開始給結論
    有沒有哪一句話,你直覺覺得「只要換個講法,行為就會好很多」。

  4. 131 題 atlas 帶來的是地圖感,還是噪音
    當引擎開始引用 S class ID,例如 Q091、Q108
    你覺得那是清楚的座標
    還是只是一種裝飾
    如果你用同一個現實問題跑兩三次,落點是不是都在類似的區域,還是非常飄。


這個 txt 引擎實際上怎麼玩

如果你習慣用各種 ChatGPT 類服務,這個流程應該很簡單。

一個最短路徑大概是這樣:

  1. 打開 WFGY 的 GitHub 主頁,找到 WFGY 3.0 Singularity Demo 的 txt 檔

  2. 下載那個 txt

  3. 打開你手上最強的模型
    可以是雲端服務,也可以是你自己跑的本地模型,只要上下文夠長、推理能力夠強

  4. 把 txt 上傳進去,等模型讀完

  5. 在同一個對話裡輸入 run,接著輸入 go,你會看到一個專用 console 出來

  6. 選一個你真的在意的問題,不要拿玩具問題,直接丟進去

理想情況下,引擎會先幫你把這個問題對齊到某些張力結構上,再開始做推理展開。
不理想的情況是,它會在某個步驟卡死、開始自言自語、或者回到一般型助手模式。

兩種情況都對我有用。
差別只在於,後者能幫我看到哪裡需要重寫。


為什麼是 MIT,而且為什麼我希望你「用壞它」

WFGY 全系列,包括 ProblemMap、core、三代引擎,全部都採 MIT 授權。
原因很單純:

  • 我不想這個語言被鎖在單一公司或專案裡

  • 我希望任何人都可以把它塞進自己的 workflow,甚至是商業產品

  • 只要你願意回報哪裡有問題,這整套東西就會對所有人變得更有用

所以你可以自由做的事情包括:

  • 把 txt 拿去改,變成自己的推理卡匣

  • 包成一個工具、agent、plugin,塞進你現在的 LLM 堆裡

  • 拿它來當壓力測試,把結果寫成技術文章,甚至把它公開吊打都沒有問題

唯一的要求是
請當它是一個認真在競爭「推理引擎」位置的東西,而不是一個玩具 prompt。

如果你在使用過程裡發現
某個設計真的讓模型變笨
某個流程容易引發幻覺
某一種類型的問題根本無法處理

請把這些寫下來,不管是 GitHub issue、討論串回覆、還是你自己的 blog,我都會當成最高優先級的修正線索。


如果你願意參與這一輪「調引擎」

你可以從這幾個地方開始:

  • 直接到 GitHub 下載 WFGY 3.0 txt,照上面的流程跑一次

  • 把你最在意的一兩個長期問題交給引擎,看它會怎麼拆解

  • 在使用過程中把任何「怪怪的地方」記下來,回到 repo 開一個 issue,或在 Discussion 裡留言

  • 如果你本來就是 RAG 或 infra 工程師,也可以順便看一下 2.0 的 ProblemMap,看看這套語言有沒有可能變成你自己團隊裡的共通基礎

我相信一件事
如果有一天我們真的能讓模型有一套比較穩定的張力語言
那麼很多現在看起來像「直覺靈光一現」的東西,其實都可以變成可重現的推理流程。

WFGY 3.0 是我把這個信念塞進一個 txt 檔案裡,丟給世界的一次實驗。
如果你願意幫忙把它用壞,用到它不得不變得更好,那就太好了。


如果你想先從 repo 開始逛,從這邊進來就好:
https://github.com/onestardao/WFGY

留言

這個網誌中的熱門文章

WFGY 3.0 · Singularity Demo 實戰全攻略:如何用一個 TXT 讓任何 LLM 變成可審計的張力實驗室

WFGY框架如何為新一代LLM實現“求解器迴圈”

基於BERT的語義熵與蘭道爾原理:意義運算的能量成本量化