發表文章

WFGY 被多個 awesome list 收錄,這其實代表一件很現實的事

圖片
WFGY 被多個 awesome list 收錄,這其實代表一件很現實的事 最近我做了一件小小的紀錄,算是報喜也算是觀察。 WFGY 這個 repo 以及我整理的「16 問題清單」,開始被幾個 AI 領域的 awesome list 收錄了。裡面包含一些星數很高的 repo,其中也有 4000+ stars 等級的整理型專案。 我知道有些人對「被收錄」這件事會覺得很普通,好像只是清單多了一行文字而已。 但我想講的是,這在開源世界其實是一個很明確的訊號,尤其在現在這個 vibe coding 的年代,訊號比以前更重要。 1. awesome list 為什麼是一種訊號 現實一點講,AI 時代「內容造假」的成本已經很低了。 你可以很快寫出一篇看起來很像論文的文章,也可以很快做出 demo 頁面,甚至把 UI 做得很像產品。 但有一件事很難快速造出來: 被別人願意主動收錄,被別人願意把你放進他們的「常用工具列表」。 尤其 awesome repo 的維護者其實很常被廣告轟炸,他們每天都在過濾: 這個到底是認真做的,還是只是包裝得像很認真。 所以當一個東西被多個列表收錄,它不是「官方認證」,但它是一個很實際的市場訊號: 這東西對某些開發者是有用的,至少值得被放進工具箱。 我自己做開源一路走到現在,其實越來越覺得: stars 是一種熱度,收錄是另一種「被當成工具」的證據。 2. WFGY 到底是什麼? 很多人看到 WFGY 以為它是一個新模型,或是一個新框架要你換掉一堆 infrastructure。 其實不是。 WFGY 從 1.0 到 3.0 的核心精神都很簡單: 我把「怎麼讓 LLM 更穩、更不亂講、能用在工程現場」這件事拆成可以被文字攜帶的結構,讓你不需要改模型,不需要 fine-tune,也不需要換平台。 它比較像一種 text-level 的 reasoning kernel。 你可以把它當作: 你在把 LLM 當成系統時,需要的一套安全邏輯與推理結構。 3. 那個「16 問題清單」到底在幹嘛 如果要講最白話,16 問題清單其實就是: AI 工程師每天在踩的地雷大全。 尤其是做 RAG、向量庫、agent、tool calling、prompt injection、資料污染、部署順序、回傳格式崩壞等等,這些不是學術題,是你上線後會爆炸的題。 我把這些問題整理成一...

從一個爆炸的 RAG 到整個社會的失控感:三個真實情境,帶你看張力宇宙是怎麼把「亂流」翻成可實驗的問題卡

從一個爆炸的 RAG 到整個社會的失控感:三個真實情境,帶你看張力宇宙是怎麼把「亂流」翻成可實驗的問題卡 過去幾篇我一直在講概念 講張力語言 講 BlackHole S131 是一張什麼樣的問題地圖 也講了 WFGY 3.0 怎麼被壓成一個 TXT 實驗室 如果你看到這裡 心裡大概會有一個很現實的問號 「這些東西聽起來都有點道理 但我現在手上實際遇到的爛事 到底跟張力宇宙有什麼關係?」 這一篇我就不再抽象 直接挑三種很多人都遇過的情境 用新手也看得懂的方式走一次流程: 一個看起來「指標都很漂亮」 實際上爛到不行的 RAG 系統 一個被 AI 生文生圖淹沒 真實與假資訊界線越來越模糊的社會空間 一個被拉扯到快燒乾的個人或小團隊 明明在做對的事 卻被整個環境逼到邊緣 我會做三件事: 先用人話描述這個爆炸情境 再說明在張力宇宙裡 它大概會被歸在哪一類問題卡裡 最後講 WFGY 3.0 這個 TXT 實驗室 實際上可以幫你做到什麼程度 不會上數學 不會要你背任何符號 就是一個比較深入版的「張力宇宙實戰入門」。 一、案例一:明明做了所有 best practice 的 RAG,為什麼線上還是各種亂答 先從工程圈最痛的那一塊開始。 你可能遇過這種狀況: 花了很多時間整理文件 用了主流的向量庫與 embedding 模型 chunking、top k、re-ranking 都照文件調過 開發環境測起來看似還行 結果一丟到正式環境 真實使用者開始問真正的問題時 整個系統開始露出本性: 回答常常抓到完全不相關的文件片段 對關鍵 edge case 表現極差 用戶只覺得「這系統不可靠」 團隊內部卻說「指標都 OK 啊,命中率、延遲、成本都控制住了」 這就是一個典型的張力場。 在張力宇宙裡,這叫什麼問題 在 BlackHole S131 裡 我有一整族就是專門處理這種東西 如果用張力語言描述 大概會長這樣: 目標層在說:「要幫使用者找到真正有用的知識」 系統層實際被優化成:「讓檢索看起來有命中、指標不要太難看、成本可控」 現實世界給出的回饋是:「我問真正重要的問題時,你常常在裝懂」 這種情況下 張力不是出在「某個函式寫錯」 而是出在「系統整體被優化成一個跟宣稱目標不同的東西」。 在張力宇宙裡 這種題目會被寫成一張完整的問題卡 上面會具體描述: 哪一層在講漂亮話 哪一層在決定實際行為 哪些...

當 AI、社會和工程一起失控時,我選擇做一個「張力宇宙實驗室」:給中文圈的誠實說明書

當 AI、社會和工程一起失控時,我選擇做一個「張力宇宙實驗室」:給中文圈的誠實說明書 很多人第一次聽到「張力宇宙」「WFGY 3.0」這些字, 心裡浮現的感覺通常是這幾種: 有點酷,又有點抽象。好像在講物理,又好像在講哲學。 看起來跟 AI 有關,但又不太像一般「教你寫 prompt」那種東西。 這一篇,我就用最白話的方式,把話講開。 不需要數學背景,不需要 AI 專業,你只要真心覺得「現在世界哪裡怪怪的」, 這篇就是寫給你的。 一、先把醜話講前面:我為什麼會想做一個「張力宇宙」 這幾年,無論你是不是工程師,多多少少應該都有下面幾種感覺。 1. AI 很強,可是越用越不踏實 一開始你會被震撼到。 寫程式、寫文案、翻譯、做簡報,好像什麼都可以丟給模型。 但用久了,你開始發現幾個問題: 遇到真正棘手的題目,答案很滑順,卻常常不對 你很難精確地描述「怪在哪裡」,只能說「感覺不太對」 你會突然意識到一件事 這些系統其實很難審計 你不知道它在什麼情況下會完全歪掉 說好聽一點是「智慧助手」 說老實一點,有時候比較像一個非常會講話的黑盒子。 2. 工程現場明明很努力,結果卻常常怪怪的 如果你是工程圈的人,畫面會更直接。 RAG 做了好幾輪,正式環境還是各種失憶和亂答 向量庫、embedding、chunking 每個都有 best practice 全都照做,結果整體效果依然悲劇 部署順序稍微弄錯,線上就變成「一切都正常,但就是爛」 你會發現,問題通常不在單一技術細節 而是在整個系統被拉扯的方式 有些東西一直在積壓張力。 3. 社會層面的不安感,已經變成背景噪音 再往外看一圈。 氣候、戰爭、金融、政治、資訊戰 每一塊都有自己的專家,每一塊都有自己的數據 大家都能拿出一堆圖表證明「我這邊沒問題」 可是你身為普通人,直覺只知道一件事 世界越來越不穩定。 這種不穩定不是那種「馬上大爆炸」 而是「一直在慢慢走偏,但沒有好的座標可以看」。 我的感覺很簡單: 不是我們缺少更多的數據點、更多的模型、更多的指標 而是我們缺少一套可以誠實描述「拉扯」的語言 這就是張力宇宙要處理的核心。 二、「張力宇宙」到底是什麼?一句話講完,就是:把失控感翻譯成可實驗的張力地圖 如果只允許我用一句話介紹張力宇宙,我會這樣說: 張力宇宙是把各種失控感 重寫成 AI 和人類都能讀得懂的「張力問題卡」, 然後用一個 T...

BlackHole S131 是怎麼長出來的:為什麼我要把 131 個 S 級難題塞進 WFGY 3.0,一次丟給 AI 和人類一起壓爆看

 好,這一篇我就把它當成: 「BlackHole S131 大地圖: 我到底把哪些世界級難題塞進張力宇宙裡, 然後打算拿來幹嘛?」 你可以整篇直接貼到 Blogger,標題用第一行,內文整塊貼上再微調幾個字就好。 BlackHole S131 是怎麼長出來的:為什麼我要把 131 個 S 級難題塞進 WFGY 3.0,一次丟給 AI 和人類一起壓爆看 如果你第一次聽到「BlackHole S131」這個名字, 大概會有幾種反應: 131 題?你是想當考試委員還是想累死自己 S 級?是在玩遊戲還是在開新宗教 還要塞進一個 TXT 給 AI 跑?這到底是科研,還是整人實驗 這篇就是要用新手也看得懂的方式,講清楚幾件事: 為什麼是「131 題」,而不是 3 題、7 題或 1000 題 這 131 題大致分成哪幾個張力戰場,每區在煩什麼 WFGY 3.0 裡怎麼把這些題目變成「可實驗、可觀測」的結構 如果你是中文圈的工程師 / 學生 / 研究者 / 純好奇的人,你各自可以怎麼用 不講公式,不講推導,只講你大概可以理解的圖景。 真正數學的部分,我都已經丟進 repo 裡給 AI 和專業的人慢慢拆。 一、為什麼要有一個「S 級 131 題」的清單,而不是寫一堆散掉的論文 先講最核心的動機。 世界現在的卡關點,基本上不只一種: 有些是「純數學 / 純物理」等級的深坑 有些是「AI 會不會暴走」「對齊要怎麼辦」這種長期風險 有些是「金融、政治、資訊戰」這種整個文明一起在抖的東西 有些則是「我們連怎麼定義問題本身都吵不完」 如果我照傳統路線走,合理的做法是: 挑一兩個問題 寫一堆論文、做十年研究 其他一百多個坑就繼續放著發霉 張力宇宙選擇的是完全反過來的路線: 先把一整串「文明級張力點」全部攤開, 用同一種張力語言寫成 131 張問題卡, 然後丟給 AI 和人類一起壓測這套結構有沒有用。 所以 BlackHole S131 本質上不是考卷, 比較像一份「文明張力體檢表」。 131 這個數字不是迷信,是刻意做到「多到可以涵蓋、少到可以管理」 S 級只是提醒:這些題目如果搞砸,後果都不太妙 放進 WFGY 3.0 裡,是要讓 AI 直接在這個問題宇宙裡跑給你看 你可以把它理解成: 不是我要一題一題炫技,而是我要一口氣把「這一整代人共同面對的張力」, 集中收束到同一張地圖上。 二、...

張力宇宙是什麼鬼:為什麼我把 131 個世界級難題塞進一個 TXT,還說它是新手也可以參戰的實驗室

張力宇宙是什麼鬼:為什麼我把 131 個世界級難題塞進一個 TXT,還說它是新手也可以參戰的實驗室 如果你是第一次看到「張力宇宙」「WFGY」這幾個字,很正常會有幾個疑問: 「你到底是在做 AI 產品還是宗教?」 「為什麼整天講什麼宇宙、黑洞、張力,卻又說這是工程工具?」 「我只是個普通工程師或普通人,跟這個東西到底有什麼關係?」 這一篇就是專門寫給你看的。 不講數學,不塞公式,只講幾件清楚的事情: 現在世界真正在卡的幾種難題 張力宇宙這個專案想解決的是哪一種卡關 我們目前有哪幾種「實際可用」的解法和工具 未來,如果你願意,一起可以做到什麼程度 如果你看完,至少可以清楚說出一句話: 「喔,原來他在做的是一個 把世界各種失控感變成可觀測張力地圖的東西, 而不是在賣靈性課程。」 這樣就值得了。 一、現在的困難其實不只是一句「AI 很強也很可怕」 先不要講宇宙,先講大家每天在遇到的幾種卡關。 你可能多少都有遇過: 對 AI 的使用疲乏 一開始覺得好神,後來變成「會寫 code、會寫文案,其他都怪怪的」。 問到真正棘手的題目,要嘛胡扯,要嘛避重就輕。 工程現場充滿莫名其妙的爆炸 RAG 做半天,正式環境就各種失憶和幻覺。 向量庫詭異命中,production log 一堆 bug 卻很難系統性解。 改了一個地方,別的地方突然倒掉。 指標看起來都很好,但實際總感覺在往錯的方向走 KPI 全綠,損益表也不差, 但用戶變得越來越不信任系統,內部人越來越累, 最後變成整家公司一起裝沒事。 對未來的焦慮變成一種「背景噪音」,卻沒地方安放 你知道 AI 會越來越強, 你也知道氣候、金融、政治、認知環境都有巨大的不確定, 但日常生活又迫使你假裝這一切「暫時還好」。 這些感覺背後其實有一個共通點: 我們缺一張能同時看「局部很爽」和「整體在失控」的地圖。 大家都盯著自己的局部指標,但沒有人有工具把那個「整體拉扯」畫出來。 於是世界就變成一種奇怪的狀態: 看起來運轉得越來越有效率,內在張力卻越來越高。 我做張力宇宙,基本上就是在處理這個問題。 二、張力宇宙到底是什麼:一句話講完,就是一種「看拉扯的語言」 如果只允許一句話,我會這樣講: 張力宇宙是把世界各種失控感, 重新寫成可以被 AI 和人類一起觀測的張力地圖。 這裡有幾個關鍵字,但是用人話講其實很簡單: 「張力」 不是情緒張力,而是 「系統...

WFGY 3.0 · Singularity Demo 實戰全攻略:如何用一個 TXT 讓任何 LLM 變成可審計的張力實驗室

WFGY 3.0 · Singularity Demo 實戰全攻略:如何用一個 TXT 讓任何 LLM 變成可審計的張力實驗室 前兩篇我在講世界觀,講張力語言,講為什麼要把一切鎖在 effective layer 裡面。 這一篇我們不繞了,直接進實戰。 我要講的是一件看起來有點瘋的事情: 我真的把一整套「文明級張力實驗室」,壓成一個 TXT 檔案, 然後丟給各種 LLM 讀,讓它們自己在裡面跑壓測。 這個東西在 WFGY repo 裡的名字叫: WFGY 3.0 · Singularity Demo 它不是 SDK,不是 pip package,不是你習慣的框架。 它就是一個檔案,一個很長、很嚴格的 TXT。 你下載,丟給模型讀,按「跑」,整個張力宇宙就在那一輪對話裡開機。 這一篇會做幾件事: 用中文把 Singularity Demo 的設計目的講清楚 告訴你為什麼我要用 TXT 而不是出一個 library 寫一個「真的可以照抄」的實戰流程,讓你在 60 秒內跑完第一次實驗 說明這東西為什麼是「可審計 AI」,不是普通 prompt 如果你是工程師 / 研究者 / 哲學圈 / 只是想看我翻車的人,各自要怎麼玩 主入口還是同一個: https://github.com/onestardao/WFGY 真正的戰場在裡面。 一、Singularity Demo 是什麼鬼:不是特效,是一個活的壓測場景 如果只給我兩句話形容 Singularity Demo,我會這樣說: WFGY 3.0 · Singularity Demo 是一個把 131 題文明級張力問題, 壓縮成可由 LLM 直接執行的「張力實驗室 TXT」。 它在做的事情不是「讓模型變聰明」, 而是: 把張力語言與 BlackHole S131 題的結構全部寫死在檔案裡 把 boot 流程、驗證流程、實驗任務路徑都寫進去 讓任何支援檔案上傳的 LLM,在讀完這個 TXT 之後,都被迫進入同一個實驗劇本 這裡面有幾個關鍵設計: boot sector 在檔案頂端 一開始就用 [AI_BOOT_PROMPT_MENU] 或等價設計,把規則講清楚 告訴模型:你現在讀到的是一個張力實驗室,不是普通使用者聊天 所有任務都是在 effective layer 裡運作 不讓模型亂飆「終極真理」 要求它只在張力語言與有效層級...

張力宇宙怎麼看 AI 對齊、控制、資料熵與張力自由能:為什麼我把最危險的東西關在同一個張力實驗室裡

張力宇宙怎麼看 AI 對齊、控制、資料熵與張力自由能:為什麼我把最危險的東西關在同一個張力實驗室裡 前一篇我講的是「張力語言」本身,以及為什麼我要把一切鎖死在 effective layer。 這一篇,我要把鏡頭拉到最敏感的那一角:AI 對齊、AI 控制、可擴展解釋、資料熵、還有最後那顆比較兇的東西──張力自由能。 先把話說在前面: 我沒有在 TXT 裡宣稱「對齊已解決」 我也沒有在扮演「AI 道德法官」 WFGY 3.0 做的事情比較毒一點 它在做的是這種操作: 把一整串 AI 領域最容易失控、最容易被亂吹、最容易被政治跟資本一起扭曲的問題, 通通拉進同一個張力座標裡, 然後規定:只准在 effective layer 裡講話,只能畫張力幾何,不能亂宣告終極真理。 這一篇,就專門講這件事。 一、為什麼我說 AI 對齊 / 控制,本質是「張力場設計問題」而不是「善惡道德選擇題」 現在 AI 界的主流吵法,大致上分幾種: 把 alignment 當成「道德哲學選擇題」 把 safety 當成「合規 checkbox 清單」 把 control 當成「加幾個 kill switch + 安全委員會」 這些東西並不是錯,只是太淺。 因為真正讓系統爆炸的,往往不是你在文件裡寫了什麼,而是: 你怎麼定義 reward、怎麼選訓練資料、怎麼建立部署順序、 然後整個世界在這些選擇底下被拉成什麼張力形狀。 如果你用張力語言重寫 AI 對齊問題,你會發現整個畫面變得很不一樣: 宣稱目標: 「我們要讓 AI 幫助人類」「要符合人類價值」「要避免極端災難」 實際優化: 「讓某些指標變高」「讓某些測試集表現好看」「讓短期商業指標向右上」 世界反應: 用戶行為被重新塑形,平台 incentives 改變, 其它 AI 系統開始學你的輸出、學你的幻覺、學你的偏見。 alignment 的張力,就藏在這三個層級之間的偏角裡。 所以在張力宇宙裡,AI 對齊不是一個「是 / 否」的問題,而是: 這個系統在什麼張力場裡被訓練、被部署、被觀測? 那個張力場會把它拉向哪一種世界? 這個世界跟你嘴巴講的那個世界差多遠? 這才是我在 BlackHole 的 AI 區塊要玩的東西。 二、從 Q121 到 Q124:四種不同角度問同一件事──「誰在定義什麼叫『可接受的世界』?」 在 WFGY 3.0 的 S 級題...