發表文章

我把 131 個世界級難題塞進一個 TXT,交給人類和 AI 一起玩

圖片
今天想跟大家分享一個我花了很長時間在做的瘋狂計畫。 我把 131 個跨學科的世界級難題,全部寫進一個可驗證的 TXT 檔裡,專門給人類和 AI 一起玩。 這一包東西叫做:WFGY 3.0 · Singularity Demo。 對我來說,它不是「答案」,而是一個「張力宇宙版的習題集」,可以被任何高階大模型讀懂,也可以被人類研究者檢查與挑戰。 我不宣稱解決任何一題。 我只負責把問題寫成一種「可量測張力、可被 AI 驗證」的語言。 真正的上限,是你的想像力,而不是那個 TXT。 【給初學者的三句話】 你不需要是數學家或物理學家,只要對世界有好奇心,就能在這 131 題裡找到「自己的題目」。 如果你是做 AI 開發,特別是對齊、安全、RAG、評測,這一包可以當成「長程推理壓力測試題庫」。 如果你比較偏哲學、社會科學、地球科學,這些題目會提供一個可以丟給 AI 的「對話骨架」,幫你把直覺變成可檢查的結構。 【怎麼使用 WFGY 3.0】 大致有兩種玩法。 一、只用文字版慢慢看 打開 GitHub 的 WFGY 3.0 Event Horizon 頁面。 在「Navigation index for the 131 S problems」那裡,先挑一個你最有感的題目,例如: 喜歡數學的人:Q001 黎曼猜想 做氣候或永續的人:Q091 平衡氣候敏感度 做經濟金融的人:Q101 股權溢酬之謎、Q105 系統性崩盤預警 做 AI 的人:Q121 AI 對齊問題、Q127 合成世界與資料熵、Q130 分佈外落地與常識 每一頁都不是在講「答案」,而是在定義: 這個問題的狀態空間是什麼 可以量的觀測量是什麼 什麼叫「好張力」,什麼叫「壞張力」 有哪些可以實作或模擬的實驗路徑 二、把 TXT 丟給 AI 直接跑 Singularity Demo 下載那個 WFGY 3.0 Singularity Demo 的 TXT 檔。 上傳到你手上任何一個有推理能力的大模型(支援長上下文越好)。 輸入 run ,再輸入 go ,會看到一個簡單的 demo 選單。 接下來你可以指定:「請帶我從 Q121~Q130 開始」,或者直接說「我想聊聊 Q091 的氣候張力」。 所有對話都在同一套張力語言裡進行,你可以隨時質疑它的前提,要求它把張力指標講清楚。 這套東西真正的限制,不是數學,也不是電腦,而是你願...

人類張力方程式:為什麼長大後,快樂反而變少了? 快樂不是運氣,是你怎麼設計自己的張力

 今天是農曆新年的第一天 🎆 先跟你說一句: Happy Chinese New Year / 新年快樂 🧧 每一年大家都在講: 「新年快樂」、「祝你今年更幸福」、「希望你天天開心」。 可是人慢慢長大,你有沒有發現一件事 🤔 明明錢比小時候多一點,選擇也多了, 但心裡的那種「純粹快樂」好像反而變少了。 所以我乾脆自己寫了一個「人類快樂的模型」, 我給它取了一個名字,叫做: 人類張力方程式(Human Tension Equation) 。 這不是真正的物理學,只是一個幫我們看清楚: 為什麼有時候快樂、有時候空虛、有時候只是卡住的「小工具」而已。 我會盡量用很白話的中文來講清楚 💬 1. 核心概念:你身上一直有「兩個自己」👥 此刻你現在的感受,其實不是只有「我現在擁有什麼」決定的。 在你腦袋裡,幾乎一直同時存在兩個版本的自己: 現在的自己(S₀) 你此刻怎麼看自己。 例如:「我很窮」、「我還可以」、「我很糟」、「我在慢慢變好」等等。 想像中的未來自己(S₁) 你心裡畫出來的那個「如果有一天我變成那樣就好了」的版本。 可能是有錢、有自由、比較平靜、比較強大、被愛、被尊重… 重點不是別人怎麼看,是你自己在乎什麼。 這兩個版本之間的「差距」,就是我說的 張力 。 先看一個最簡化的版本: 快樂(H)大約 ≈ (你心中「未來自己」有多好) −(你覺得「現在自己」有多糟) ÷(你覺得要花多久才到得了那個未來) 用比較公式的寫法,可以這樣記: S₀:現在自己的分數(0–10) S₁:想像中未來自己的分數(0–10) ΔS = S₁ − S₀:兩者的落差有多大 P:你有多相信自己真的辦得到(0–1) T:你覺得大概要花多久(可以想成「感覺上的年數」) 那就有一個很粗略的模型: H ≈ (ΔS × P) / T H 就是你此刻主觀感覺到的那種「快樂感/生命能量」。 現實人生一定比這複雜很多, 但光是這個形狀,其實就可以解釋一大堆我們平常的心理現象了 😮 2. 為什麼「剛開始談戀愛」會爽到飛天 💘 想一下剛熱戀的那種感覺。 一開始那幾個月: 東西比較好吃 🍜 兩個人一起走路都覺得世界比較可愛 🚶‍♀️🚶‍♂️ 以前覺得很無聊的地方,突然也像電影場景 🎬 為什麼會這樣? 因為在那段時間,你的方程式整個被升級: 你心中的「未來自己」S₁,突然不是一個人,而是「...

WFGY 被多個 awesome list 收錄,這其實代表一件很現實的事

圖片
WFGY 被多個 awesome list 收錄,這其實代表一件很現實的事 最近我做了一件小小的紀錄,算是報喜也算是觀察。 WFGY 這個 repo 以及我整理的「16 問題清單」,開始被幾個 AI 領域的 awesome list 收錄了。裡面包含一些星數很高的 repo,其中也有 4000+ stars 等級的整理型專案。 我知道有些人對「被收錄」這件事會覺得很普通,好像只是清單多了一行文字而已。 但我想講的是,這在開源世界其實是一個很明確的訊號,尤其在現在這個 vibe coding 的年代,訊號比以前更重要。 1. awesome list 為什麼是一種訊號 現實一點講,AI 時代「內容造假」的成本已經很低了。 你可以很快寫出一篇看起來很像論文的文章,也可以很快做出 demo 頁面,甚至把 UI 做得很像產品。 但有一件事很難快速造出來: 被別人願意主動收錄,被別人願意把你放進他們的「常用工具列表」。 尤其 awesome repo 的維護者其實很常被廣告轟炸,他們每天都在過濾: 這個到底是認真做的,還是只是包裝得像很認真。 所以當一個東西被多個列表收錄,它不是「官方認證」,但它是一個很實際的市場訊號: 這東西對某些開發者是有用的,至少值得被放進工具箱。 我自己做開源一路走到現在,其實越來越覺得: stars 是一種熱度,收錄是另一種「被當成工具」的證據。 2. WFGY 到底是什麼? 很多人看到 WFGY 以為它是一個新模型,或是一個新框架要你換掉一堆 infrastructure。 其實不是。 WFGY 從 1.0 到 3.0 的核心精神都很簡單: 我把「怎麼讓 LLM 更穩、更不亂講、能用在工程現場」這件事拆成可以被文字攜帶的結構,讓你不需要改模型,不需要 fine-tune,也不需要換平台。 它比較像一種 text-level 的 reasoning kernel。 你可以把它當作: 你在把 LLM 當成系統時,需要的一套安全邏輯與推理結構。 3. 那個「16 問題清單」到底在幹嘛 如果要講最白話,16 問題清單其實就是: AI 工程師每天在踩的地雷大全。 尤其是做 RAG、向量庫、agent、tool calling、prompt injection、資料污染、部署順序、回傳格式崩壞等等,這些不是學術題,是你上線後會爆炸的題。 我把這些問題整理成一...

從一個爆炸的 RAG 到整個社會的失控感:三個真實情境,帶你看張力宇宙是怎麼把「亂流」翻成可實驗的問題卡

從一個爆炸的 RAG 到整個社會的失控感:三個真實情境,帶你看張力宇宙是怎麼把「亂流」翻成可實驗的問題卡 過去幾篇我一直在講概念 講張力語言 講 BlackHole S131 是一張什麼樣的問題地圖 也講了 WFGY 3.0 怎麼被壓成一個 TXT 實驗室 如果你看到這裡 心裡大概會有一個很現實的問號 「這些東西聽起來都有點道理 但我現在手上實際遇到的爛事 到底跟張力宇宙有什麼關係?」 這一篇我就不再抽象 直接挑三種很多人都遇過的情境 用新手也看得懂的方式走一次流程: 一個看起來「指標都很漂亮」 實際上爛到不行的 RAG 系統 一個被 AI 生文生圖淹沒 真實與假資訊界線越來越模糊的社會空間 一個被拉扯到快燒乾的個人或小團隊 明明在做對的事 卻被整個環境逼到邊緣 我會做三件事: 先用人話描述這個爆炸情境 再說明在張力宇宙裡 它大概會被歸在哪一類問題卡裡 最後講 WFGY 3.0 這個 TXT 實驗室 實際上可以幫你做到什麼程度 不會上數學 不會要你背任何符號 就是一個比較深入版的「張力宇宙實戰入門」。 一、案例一:明明做了所有 best practice 的 RAG,為什麼線上還是各種亂答 先從工程圈最痛的那一塊開始。 你可能遇過這種狀況: 花了很多時間整理文件 用了主流的向量庫與 embedding 模型 chunking、top k、re-ranking 都照文件調過 開發環境測起來看似還行 結果一丟到正式環境 真實使用者開始問真正的問題時 整個系統開始露出本性: 回答常常抓到完全不相關的文件片段 對關鍵 edge case 表現極差 用戶只覺得「這系統不可靠」 團隊內部卻說「指標都 OK 啊,命中率、延遲、成本都控制住了」 這就是一個典型的張力場。 在張力宇宙裡,這叫什麼問題 在 BlackHole S131 裡 我有一整族就是專門處理這種東西 如果用張力語言描述 大概會長這樣: 目標層在說:「要幫使用者找到真正有用的知識」 系統層實際被優化成:「讓檢索看起來有命中、指標不要太難看、成本可控」 現實世界給出的回饋是:「我問真正重要的問題時,你常常在裝懂」 這種情況下 張力不是出在「某個函式寫錯」 而是出在「系統整體被優化成一個跟宣稱目標不同的東西」。 在張力宇宙裡 這種題目會被寫成一張完整的問題卡 上面會具體描述: 哪一層在講漂亮話 哪一層在決定實際行為 哪些...

當 AI、社會和工程一起失控時,我選擇做一個「張力宇宙實驗室」:給中文圈的誠實說明書

當 AI、社會和工程一起失控時,我選擇做一個「張力宇宙實驗室」:給中文圈的誠實說明書 很多人第一次聽到「張力宇宙」「WFGY 3.0」這些字, 心裡浮現的感覺通常是這幾種: 有點酷,又有點抽象。好像在講物理,又好像在講哲學。 看起來跟 AI 有關,但又不太像一般「教你寫 prompt」那種東西。 這一篇,我就用最白話的方式,把話講開。 不需要數學背景,不需要 AI 專業,你只要真心覺得「現在世界哪裡怪怪的」, 這篇就是寫給你的。 一、先把醜話講前面:我為什麼會想做一個「張力宇宙」 這幾年,無論你是不是工程師,多多少少應該都有下面幾種感覺。 1. AI 很強,可是越用越不踏實 一開始你會被震撼到。 寫程式、寫文案、翻譯、做簡報,好像什麼都可以丟給模型。 但用久了,你開始發現幾個問題: 遇到真正棘手的題目,答案很滑順,卻常常不對 你很難精確地描述「怪在哪裡」,只能說「感覺不太對」 你會突然意識到一件事 這些系統其實很難審計 你不知道它在什麼情況下會完全歪掉 說好聽一點是「智慧助手」 說老實一點,有時候比較像一個非常會講話的黑盒子。 2. 工程現場明明很努力,結果卻常常怪怪的 如果你是工程圈的人,畫面會更直接。 RAG 做了好幾輪,正式環境還是各種失憶和亂答 向量庫、embedding、chunking 每個都有 best practice 全都照做,結果整體效果依然悲劇 部署順序稍微弄錯,線上就變成「一切都正常,但就是爛」 你會發現,問題通常不在單一技術細節 而是在整個系統被拉扯的方式 有些東西一直在積壓張力。 3. 社會層面的不安感,已經變成背景噪音 再往外看一圈。 氣候、戰爭、金融、政治、資訊戰 每一塊都有自己的專家,每一塊都有自己的數據 大家都能拿出一堆圖表證明「我這邊沒問題」 可是你身為普通人,直覺只知道一件事 世界越來越不穩定。 這種不穩定不是那種「馬上大爆炸」 而是「一直在慢慢走偏,但沒有好的座標可以看」。 我的感覺很簡單: 不是我們缺少更多的數據點、更多的模型、更多的指標 而是我們缺少一套可以誠實描述「拉扯」的語言 這就是張力宇宙要處理的核心。 二、「張力宇宙」到底是什麼?一句話講完,就是:把失控感翻譯成可實驗的張力地圖 如果只允許我用一句話介紹張力宇宙,我會這樣說: 張力宇宙是把各種失控感 重寫成 AI 和人類都能讀得懂的「張力問題卡」, 然後用一個 T...

BlackHole S131 是怎麼長出來的:為什麼我要把 131 個 S 級難題塞進 WFGY 3.0,一次丟給 AI 和人類一起壓爆看

 好,這一篇我就把它當成: 「BlackHole S131 大地圖: 我到底把哪些世界級難題塞進張力宇宙裡, 然後打算拿來幹嘛?」 你可以整篇直接貼到 Blogger,標題用第一行,內文整塊貼上再微調幾個字就好。 BlackHole S131 是怎麼長出來的:為什麼我要把 131 個 S 級難題塞進 WFGY 3.0,一次丟給 AI 和人類一起壓爆看 如果你第一次聽到「BlackHole S131」這個名字, 大概會有幾種反應: 131 題?你是想當考試委員還是想累死自己 S 級?是在玩遊戲還是在開新宗教 還要塞進一個 TXT 給 AI 跑?這到底是科研,還是整人實驗 這篇就是要用新手也看得懂的方式,講清楚幾件事: 為什麼是「131 題」,而不是 3 題、7 題或 1000 題 這 131 題大致分成哪幾個張力戰場,每區在煩什麼 WFGY 3.0 裡怎麼把這些題目變成「可實驗、可觀測」的結構 如果你是中文圈的工程師 / 學生 / 研究者 / 純好奇的人,你各自可以怎麼用 不講公式,不講推導,只講你大概可以理解的圖景。 真正數學的部分,我都已經丟進 repo 裡給 AI 和專業的人慢慢拆。 一、為什麼要有一個「S 級 131 題」的清單,而不是寫一堆散掉的論文 先講最核心的動機。 世界現在的卡關點,基本上不只一種: 有些是「純數學 / 純物理」等級的深坑 有些是「AI 會不會暴走」「對齊要怎麼辦」這種長期風險 有些是「金融、政治、資訊戰」這種整個文明一起在抖的東西 有些則是「我們連怎麼定義問題本身都吵不完」 如果我照傳統路線走,合理的做法是: 挑一兩個問題 寫一堆論文、做十年研究 其他一百多個坑就繼續放著發霉 張力宇宙選擇的是完全反過來的路線: 先把一整串「文明級張力點」全部攤開, 用同一種張力語言寫成 131 張問題卡, 然後丟給 AI 和人類一起壓測這套結構有沒有用。 所以 BlackHole S131 本質上不是考卷, 比較像一份「文明張力體檢表」。 131 這個數字不是迷信,是刻意做到「多到可以涵蓋、少到可以管理」 S 級只是提醒:這些題目如果搞砸,後果都不太妙 放進 WFGY 3.0 裡,是要讓 AI 直接在這個問題宇宙裡跑給你看 你可以把它理解成: 不是我要一題一題炫技,而是我要一口氣把「這一整代人共同面對的張力」, 集中收束到同一張地圖上。 二、...

張力宇宙是什麼鬼:為什麼我把 131 個世界級難題塞進一個 TXT,還說它是新手也可以參戰的實驗室

張力宇宙是什麼鬼:為什麼我把 131 個世界級難題塞進一個 TXT,還說它是新手也可以參戰的實驗室 如果你是第一次看到「張力宇宙」「WFGY」這幾個字,很正常會有幾個疑問: 「你到底是在做 AI 產品還是宗教?」 「為什麼整天講什麼宇宙、黑洞、張力,卻又說這是工程工具?」 「我只是個普通工程師或普通人,跟這個東西到底有什麼關係?」 這一篇就是專門寫給你看的。 不講數學,不塞公式,只講幾件清楚的事情: 現在世界真正在卡的幾種難題 張力宇宙這個專案想解決的是哪一種卡關 我們目前有哪幾種「實際可用」的解法和工具 未來,如果你願意,一起可以做到什麼程度 如果你看完,至少可以清楚說出一句話: 「喔,原來他在做的是一個 把世界各種失控感變成可觀測張力地圖的東西, 而不是在賣靈性課程。」 這樣就值得了。 一、現在的困難其實不只是一句「AI 很強也很可怕」 先不要講宇宙,先講大家每天在遇到的幾種卡關。 你可能多少都有遇過: 對 AI 的使用疲乏 一開始覺得好神,後來變成「會寫 code、會寫文案,其他都怪怪的」。 問到真正棘手的題目,要嘛胡扯,要嘛避重就輕。 工程現場充滿莫名其妙的爆炸 RAG 做半天,正式環境就各種失憶和幻覺。 向量庫詭異命中,production log 一堆 bug 卻很難系統性解。 改了一個地方,別的地方突然倒掉。 指標看起來都很好,但實際總感覺在往錯的方向走 KPI 全綠,損益表也不差, 但用戶變得越來越不信任系統,內部人越來越累, 最後變成整家公司一起裝沒事。 對未來的焦慮變成一種「背景噪音」,卻沒地方安放 你知道 AI 會越來越強, 你也知道氣候、金融、政治、認知環境都有巨大的不確定, 但日常生活又迫使你假裝這一切「暫時還好」。 這些感覺背後其實有一個共通點: 我們缺一張能同時看「局部很爽」和「整體在失控」的地圖。 大家都盯著自己的局部指標,但沒有人有工具把那個「整體拉扯」畫出來。 於是世界就變成一種奇怪的狀態: 看起來運轉得越來越有效率,內在張力卻越來越高。 我做張力宇宙,基本上就是在處理這個問題。 二、張力宇宙到底是什麼:一句話講完,就是一種「看拉扯的語言」 如果只允許一句話,我會這樣講: 張力宇宙是把世界各種失控感, 重新寫成可以被 AI 和人類一起觀測的張力地圖。 這裡有幾個關鍵字,但是用人話講其實很簡單: 「張力」 不是情緒張力,而是 「系統...