這個符號領域的圖靈完備,大模型做的相當不錯是一個實驗層面就被很多文章論證的問題,
包括之前一直詬病的因果推理問題,其實只要你給的 example sft 一下,效果立馬飆升,這也不是本質問題,不過會存在一些符號改一下就傻逼的可能,比如A--> Apple,就會因為 apple 是個特別的英文單詞誤導了 LLM。不過圖靈完備也不關心你把 A 變成 Apple 以后的問題,只要一個符號體系能夠干活,就 ok,這一點相信大家都有體會。
畢竟 RNN,LSTM 都是圖靈完備的,Cot 這東西形式一個 RNN 的話,也沒人會說我吧?
Cot 是個神奇的東西,也是一個不安全的東西,因為太容易被注入攻擊,而且存在過程不正確,結果卻正確的詭異可能。所以一般要隱藏思維過程,不僅是商業保護,也是無可奈何,這個隱藏過程,相信以后可以不是明文的方式實現 Cot,而是某種抽象的符號,甚至是一堆亂碼,更加沒解釋性。
我估計明文 Cot 是阻礙 RL 超越思維的嚴重阻礙,因為順著人類語言的概率管道尋找求解,類似你用中文去寫非洲土著的祭祀歌一樣,是一個費勁的過程,所以數學這些我還是看好類似 lean 這些,而不是在自然語言上消耗巨大算力做一個不協調的事情。
另外,openai 的 o1 之后,我當時特別好奇的是,之前說的比較數字大小問題,本質也是你提示充分就一定能解的問題,因為你只要頻繁說他是錯的,那么就能逼 LLM 從版本號的思維,跳進數值比較的范圍
不清楚為何很多人都說是 tokenize 的問題,我之前寫點觀點也老被人拿個 2 年前的一個 tokenizer 的論文噴一噸,感覺國內很多人思維還停留在一代大模型思路,也就是基座要訓練好,詞表要做好,而且你寫不好提示詞就完犢子的時代
后續你會慢慢體會到,二代大模型時代,基座沒啥提升,post training 越來越復雜,寫提示詞慢慢也沒啥技巧了,模型自主性會越來越強,你隨便寫個上下文都不清楚的問題,LLM 一樣有辦法給你回答出來
且不說 o1,其實很多人做 RAG,靜態工作流的,大概率也感受到一個產品需求,你會想盡辦法讓用戶問的輕松腦殘,都能把事情干下來,如果靜態工作流干的出來,那么將靜態工作流內化到 LLM 就是一個遲早的事情