KS凯时AI版华尔街之狼|日本1卡2卡3卡区|！o3-mini靠「神之押注」狂赚

发布时间：2025-09-25 字号：大中小

　　【新智元導讀】AI能像科幻電影中的先知一樣預測未來嗎？一個名為「Prophet Arena」的全新基準測試，正通過預測真實世界事件來評估AI的「預言」能力。

　　在昨晚的男籃亞洲杯冠軍爭奪戰中，中國男籃雖以1分之差惜敗澳大利亞KS凱時，但已是近十年來的最好成績凱時KB88，！

　　今天要介紹的Prophet Arena就是一個通過實時更新的真實世界預測任務來評估AI系統預測智能的基準測試。

　　為「人機協作」而生：你可以給AI提供線索，看看它的預測如何變化；AI也會把它的思考過程告訴你日本1卡2卡3卡區。

　　Prophet Arena從像Kalshi和Polymarket這樣的預測市場平台挑選熱門KS凱時KS凱時、多樣且週期性的真實事件作為考題。

　　Kalshi是一家美國的金融交易所和預測市場平台，是美國第一個受美國商品期貨交易委員會（CFTC）監管的、專注于交易「事件結果」的交易所

　　AI模型們利用搜索引擎，像偵探一樣收集關于某個事件的新聞報道，整理成一份精鍊的「情報簡報」。同時，也會把當時的市場價格（可以看作是群眾的集體智慧）放進去。

　　拿到相同的情報後智能家居！，每個AI模型都要提交一份詳細的「預測報告」：對所有可能的結果給出一個概率分布日本1卡2卡3卡區，並附上長篇大論的理由凱時登錄入口，，解釋自己為什麼這麼看。

　　事件結束，結果揭曉。會用一套專業的指標來評估AI的預測到底有多準，然後更新在一個實時排行榜上日本1卡2卡3卡區。

　　排行榜主要看兩個指標：一個是衡量準確度和校準度的Brier分數（越高越好）KS凱時，另一個是模擬真實投注的平均回報（看誰能賺錢）。

　　除了上述兩個核心指標外凱時88KB88，，Prophet Arena還採用了受統計學和心理測量建模啟發的高級評估方法，如項目反應理論（Item Response TheoryKS凱時，IRT）和廣義Bradley-Terry（BT）模型。

　　比如一場溫布爾登網球賽，賽前市場普遍認為選手保羅有84%的勝率，甚至在開賽前一度攀升至95%。

　　比如在「AI監管法規會在2026年前成為聯邦法律嗎？」這個事件上，市場認為可能性只有25%日本1卡2卡3卡區。

　　保守派代表Llama 4 Maverick：它也看到了同樣的信息，但認為立法過程復雜又緩慢，所以只給出了比市場略高一點的35%。

　　例如在聖地亞哥與多倫多的美國職業足球大聯盟比賽中，o3-mini在1美元的投注上獲得了9美元的回報日本1卡2卡3卡區。

　　根據市場數據和新聞來源，o3-mini預測多倫多獲勝的概率為30%KS凱時，而市場隱含的概率僅為11%（價格=0.11）。

　　盡管多倫多是不被看好的一方，但AI識別到了正的期望值，並由于其最大的優勢比率30%/11%≒3。

　　就像在上面那場足球賽中，市場認為多倫多隊只有11%的勝算，但o3-mini經過分析認為有30%。

　　數值越低（顏色越深的單元格）表示概率推理更接近一致；數值越高（顏色越淺的單元格）則表明分歧越大。

　　與Kimi K2、o3和Llama 4 Maverick等模型相比，它的L2距離始終高于0.7，這表明其可能採用了不同的校準方式或內部決策機制。

　　在頻譜的另一端，諸如Grok-4和GPT-5之類的模型經常作出高度一致的預測，L2距離通常低于0.3。

　　換句話說KS凱時，這張圖展示了AI預測的多樣性：有些模型形成「群體共識」、有些模型像「特立獨行的異議者」。

　　設想，AI系統將成為預測市場的積極參與者KB88凱時唯一官網登錄，，將人類的直覺洞察與AI強大的數據分析能力相結合，最終提升整個社會的集體遠見，為那些高風險的決策提供更可靠的依據。

　　畢竟，如果說語言模型的下一步是預測下一個詞，那麼它的終極形態KS凱時，或許就是預測這個真實世界的下一個事件。

凯时88KB88 -(集团)有限公司