KS凯时AI版华尔街之狼|日本1卡2卡3卡区|!o3-mini靠「神之押注」狂赚
【新智元導讀】AI能像科幻電影中的先知一樣預測未來嗎?一個名為「Prophet Arena」的全新基準測試,正通過預測真實世界事件來評估AI的「預言」能力。
在昨晚的男籃亞洲杯冠軍爭奪戰中,中國男籃雖以1分之差惜敗澳大利亞KS凱時,但已是近十年來的最好成績凱時KB88,!
今天要介紹的Prophet Arena就是一個通過實時更新的真實世界預測任務來評估AI系統預測智能的基準測試。
為「人機協作」而生:你可以給AI提供線索,看看它的預測如何變化;AI也會把它的思考過程告訴你日本1卡2卡3卡區。
Prophet Arena從像Kalshi和Polymarket這樣的預測市場平台挑選熱門KS凱時KS凱時、多樣且週期性的真實事件作為考題。
Kalshi是一家美國的金融交易所和預測市場平台,是美國第一個受美國商品期貨交易委員會(CFTC)監管的、專注于交易「事件結果」的交易所
AI模型們利用搜索引擎,像偵探一樣收集關于某個事件的新聞報道,整理成一份精鍊的「情報簡報」。同時,也會把當時的市場價格(可以看作是群眾的集體智慧)放進去。
拿到相同的情報後智能家居!,每個AI模型都要提交一份詳細的「預測報告」:對所有可能的結果給出一個概率分布日本1卡2卡3卡區,並附上長篇大論的理由凱時登錄入口,,解釋自己為什麼這麼看。
事件結束,結果揭曉。會用一套專業的指標來評估AI的預測到底有多準,然後更新在一個實時排行榜上日本1卡2卡3卡區。
排行榜主要看兩個指標:一個是衡量準確度和校準度的Brier分數(越高越好)KS凱時,另一個是模擬真實投注的平均回報(看誰能賺錢)。
除了上述兩個核心指標外凱時88KB88,,Prophet Arena還採用了受統計學和心理測量建模啟發的高級評估方法,如項目反應理論(Item Response TheoryKS凱時,IRT)和廣義Bradley-Terry(BT)模型。
比如一場溫布爾登網球賽,賽前市場普遍認為選手保羅有84%的勝率,甚至在開賽前一度攀升至95%。
比如在「AI監管法規會在2026年前成為聯邦法律嗎?」這個事件上,市場認為可能性只有25%日本1卡2卡3卡區。
保守派代表Llama 4 Maverick:它也看到了同樣的信息,但認為立法過程復雜又緩慢,所以只給出了比市場略高一點的35%。
例如在聖地亞哥與多倫多的美國職業足球大聯盟比賽中,o3-mini在1美元的投注上獲得了9美元的回報日本1卡2卡3卡區。
根據市場數據和新聞來源,o3-mini預測多倫多獲勝的概率為30%KS凱時,而市場隱含的概率僅為11%(價格=0.11)。
盡管多倫多是不被看好的一方,但AI識別到了正的期望值,並由于其最大的優勢比率30%/11%≒3。
就像在上面那場足球賽中,市場認為多倫多隊只有11%的勝算,但o3-mini經過分析認為有30%。
數值越低(顏色越深的單元格)表示概率推理更接近一致;數值越高(顏色越淺的單元格)則表明分歧越大。
與Kimi K2、o3和Llama 4 Maverick等模型相比,它的L2距離始終高于0.7,這表明其可能採用了不同的校準方式或內部決策機制。
在頻譜的另一端,諸如Grok-4和GPT-5之類的模型經常作出高度一致的預測,L2距離通常低于0.3。
換句話說KS凱時,這張圖展示了AI預測的多樣性:有些模型形成「群體共識」、有些模型像「特立獨行的異議者」。
設想,AI系統將成為預測市場的積極參與者KB88凱時唯一官網登錄,,將人類的直覺洞察與AI強大的數據分析能力相結合,最終提升整個社會的集體遠見,為那些高風險的決策提供更可靠的依據。
畢竟,如果說語言模型的下一步是預測下一個詞,那麼它的終極形態KS凱時,或許就是預測這個真實世界的下一個事件。

