買東西

30/7/2008 - 星期三 Wednesday

前些時替朋友在香港買東西。Xbox 360 控制器,他預算 AU$ 75 以下,結果我在黃金找到 HK$ 250﹝/7 ~ AU$ 35.714﹞。香港和悉尼物價差額大。不過,香港市鎮之間的差額也可以很大。東芝 8GB 手指在黃金賣 HK$ 215,同款的 4GB 在上水賣 HK$ 280。

在悉尼遠比香港便宜的物品,暫只想到一件:澳洲新南威爾斯省特產純天然茶樹精油﹝tea tree oil﹞,今天替媽買了些。據 The Body Shop 介紹,這種油「能預防和對抗暗瘡,效果持久。長期使用可控制油光、過量的油脂分泌和污垢,而不會令皮膚過份乾燥。」商人賣貨大都略去產品缺點不說。查查維基百科,原來使用這種油要小心。其一,外塗不內用;其二,少數人對它有敏感;其三,含薰衣草的油可能影響發育﹝亦有不少人質疑這研究﹞;其四,不宜用於耳朵。

科學解釋﹝四﹞:風雲變幻誠多端——大自然之混沌與分形

陳力恒
二零零八年七月二十三日


問題不大在於上帝「擲不擲」骰子,而是上帝「怎樣」擲骰子。
- Ian Stewart [1]

於一九八六年你不會在生理學書籍中找到分形一詞,我想於一九九六年你不會找到一本生理學書籍並不提及它。
- 哈佛醫學院 Ary L. Goldberger [2]

  馮夢龍寫《喻世明言》有言:「榮枯貴賤如轉丸,風雲變幻誠多端[3]。」影響天氣的變化的因素很多,自古難測。三國時期諸葛亮借東風讓人歎為觀止,假如真有其事。近代西方自然科學取得成功,可是天氣預測的精確程度暫不如其他科學理論。試想,每天在各媒體發佈的天氣預告,可靠程度有多高?為何只有未來一週的預測?明年二月十四日澳洲聖誕島飛魚灣的天氣如何?能否預測?順便想想,足球球季尚未展開,博彩公司已為下屆賽事提供賠率,以英超為例,為何博彩公司視曼阿利車四強為熱門?為何沒有五十年後的賽事賠率?五十年後的賽事不能預測嗎?這些問題關乎一個近代科學的概念:混沌。筆者在本文試以簡單的文字,管窺此新知之一二,並列數書以供有興趣的讀者們錐指探察。

  近代科學有多可靠?艾耶爾[4]主張,只允許邏輯和純數學的命題為確鑿無疑的。我們不能憑體驗駁倒這類命題,因為它們非關經驗世界。而有關經驗世界事物的命題,只是假說,很可能成為事實但永不確鑿無疑。邏輯學分析語句,有助解釋邏輯和純數學的命題,跟有關經驗世界的語句,兩者之分別[5]。氣象學家羅倫茲亦認為,多數真實現象的理論研究,皆為近似值的研究[6]。費曼甚至說,任何物理理論皆是一種猜測[7]。科學理論是關乎經驗世界,不會像邏輯和純數學那樣百分百可靠。然而純數學建基於邏輯,自然科學建基於數學,科學理論的可靠程度是僅次於邏輯和純數學。而且,自然科學放諸四海皆準。只要實驗條件一致,你在北京做實驗所獲的結果,跟在東京做的,在可接受實驗誤差範圍內。偽科學、算命、風水命理或迷信的觀念,並非建基於理性思維,不可與科學相比。大體而言——我重申是大體並非個別例子——非科學的推斷不夠精確、預測力弱和推測不佳。

  我們看到自然科學跟其他學科或民間觀念相比,是相當可靠的。然自然科學各門學科之間呢?這可有些微差別。例如你打開一本大學程度物理書,當中的理論都相當可靠。而一些有關生命起源、宇宙濫觴的理論,由於事隔太久,很多數據已失佚,人類可能仍未找到滿意的解釋。天氣預測亦是一門很難操縱的學問,一來涉及的數據繁多,二來能夠處理大量數據的電腦是近代產物。現時的天氣預測已較遠古時期的有大改進。我亦強調,縱使天氣預測在各門科學之間不及某些很精準的理論,但跟其他非科學觀念比較,還是很可靠的。

  走筆及此,前戲也弄得差不多了,我們轉入正題。何為混沌?容許我先舉例子,稍後定義。較易為一般人理解的比喻是「蝴蝶效應」:在巴西,一隻蝴蝶輕拍翅膀,導致美國德州產生一個龍捲風。又,以電影為例,奇斯洛夫斯基的《盲打誤撞》[8]和提克威爾的《疾走羅拉》[9]都用了一個非主流的敘事方式。影片可分為幾個故事,每段故事的開局是一樣的,因為一些很細微的因素,引致結局不一。例如趕上一班列車和趕不上,就有不同的後果。羅倫茲[10]則以彈珠台為喻。他憶述大學時期,學生熱中於這種遊戲。有些學生偶爾獲勝,多數人輸掉。他發覺即使是有練習過的學生也不會成為長勝軍。羅倫茲解釋彈珠台機器對初始速度很敏感。留意,這些比喻較易理解,但不是混沌的完美例子。羅倫茲對混沌現象的解說為,看似隨機和不可預料的行為,然而是根據精確的通常易於表述的法則進行[11]。他又重申,不論必要的初始條件的差別如何細,附近的狀態最終會擴散,這是混沌行為的一個必要特性[12]。這可能不易理解[13],正如他說,精確的定義並不經常是方便的一種[14]。


「蝴蝶」——羅倫茲吸引子[15]

  清朝大學士紀昀﹝字曉嵐﹞曾以「螳螂捕蟬,黃雀在後[16]」喻眼光短淺。有沒有荒誕地想過,那黃雀之後又有蟬,蟬之後又有螳螂,螳螂之後又有黃雀,如此類推,不斷循環?這可能是分形的其中一個精髓,儘管不夠準確。曼德勃羅[17]介紹分形時斷言,多數大自然的形態都是無規律和無條理的,遠比歐幾里得幾何的圖形龐雜。歐氏幾何不足以描繪現實世界。曼德勃羅[18]曾研究英國的海岸線有多長。他著眼於海岸線,我在這兒談談面積,希望有助理解。簡單的圖形如圓形、方形和三角形,我們都有簡單的方程計算它們的面積。但英國島的面積呢?英國島不是簡單的圖形,我們沒有簡單的方程計算它們的面積。曼德勃羅談及海岸線是自相似曲線﹝self-similar curves﹞,這些曲線後來被稱為分形。這自相似是什麼東西?閒言「兩條平行線終會有交彙的一天」。試想,我們建築由兩條平行線組成的火車軌道,圍繞地球一周。走到軌道中間,平行線看來有交彙的一點。但當我們向這點走近,不斷不斷的走,不斷循環也抓不住這交彙點,平行線並不交彙。我們不斷走近這點的影像,與 Koch 曲線的自相似近似[19]。再幻想你有一輛甲蟲車,望著它,越望越仔細,甚至用顯微鏡放大,車的表面看似越來越滑,但當你越放越大,它的表面越崎嶇不平,哥倫比亞大學的 Christopher Scholz 發現分形幾何是描述地球表面的強大工具[20]。


曼德勃羅集[21]

  前兩般分別勾畫了混沌和分形的概念,接著談談一道科學門外漢很喜歡問的問題,這些東西有什麼用?假如我說,混沌的應用很廣,包括數學、物理學、生物學、電腦科學、工程學、心理學、經濟學、金融學等等,他們也不會真正了解混沌有什麼用。假如我深入點說,在生物學中生態學的動力系統中,他們大概已經頭昏腦脹。所以我不打算在這裡解答。現代科學發展到今天,分工極細。前沿的理論不易為普通人理解,因為學習科學是要循序漸進,一步一步慢慢積聚知識。在現代社會,要精通每一個學科近乎不可能,但對眾多學科有一些基本的認知不是不可能。介紹混沌,這篇短文所能做到的十分有限。有興趣的讀者,可先從 James Gleick 的著作入手,這本書按混沌的歷史發展,由蝴蝶效應到自然之幾何到生物模型到將來展望,對各種概念和應用都著墨不少。Ian Stewart 那本也可視為通俗入門。羅倫茲和曼德勃羅的著作比較專門,適合有科學底子的讀者。Anton 和 Rorres 的《基礎線性代數應用版》[22]則是以最簡單的數學作較專業的入門。Peitgen、Jürgens 和 Saupe 的《混沌與分形——科學之新邊疆》[23]圖例豐富多彩,屬專門著述,是研究生的尚佳良伴。這些書多列有頗詳盡的書目以供深入研習。





[1] 「上帝擲骰子」這話該理解為「世界沒規律」,不應鑽牛角尖爭辯這話預設上帝存在而沒有實証。原文為:The question is not so much whether God plays dice, but how God plays dice. 見:Ian Stewart, Does God Play Dice? The New Mathematics of Chaos. (2nd ed.) London: Penguin Books, 1997, p.xii.

[2] 轉引自 James Gleick, Chaos: Making A New Science. London: Vintage, 1998, p.282.

[3] 馮夢龍:《喻世明言.卷十八.楊八老越國奇逢》。

[4] A.J. Ayer, Languages, Truth and Logic. London: Penguin Books, 2001, p.9.

[5] 簡言之,語句有分析和綜合。分析語句的真偽只取決於表達式的用法,是先驗、必然和無經驗內容的;綜合語句的真偽除了取決於表達式的用法,還要檢查現實世界,是後驗、蓋然和有經驗內容的。科學理論通常是綜合語句。請參看張海澎:《分析邏輯——理性思維的基石》﹝香港:青年書屋,2004 年 6 月初版﹞,頁 75-79。

[6] Edward Lorenz, The Essence of Chaos. Seattle: The University of Washington Press, 1993, p.5.

[7] Richard P. Feynman, Robert B. Leighton and Matthew Sands, The Feynman Lectures on Physics. (Definitive ed.) Reading, Massachusetts: Addison-Wesley Publishing Company, 2006 (7th printing, 2007), Volume 1, p.6-1.

[8] 奇斯洛夫斯基﹝Krzysztof Kieślowski﹞:電影《盲打誤撞》﹝Przypadek,1987 年﹞。

[9] 提克威爾﹝Tom Tykwer﹞:電影《疾走羅拉》﹝Lola Rennt,1998 年﹞。

[10] 同注 6,p.9-11.

[11] 原文為:seemingly random and unpredictable behavior that nevertheless proceeds according to precise and often easily expressed rules. 同注 6,p.ix.

[12] 原文為:an essential property of chaotic behavior is that nearby states will eventually diverge no matter how small the initial differences may be. 同注 6,p.32.

[13] 考慮到讀者的程度不一,我不打算作太專門的解釋﹝即涉及隨機、偽隨機、決定性混沌等等,其實 James A. Yorke 甚至說過:「If you could write down the solution to a differential equation, then necessarily it's not chaotic」轉引自同注 2,p.76-68.﹞。這只是一篇可能還算不上普及科學的文章,旨在介紹混沌與分形這些上世紀後半期才發展的科學,並喚起讀者興趣而作伸延閱讀。寫科普讀物最難之處是不用專門名詞而讓門外漢了解科學又不乏味。

[14] 原文為:Precise definitions are not always convenient ones. 同注 6,p.16.

[15] 以 MATLAB R2006a 繪。

[16] 紀昀:《閱微草堂筆記.卷四.槐西雜志十四》。語本見《莊子.山木》:「睹一蟬,方得美蔭而忘其身,螳螂執翳而搏之,見得而忘其形;異鵲從而利之,見利而忘其真。」

[17] Benoit B. Mandelbrot, The Fractal Geometry of Nature. New York: W.H. Freeman and Company, 2000, p.1.

[18] 同注 17,第五章。或見:Benoit B. Mandelbrot, How Long Is the Coast of Britain? Statistical Self-Similarity and Fractional Dimension. Science. 156, 1967, p.636-638.

[19] 參看:http://en.wikipedia.org/wiki/Image:Kochsim.gif

[20] 同注 2,p.105-106.

[21] 以 MATLAB R2006a 繪,程式由 Alberto Strumia 編寫。參看:http://www.ciram.unibo.it/~strumia/

[22] Howard Anton and Chris Rorres, Elementary Linear Algebra Application Version. (8th ed.) John Wiley & Sons, Inc., 2000, ch.11.14-11.15.

[23] Heinz-Otto Peitgen , Hartmut Jürgens and Dietmar Saupe, Chaos and Fractals: New Frontiers of Science. (2nd ed.) New York: Springer-Verlag, 2004.

科學解釋﹝三﹞:不是教你玩撲克牌

陳力恒
二零零八年七月十八日


撲克牌教人自恃、自制、自重、克己和自主。但遇著萬能牌或給予虛構的當權者,高尚的遊戲則被劫掠它的浪漫、優雅和刺激,以及墮落為賭博詭計。
- Henry F. Ashurst

  不懂玩撲克牌的可先看看維基百科[1]。

  獲得特定一種大同花順﹝royal flush,即同花的 A、K、Q、J、10﹞的機會有多大?1/2598960 [2]。獲得任何特定一種牌﹝例如黑桃 2、紅心 3、紅心 5、梅花 7、方塊 J﹞的機會呢?1/2598960。跟大同花順一樣。說真的?說真的。獲得任何特定一種牌的機會一樣。詭異嗎?解釋可用數學概率和物理學或化學或熱力學中熵﹝entropy﹞的概念。

  先述一點概率。假設你懂中學程度的概率,以下的解釋不難明白。關鍵是特定﹝particular﹞一詞。無疑,隨機發五張牌,獲得任何特定一種牌的機會一樣,不論是蛇是花還是其他。然而,撲克牌有四種花,故獲大同花順﹝不特定何花﹞的機會為 4/2598960,比特定一種大同花順略高。同花順則有四十種,獲得同花順的機會是 40/2598960,大約是 0.0015%。獲得蛇﹝順子﹞的機會呢?約 0.392%。獲得同花的機會呢?約 0.197%。獲得無對的機會呢?約 50.12%,比同花順高得多。

  也談談熵[3]。隔離系統趨向無秩序,熵是這種無秩序的測量。舉例說,設想一間房內有很多氣體分子,假如當中一半同一大小的分子的速度矢量﹝velocity vector﹞向左,另一半的向右,這種程況情況很有秩序。然這程況不太可能。系統有微狀態﹝microstate﹞和宏狀態﹝macrostate﹞之分。微狀態是系統的個體組成的特定結構[4]。比如,一間房中氣體分子有秩序的速度矢量的描述,代表一種特定的微狀態。宏狀態是從宏觀的角度﹝用氣體分子的氣壓、密度、温度﹞看系統,對系統的條件的描述[5]。不熟悉這些概念的讀者可看看 Judith McGovern 的網站[6]。

  接著講概率和熵的關係。以擲骰子為例,兩枚骰子為五的宏狀態,可由以下四種微狀態組成:1-4、2-3、3-2、4-1。我們通常預設微狀態的機會同等,即獲得 1-4 或 2-2 的機會一樣。不過,細查各宏狀態後,結合無秩序的宏狀態有更多可能的微狀態,較之那些結合有秩序的[7]。就黑桃大同花順而言,由 10 至 A 排列,只有一種微狀態結合宏狀態[8]。這是很有秩序的。就無對而言,有很多種的微狀態結合。

  獲發黑桃大同花順的機會,跟任何特定一種無對的機會,是一樣。然而,由於無對有很多種,獲發無對的宏狀態的機會,遠比獲發黑桃大同花順的宏狀態的機會高[9]。





[1] http://en.wikipedia.org/wiki/Poker

[2] 5!/(52*51*50*49*48)

[3] 這一段和下兩段參考:Raymond A. Serway and John W. Jewett, Jr. Physics for Scientists and Engineers with Modern Physics. (6th international student ed.) Brooks/Cole-Thomson Learning, 2004, p.683-684.

[4] 原文為:a particular configuration of the individual constituents of the system. 同注 3。

[5] 原文為:a description of the conditions of the system from a macroscopic point of view. 同注 3。

[6] Judith McGovern, 3.1 Microstates and Macrostates in Lecture Notes for PC235 Thermal and Statistical Physics. 2004, http://theory.ph.man.ac.uk/~judith/stat_therm/node55.html

[7] 原文為:when all possible macrostates are examined, it is found that macrostates associated with disorder have far more possible microstates than those associated with order. 同注 3。

[8] 原文為:there is only one microstate associated with the macrstate of a royal flush in a poker hand of five spades, laid out in order from ten to ace. 同注 3。

[9] 原文為:The probability of being dealt the royal flush in spades is exactly the same as the probability of being dealt any particular worthless hand. Because there are so many worthless hands, however, the probability of a macrostate of a worthless hand is far larger than the probability of a macrostate of a royal flush in spades. 同注 3。

「天大笑話」

17/7/2008 - 星期四 Thursday

流浪上季包尾今季降班乙組,有意以新贊助商名義參加甲組。南華班主羅傑承直言這是天大笑話,升降制沒意義云云。我說這才是天大笑話。五十步笑百步。

兩年前南華不夠分理應降班乙組,卻獲足總挽留留在甲組。升降制何在?流浪搞青訓不獲重視。南華呢?歷史久,羅生有錢投資……什麼世界?

科學解釋﹝二﹞:統計因果

陳力恒
二零零八年七月九日,十一日修訂
特別鳴謝思想者思想俱樂部傭懶的人的意見。


凡模型皆錯,然有些有用。
- George Box

  在那細雨朦朧煙霧瀰漫的夜裡,你深愛的情人跟你說他想跟你分手。雖然天沒閃電,但你心如雷劈。你不服。你追問他。他說:「我今天的離去是為了你的將來。」你可甘心?他說:「你是好人但我不可跟你在一起。」你可甘心?他說:「我們前世是冤家所以今世多爭吵。」你可甘心?日常生活常遇到因果,有些看似想當然,有些看似無關聯。本文提倡的統計因果是解釋世界的可靠有用工具。統計因果,即運用統計方法研究事件的關係,透過統計分析關係的強弱,我們可以清楚知道可靠程度。下文先述世間含糊的因果理論,再探討現代科學所依賴的因果:統計因果。簡述統計因果的三個條件後,較詳細地討論關係,接著的議題為因果模型。

  宗教、算命或風水命理的因果往往不明顯、虛無縹緲。例如,基督教認為人有原罪。為何?因為亞當和夏娃吃了禁果。試想,假如我說,恐龍絕種是由於我今天吃了叉鵝飯,又如,我今天吃了酸辣湯麵所以世界會有末日,富理性思維的人會相信嗎?基督徒辯稱,《聖經》是神聖的所以內容皆為直理。但何為神聖?其實神聖一詞甚空泛。所謂空泛,即使用範圍沒有任何界限,當某宗教詞窮時便會以一些空泛的詞匯「解釋」,實為蒙蔽[1]。有宗教訓言「今天的因是明天的果」,似有句意闕如之嫌。要知道,意思清楚明確的詞,都可堆砌成沒意義的句子。你知道「今天的因子是明天的蘋果」是什麼意思嗎?你知道「如果花草所以無花果」是什麼意思嗎?追問之下,那宗教或會解說「你今世做了壞事來世會有報應」。但他們仍然沒有解釋「今世做了壞事」跟「來世有報應」有什麼直接明顯的關聯。張海澎[2]曾舉一例如下,算命先生說在你在某年某月某日生,星系處於某位置,所以影響你的命運,這其實是轉移問題,為何星系位置會影響你的命運呢?算命先生只在牽強附會。Paul Kurtz 在評議超心理學是否科學時道:「談論科學時我們探究近似律法的陳述:即,若甲,則乙;每當甲在場,乙很可能發生。看看超心理學的發現,我們連乙會否發生也不能確定[3]。」偽科學的因果往往含糊或顛倒。

  現代科學理論的因果關係有別於上段所述的。艾耶爾以為我們相信當代科學的方法皆因其在實踐上的成功[4]。現代科學所揭示的因果,遠比宗教、算命或風水命理可靠。所謂可靠,並不等於必然。David Kenny 談論相關和因果時表明,沒有必然,只有或然;科學家不應該說「真」和「証明」,但要常常記住這些詞[5]。Kenny 之言針對科學,包括自然科學和社會科學,我看數學和邏輯應作別論。因果和概率的關係,維根斯坦說得簡潔:「若甲遵循自乙,命題乙給予命題甲的概率為一。邏輯結論的必然是概率的限制事例[6]。」而不可能的事件概率為零。﹝留意反之不心然,概率為零不能推出不可能[7]。﹞而一與零之間,就是理性信念程度。概率數值越接近一信念越強,越接近零信念越弱。借艾耶爾的話,說某觀察削弱了命題的概率,不啻稱我們越來越不想將那命題作為認可假說並供日後參考[8]。﹝留意學界對概率解釋不一,如頻率派和貝葉斯派,然這些不在本文研討之列。﹞儘管科學理論不是必然,但很可靠。粗略而言,邏輯和純數學最可靠,應用數學和自然科學次之,社會科學緊隨,偽科學和非科學不大可靠。李天命[9]曾作更仔細的排名:
    最可靠:邏輯、數學
    非常可靠:物理學、化學
    相當可靠:生物學、醫學
    不大可靠或大不可靠或未達相當可靠程度:心理學、經濟學、管理學、社會學、教育學、所謂的「文化研究」

  現在看看科學論述的因果關係。Kenny [10]稱科學家普遍接受三個條件:
    一、時間先後
    二、關係
    三、非偽造性

  先談第一點,假如甲引致乙,那甲在時間上要先於乙發生。「由於人類將會受到大審判,所以我們現在怎樣怎樣」之類的言論就不符合這點。第二,假如甲引致乙,甲和乙要存有關係。測試甲和乙有沒有關係,可以用一些統計測試。透過統計測試,我們可以知道關係有多大,這是確實客觀的數據。信神者稱,神是善的由於牠引致善物[11]。神和善物有何關係?信神者沒有表明。而科學理論涉及的關係,是要有統計測試支持的。第三,假如要說甲引致乙,那就不能存在一個可引致甲和乙的第三者丙,以致這個丙一旦受控就會使甲和乙的關係消失[12]。

  簡述了科學因果的三個條件,我們詳細探討第二點:關係。統計學中,我們稱兩個沒有關係的事件為獨立﹝statistically independent﹞。假如我們知道兩者有關係,還可以用協方差﹝covariance﹞或相關係數﹝correlation﹞來表示關係的強弱。若兩事件獨立,協方差為零。﹝反之不心然。﹞這些數值有助我們了解事件的關係,即甲和乙有沒有關係、關係有多大,但不能顯示因果﹝是甲引致乙還是乙引致甲 ﹞。關連性﹝statistical association﹞可能有助解釋因果。Mark Woodward [13]舉了一個簡單例子:當一群人參加了一個晚宴,當中一些人宴後患病。假若每位患病者都吃了同一種食物而病,所有沒吃那食物的人都安好無癢,那末該食物跟病明顯有關連性。然而,確立關連性只是確立因果的必要,而絕非充足條件[14]。假如有第三者丙,而丙影響甲和乙的關係,我們還有交絡﹝confounding﹞和相互作用﹝interaction﹞等等的課題討論,看官有興趣可參看 Woodward 那本《流行病學——研究設計和資料分析》。

  數學模型是解釋世界的有用工具。統計模型透過分析收集所得的確實數據,從而作出推測。達爾文的表親高爾頓﹝Francis Galton﹞是迴歸分析的開山大師。他曾研究父母跟孩子高度的關係,發現個子高跟個子低的父母的孩子的高度,看似回復那群人的算術平均數。這是現代迴歸模型的先驅[15]。我們談因果,可看看因果模型﹝casual modelling﹞。Kenny [16]列舉三點解釋社會科學宜用因果模型。其一,多數研究員含蓄或直率地﹝implicitly or explicitly﹞建構模型,正式的發展方法可協助研究員。其二,因果模型有助發展、修改和伸展出自測量和堅固的理論。其三,因果模型予社會科學家較強的基礎準則從而解決社會問題。Kenny [17]亦列舉三個因果模型的限制。其一,研究和資料必要建基於堅牢的仔細觀察。其二,理論的中心概念或操縱主題通常不是因果法則,而是圖像、概念和結構。其三,因果模型容易引起濫用。欲深入研究者可看看 Kenny 那本《相關與因果》。

  通過統計分析,我們可以清楚知道推測結果有多可靠,如我們可以說九成五確信我們的推斷。宗教、算命或風水命理的推斷呢?我希望有一成可信。嚴謹的因果模型,宜以統計方法輔助。





翻譯實難,自知拙譯甚劣,盡量附原文供讀者參考。

[1] 張海澎:《分析邏輯——理性思維的基石》﹝香港:青年書屋,2004 年 6 月初版﹞,頁 34。

[2] 同上書,頁 41。

[3] 原文為:We say in science that we search for conditional lawlike statements: namely, that if a, then b; whenever a is present, b will most likely occur. Yet in viewing the findings of parapsychology, the situation seems to be that we are not even certain that b occurs. 見 Paul Kurtz, Is Parapsychology a Science? in Kendrick Frazier, (ed.) Paranormal Borderlands of Science. Buffalo, New York: Prometheus Books, 1981, p.13.

[4] 原文為:We trust the methods of contemporary science because they have been successful in practice. 見 A.J. Ayer, Languages, Truth and Logic. London: Penguin Books, 2001, p.101.

[5] 原文為:There is no certainty, only a probability. 和 the scientist should never speak the words truth or proof but always keep in them in mind. 見 David A. Kenny, Correlation and Causality. (Revised ed.) 2004. http://davidakenny.net/doc/cc_v1.pdf, p.1-2.

[6] 原文為:If p follows from q, the proposition q gives to the proposition p the probability 1. The certainty of logical conclusion is a limiting case of probability. 轉引自 Karl Popper, The Logic of Scientific Discovery. London and New York: Routledge, 2002, p.136.

[7] 原文為:Probability Zero Does Not Mean Impossible. 見 Morris H. DeGroot and Mark J. Schervish, Probability and Statistics. (3rd international ed.) Addison-Wesley, 2002, p.17.

[8] 原文為:to say of an observation that it diminishes the probability of a proposition is to say that it decreases our willingness to included the proposition in the system of accepted hypotheses which serve us as guides to the future. 同注 4,p.100.

[9] 李天命:《哲道行者》﹝香港:明報出版社,2005 年 7 月 3 版﹞,頁 135。

[10] 原文為:Three commonly accepted conditions must hold for a scientist to clam that X casues Y: 1. time precedence 2. relationship 3. nonspuriousness. 同注 5,p.3.

[11] 原文為:God is good because he is the cause of things that are good. 見 Brain Davies, An Introduction to the Philosophy of Religion. (2nd ed.) Oxford, New York: Oxford University Press, 1993, p.21.

[12] 原文為:For a relationship between X and Y to be nonspurious, there must not be a Z that causes both X and Y such that the relationship between X and Y vanishes once Z is controlled. 同注 5,p.4-5.

[13] Mark Woodward, Epidemiology: Study Design and Data Analysis. Boca Ration, London, New York, Washington, D.C.: Chapman & Hall/CRC, 1999, p.14-15.

[14] 原文為:The establishment of an association is a necessary, but certainly not a sufficient, condition to establish causation. 同注 13,p.17.

[15] Michael H. Kutner, Christopher J. Nachtsheim, John Neter and William Li, Applied Linear Statistical Models. (5th international ed.) McGrwa-Hill Higher Education, 2005, p.5.

[16] 同注 5,p.6.

[17] 同注 5,p.8-9.

叔本華論自殺的局限

6/7/2008 - 星期日 Sunday

有刑法禁止自殺,叔本華笑論:「連死都不怕的人,他還會懼怕其他的懲罰嗎?——罰自殺之未遂,只不過是處罰他自殺方法的笨拙而已。」﹝《叔本華論文集》,台北:志文出版社,2001 年 5 月,頁 69﹞

以上問句是一種反問﹝rhetorical question﹞,即形式上是疑問,實際答案明顯、不其望讀者回答。叔本華預設答案是否定,即不怕死的人,並不會懼怕其他的懲罰,所以禁止自殺的刑法無用。

叔本華的論証還有一個假定:死是最可怕的。這是論証的局限。如果這假定不成立,則論証崩潰。這假定有沒有可能不成立?我看有。我不理會死後的世界,那管上天堂下地獄;我亦不理會再生,那管是花是草是龍是蟲。對我來說,比死可怕的事確實存在:中國古代酷刑。例:剝皮、炮烙、烹煮、黥面、割鼻、割耳、宮刑、刖足、笞杖、廷杖、鞭扑、人食、獸咬、拷訊等等不致死的酷刑。如果抽腸、凌遲、車裂、剖腹不死,也可怕。

文字和影像之間

5/7/2008 - 星期六 Saturday

一般文學家以為,文字較影像給讀者留下更多空間、間隙。

王璞說:「比電影更為生動的是,文字比畫面更多間隙,我能在那些文字的間隙中飛揚自己的想像。」﹝《散文十二講》,香港:三聯書店,2003 年 7 月一版一刷,頁 27﹞

高行健說:「文字不是不可以提供視像,但語言的功能與其說在於描繪,不如說在於提示。」又說:「而詞句越是簡潔明瞭,給讀者留出的空間便越大,喚起的視像更為鮮明。」﹝《論創作》,香港/新加坡:明報月刊出版社/青年書局,2008 年 5 月初版,頁 138-139﹞

年初在大陸買了一套瑞典導演英格瑪.柏格曼﹝Ingmar Bergman﹞的作品集,暫只看了三部。演員演出自然,爭論富哲理。印象較深的是舊馬爾默﹝Malmö﹞的鏡頭。這些舊馬爾默影像,較文字記存來得真切,同時亦不為看者留下思索空間。

在電腦數碼化影響下,電影近年有較大的革新,亦較文字易於過時,在荷里活主導下,現時看舊電影的人不多。

科學解釋﹝一﹞:如何造假資料?

陳力恒
二零零八年七月三日初稿,六日修訂

  時興造假,不甘落伍,隨便聊聊。

  造假食品、假零件、假衣物、假証件、假藥等等,我都不懂,只好談談造假資料。搞資料、弄數據,靠統計。說來統計應用實廣,醫療統計、生物統計、統計物理、工程統計、數據挖掘﹝data mining﹞、機器學習﹝machine learning﹞、質量控制﹝quality control﹞、運籌學﹝operational research﹞、風險管理﹝risk management﹞、預測﹝forecasting﹞、精算、計量經濟學﹝econometrics﹞、計量歷史學、心理測試、政治科學等等。順帶一提,十八世紀德國大學的統計教授,近似現時的政治科學家,政府的決策不外是作人口、貿易、農業等等的數據分析[1]。

  然應用廣,陷阱亦多。張五常提過,如今計量經濟學大行其道,迴歸分析﹝regression analysis﹞有助處理「其他因素」,但這種分析陷阱不少容易中計[2]。數據可以很有幫助,亦可以很有害。Darrell Huff [3]和羅曉芳[4]寫過小冊高談如何以統計欺騙人和生活中的數學,姑拾拾前人牙慧,闊論如何造假資料。

一、樣本的內置偏見 The Sample with the Built-in Bias

  當某某大學宣稱,她們的畢業生的平均薪酬為某數時,這平均薪酬代表什麼呢?我們先要留意,通常人們發問卷做調查,所收回的問卷有多少?願意做調查答問卷的,通常是有固定職業一群。調查所忽略的,是站於邊緣的人。那麼,「平均薪酬」跟本不平均。再者,一般抽樣調查,很難取得有代表性的數據。試想,假如你在辦公時間作家庭電話訪問,則忽略了上班人士;假如你在非辦公時間作家庭電話訪問,則忽略了夜遊子。不論那一種調查方法,都有不足之處。統計學者有研究這類問題,有興趣者可深入研究,這裡的重點是:假如某某機構想作宣傳,大引調查結果,我們不可以輕易盡信,因為一般調查樣本可以很誤人。

二、精選的平均數 The Well-Chosen Average

  平均數﹝average﹞一詞可以很含糊。較通用的平均數就有三種:算術平均數﹝mean﹞、中位數﹝median﹞和眾數﹝mode﹞。以 1, 1, 1, 1, 1, 2, 3, 5, 5, 6, 6, 6, 6, 7, 8, 8, 9, 9, 10, 10, 10 為例[5],算術平均數為 5.47619,中位數為 6,眾數?1。Huff 所舉之例更為極端,$3,500 和 $15,000 都為合法的平均數。普遍而言,薪酬結構是高薪者少,低薪者多,只談平均數很易混淆視聽。有些平均數像熱戀中的情侶糖黐豆般近,有些則像冷戰期或分隔異地的男女天角一方般遠。有心造假,可造造手腳,含糊定義,以欺庸輩。

三、不存在的小圖 The Little Figures That Are Not There

  某某廣告宣稱,超過百分九十的顧客對她們的產品感滿意。處理百分率,要留意樣本的實際人數。十一人中有十人滿意,是超過百分九十;百一人中有百人滿意,亦是超過百分九十。多少人的樣本才真真足夠?才有說服力?統計學有研究,這裡不表,重點是小樣本與大樣本的挑選是造假的工具之一。

四、實際無之紛擾 The Ado about Practically Nothing

  常聽到某某 IQ 極高,是個天材云云。IQ 測試客觀地對人作評估,是可靠的指數。面對這些議論,有沒有什麼可質疑呢?有。IQ 測試只是測試人的智力,單憑 IQ 衡量一個人顯然不足,例如一般人 IQ 測試就忽略了人的創造力。讓我再舉一例,足球遊戲會對球員能力作評估,例如派路﹝Andrea Pirlo,國內譯皮爾洛﹞的射門能力值 7、傳球 9、罰球 9、頭球 5、過人 5;朗拿度﹝Cristiano Ronaldo,國內譯羅納爾多,暱稱小小羅﹞的射門 8、傳球 8、罰球 6、頭球 5、過人 9,諸如此類。以上的評估,忽略了球員狀態、閱讀球賽能力、進攻意識、防守意識等等。什麼因素才重要可靠?各因素所佔比例如何?統計學亦有研究,這裡亦不表。造假之道,在乎對不同因素的取捨。

五、因果續航 Post Hoc Rides Again

  分析數據可揭示表面不明顯的因果關係。如某某藥對某某病有沒有作用?吸煙會不會致肺癌?統計可以是分析工具,也可以是誤人武器。即便數據顯示兩者的因果關係存在,要誤人,我們還可以追問關係有多大?是否兩者獨有?有沒有其他因素?假如我們想証明兩者有因果關係,只要它們有丁點兒關係就可以了。還有,假如有其他因素影響,我們大可略去不提,這也不算欺詐嘛!

六、圖示

  閒言少述,看圖[6]:



  兩圖是同一條程式,只是垂直座標軸的範圍不一。既是同一程式,資訊理應一樣,可人受感觀影響,對以上兩圖可能有不同的印象。這點亦是造假者不可不察的。

  再看[7]:



  兩圖同是費雪[8]的 Iris data set,只是角度不同。所以,要人有特定印象,可從圖像入手。

七、當股市顧問

  寫 32,000 封信,先適當運用以上技倆,並附電腦模型、金融分析等等,當中一半,即 16,000 封預測升;另一半預測跌。﹝按:其實羅氏這忽略了無升跌,不過也罷,方便解釋。﹞Without loss of generality,假設那股升,那以上有 16,000 封信我「測中」升。在這 16,000 人中,再發信預測某股下週升跌,又分一半,即 8,000 封預測升;另一半預測跌。這麼,又會有一半人給我「測中」。這時,有 8,000 人以為我連續「測中」兩次;在這 8,000 人中再分、再測,之後有 4,000 人以為我連續「測中」三次;在這 4,000 人中再分、再測,之後有 2,000 人以為我連續「測中」四次;在這 2,000 人中再分、再測,之後有 1,000 人以為我連續「測中」五次;在這 1,000 人中再分、再測,之後有 500 人以為我連續「測中」六次。試幻想那 500 人不全是精明之輩,當有人跟他們分析股票,並連續「測中」六次,他們信不信你?這時,你便可當股市顧問向他們收費,混水撈魚。強調成功之例,省略失敗個案,切記切記。

八、吾所作之証供皆為事實……但不為事實之全部

  常見某報標牓自己為「最具公信力」、某雜誌豪言自己為「全亞洲銷星最高」、某品牌聲稱自己為「十大品牌」等等。過了幾年,她們依舊標牓依舊豪言依舊聲稱。再屈指算算,我見過的十大品牌,就不只十種,有金妹妹牌、和興興藥油、雞仔仔嘜、李錦錦記、六福福珠寶、恆香香餅家、斧頭頭牌、淘大大食品、大班班麵包西餅、嘉頓頓、大排排檔等等。原來「十大品牌」是每年選一次的。她們當然是拿過那些獎的,是事實,要不然量她們也不敢胡扯。可她們拿獎後,所標牓所豪言所聲稱的便會長伴著她們,那管獎項只是年度的,那管獎項今年已花落別家,那管獎項已過時。造假……等等!這算不算造假還可質疑,然這第八點旨在隱去部分事實。

小結

  造假之學實博大,今暫列八點,望君參閱,日後有緣再談。





[1] J.L. Hodges, Jr. and E.L. Lehmann, Basic Concepts of Probability and Statistics. (2ed ed.) Philadelphia: Society for Industrial and Applied Mathematics, 2005, p.239.

[2] 張五常:《經濟解釋.卷一.科學說需求》﹝香港:花千樹,2006 年 11 月初版五刷﹞,頁 180。

[3] Darrell Huff, How to Lie with Statistics. New York: W.W.Norton & Company Inc., 1954. 文章首六點皆取自此書,解說和例子則是筆者隨意發揮,恕不另作過細注目。

[4] 羅曉芳:《數學在你身邊》﹝北京:科學出版社,2007 年 8 月初版一刷﹞。文章第七點的例子出自此書,只作些微修改,恕不另作過細注目。

[5] 算術平均數和中位數以 R version 2.5.1 運算:
> data<-c(1,1,1,1,1,2,3,5,5,6,6,6,6,7,8,8,9,9,10,10,10) > mean(data)
[1] 5.47619
> median(data)
[1] 6

[6] 以 Maple 10 繪,程式為:
> plot(x^2+1, x=0..1);

[7] 以 MATLAB R2006a 繪。

[8] R.A. Fisher's Iris data set. http://archive.ics.uci.edu/ml/datasets/Iris