第二章 資訊
第一節 文字的信息
第二節 概念的信息
第三節 中文概念
第四節 電腦概念
第二章 資訊
花謝花開,雲破月來,在在都是自然界的訊息;
人類不甘寂寞,硬把訊息與心鎖在一起,
遂永遠脱不開枷鎖。
---------------------
我對資訊的定義是:
【人類所認知的各種刺激,能以一定形式,代表一種或數種概念之資料或訊息。】
由上述的定義看來,資訊對人類而言,應是一種能被人類所認知的「刺激」,而且可以代表人所理解的「概念」,其呈靜態者稱為資料,在動態中的則稱為訊息。
人類的感覺有五種,分別是:視、聽、味、嗅、觸。佛家則認為應將「意」加入,是為「六識」,意為人對刺激的六種認識。
意識我們稱為內在刺激,由人的經驗交集所形成,且為個人行為及判斷的中樞。其餘五種則來自外界,其中「視覺」感知光影,人類可以藉圖像及符號等認知及表達此感覺;「聽覺」則接收聲波,並能夠用聲帶之發聲模擬該音調;味、嗅、觸三者人類僅能接收而不能表達,除了經驗的認知外,無法與他人直接溝通,故純屬主觀。
味、嗅、觸覺與反射神經有直接的聯繫,屬於接觸性之感覺,偏向於「本能」。當此類刺激產生時,反射中樞立即根據其「利害」程度,作出最有利於該個體的反應。聽、視覺則接收距離較遠之物體、狀況所傳來的聲、光等刺激。
這些刺激皆需依據本體之「利害」加以判斷,並貯存在記憶中,是為「經驗」的形成。經過客觀印証後,被同一社會的人所公認的經驗,即為「常識」。
有些經驗僅限於專門的行業,並流傳於該同行中,是則稱之為「技術」。舉凡常識及技術,統稱之為「知識」。
圖形及符號是靜態的「資料」,聲音則可説是動態的「訊息」,這兩者皆具有「接收」及「表達」的性質。所有人類的主觀經驗,透過「資訊」的交聯,得以互相轉換,並以之傳達給他人。對於原本沒有此類經驗的人,資訊遂成為最有效的工具,藉之可以立即建立起其「常識」庫及「專業」知識庫,這就是「學習」。
當然,在學習過程中,由於主觀及客觀的條件,認知效果迥異,諸如味嗅觸等主觀經驗,除了在同樣的條件下,無法用任何方式將經驗轉達給他人。換句話説,唯有雙方具有類似的經驗,而且皆能明確地掌握,才有溝通的可能。至於專業知識的學習,因為都必須經歷相似的體驗,故而效率最高。
即使是約定俗成的文字語言,也面臨相同的問題,因為在學習文字語言的過程中,需要將之與已形成「常識」的主觀經驗聯結起來。這種過程,必須利用感官的效應,一再與客觀事件印証,是為思考;而文字語言所聯結的認知,則稱為「概念」。所以每個人對「概念」的認知,與其經驗的廣狹,感官的靈敏度,思考、判斷的方式及文字、語言的理解及應用能力,有著不可分割的關係。
人生存在群體社會中,個人能力表現的高低,端視其常識概念及文字語言的控制程度而定。當然,除此之外,個人的遭遇機緣、生理機能和意志力量等因素都不能忽視。但是,本章所討論的,僅限於資訊範圍,故對其他因素略過不提。
個人感官的靈敏度來自先天,經驗則與身處的環境不可分離,這些因素非人力所能控制。唯有思考方式及常識概念,完全可經由學習獲得。也就是説,任一主觀個體的思考方式及代表其認知之概念,可以在客觀條件下,以資訊為媒介,傳遞給另一主觀個體。
這就是資訊的功能,它溝通了原本孤立的、一個一個互不相干的個體。每一個人主觀的認知,藉著客觀的資訊媒介,得以與他人的主觀相印証,從而得到更完整的認知。
在聲音的存錄技術發明以前,動態的聲音無從捕捉,但是靜態的視覺效應,卻可以利用一些形色的對比,產生辨識的效果,雖然辨識可能是主觀的,但形色的對比卻是一種不受時空影響的客觀現象。先民利用這種觀念,將所認知的概念,設計成一些便於聯想的圖形,漸漸發展為「文字符號」。
第一節 文字的信息
某負笈遠方,每寫家書,輒草草畫押了事。
偶病,囑友代筆報告平安,以免懸念。
其父得信,立刻星夜趕至。
-------------------
由於古代中國的農業社會特徵,兼以源於黄土高原,地域與外界隔絶。幾千年來,世世代代日出而作,日落而息,安土重遷。他們的工作是重覆的,經驗是連續的,所需要的資料訊息局限於對生活的認知,千百年來沒有很大的變化。
因此,當初民發展出一種直接記載事物的象形文字以後,除了歷代因為需要而增加外,其原始資料所代表的意義,和視覺辨識所應用的原則大體保存下來。這個特性不僅在歷史上具有連續的作用,團結了所有沿用這種視覺文字的後代子孫;也強化了資料本身的再利用價值,對農業文明的成熟與推廣有莫大的影響;最重要的一點,也是一直為人所忽略的,那就是:在人類文化演進過程中,對“人智發展”的忠實記錄。
在資訊時代成熟之前,文字只是一種記事的工具,其價值完全以學習、應用之方便及表達的完整與否為前提。學習及應用在後面「中文概念的特性」中將另有説明,而所謂表達的完整性,是指字符本身應該具有的全部信息,即傳達了使用文字者,在某一時代、某一地域,所記載的事物,以及記載時所用的工具性質等信息。
毫無疑義,由時代及地域可以考証出在客觀環境下文字的性質,記事則是「文字工具」所應表達的信息。但文字工具的性質卻很少有人提及。然而後人之所以能學習應用前人所流傳下來的文字,就是基於文字之性質符合人的“智力結構”。如果不瞭解文字性質,雖然能應用文字,卻無法「整理」文字。就有如一位會駕駛汽車的人士,其技術再高,若不瞭解汽車之結構性質,一旦車子出了問題,就束手無策了。
人類以文字為工具,已有數千年的歷史,包括文字學專家在內,都對文字的性質與人智的關係諱莫如深。當文字尚在應用階段時,由於實際的需要,人們根據慣例或某些因素,創造或摒棄某些文字。如果這種增減與人智之反應不謀而合,則能得到多數使用者的擁護;反之,必然被大眾唾棄,時日稍久,即煙消雲散。
今天資訊時代,就面臨著文字應用的轉型問題。我們必須深入瞭解文字與人智的關係,才能將文字的性質與資訊機器結合起來,以充份發揮應用資訊的功能。
我認為,文字的性質與人智有關者,有下列五種要素:
1,字形:字形為一種視覺效應,利用明暗、強弱的對比,人得以辨識其特徵而判別其所代表之概念。
就視覺之特性而言,字形大小一致,利於直觀認識;形狀工整,垂直向密度大於水平密度者,比較容易辨別;而在單位空間中,形狀變化則與所代表之信息量成正比。是故,中文字之信息量及辨認直觀性皆較拼音文字為高。另一方面,字形簡單者,易學易用,但卻減低了文字最重要的信息功能。為了彌補這種損失,必須結合多重字形以表達複雜的信息,拼音文字即建立在這種觀念上。對文字的認知,須由形轉音,由音得義,是為非直觀文字。
2,字碼:字碼代表文字的前後順序,能夠讓人很有效率地查到該文字的相關位置,其功能效率,與資料之應用量成正比。當資料量不大時,字碼的重要性不顯,然而在資訊時代,字碼順序與人的直觀認知,有著舉足輕重的關係。
拼音文字最大的優點,就是其字母具有直觀的排列順序,舉凡分類及各種資料查尋,都遠較圖形文字便利。
一旦圖形文字也建立起相應的字碼,且具有符合人類直觀的序列後,則比諸拼音文字毫無遜色之處。
字碼與字形須一一對應,也是一個不可忽視的因素,由字形可以看出字碼,從字碼也能直接求出字形。似此,則無論是形是碼,實為一體之兩面,如此才能發揮文字的真正效益。
我們使用的倉頡碼,就是根據這種理論所設計,在字碼上,可以提供數百萬種不同的組合,同時,每個組合都有一相應的字形,皆由程式提供。
3,字音:這又是拼音文字的優點,但中文也有約略相同的功能。因有百分之八十的中文來自「形聲」,即一字中,有以之發音的聲符。祗惜未經整理,古音已失,傳到如今,由文字可直接得到正確字音者,不到百分之六十了。
4,字義:文字最重要的功能,就是傳達「訊息」。這些訊息就是人對一般事物所認知的「常識」、「知識」。
人類所應用的文字大體可分為兩種,一是拼音文字,一為圖形文字,對拼音文字來説,眼睛見到文字以後,還要由形轉音,由音知義。圖形文字則不然,視覺得到了形象,立即與經驗中的認知概念相聯,效果快速。
人類的感知中,有百分之八十以上來自視覺效應,美國學者的研究顯示,最理想的符號,即為直覺的「視覺訊息」(Icon)。以各種交通誌號為例,如用英文,則長短不一,所佔空間不等,直觀反應不及等缺點,故而儘量採用圖形。
實際上,中文就是一種「視訊」,原就起源於圖形記事,後來為了書寫便利,才將圓弧改為其他較易書寫的形狀。
5,字類:中文在發展過程中,根據常識認知所產生的概念,保留在偏旁部首的分類中,謂之字類。
分類代表了文字的應用範圍,比字義本身的功能更有實用價值。這是中文最特殊、也是一直被忽略的一項文字功能。以往,中文字類僅用作字典上的索引,其實,這是一個很大的錯誤,人只有在不瞭解該字字義時,才有查字典的需要。既然不明字義,又怎知其分類? 而不知分類,如何以之作為索引呢?
第二節 概念的信息
三個盲人,想知道象是什麼樣子,
甲摸到象鼻,乙摸到象牙,
丙則摸到肚子,人人都似若有所獲:
原來如此!
----------------
前節所説的文字信息,在下文中將作進一步的研討,然而僅僅瞭解文字並不表示瞭解了文字與人智的關係。還有一項重要的因素,是人利用文字語言的目的,那就是前面提到的「概念」。
概念是含糊的、主觀的一種「概略的觀念」,代表著每個個體在生活中所認知的「常識」。正因為其主觀而難以確定,所以需要一種客觀的工具界面,以供人與人之間的溝通。
人們對資訊時代最大的期望,即是要求資訊器能夠瞭解並執行人類的各種意願。而達到這種願望的唯一途徑,則是令資訊器具有接受人所認知的主觀概念之能力; 也就是説,能夠理解人類獨具的文字及語言,並能共享「常識」。
問題關鍵在於,究竟人類認知的常識和概念是什麼?從古自今,哲人賢士苦心積慮的研究、著書,莫非希望把他們一般的常識以及獨特的知識記載下來,以供後人認知。雖然在字裏行間我們得到了一部份或大部份他們所欲傳達的訊息,不幸的是,由於概念的主觀性,在雙方表達及理解的過程中,難免有所偏差。
雖然概念是主觀的,但經過長時期人類的再認知,並賦與各種詮釋,故而也能有客觀的共識,否則,人與人之間絶對無法溝通。這種共識,經由教、學過程而完成,祗是限於每一主觀個體之經驗,教學的效用並不能完全消除主觀歧見。
對於常識及概念,我的定義是:
【外界來自的刺激在感覺神經中產生了某種效應,人類意識對此效應的認知,經過客觀印証者,是為常識,代表該常識的一神經電流脈衝,即稱概念。】
至於知識,定義是:
【人對日常生活之認知為常識,各種專門行業通用的常識是為技術,常識及技術之總和,則稱為知識。】
由於人類生理結構相同,對於各種外界刺激所產生的效應也必然類似。因此,當人接受外界刺激時,其主觀「感知」的效應,與他人所感知的效應,經過溝通印証後,所得到的「認知」,即為常識。常識是指人對日常生活所涉及事物的一般認知,知識則比較深入,但仍建立在常識之上。
至於知識,其有別於常識之處,是包括了不同專業人員的常識。而這些專業常識,對一般人或局外人而言,則為「技術」。所以,知識也可以説是全部人類所擁有的常識。
這些認知都只是一種神經網絡中、生化電流導通的現象,電流的導通使得各種相關的感覺同時出現,故人對刺激產生的效應有了完整的認識。這種認識只是主觀個體的感受,人類之所以不同於萬獸,即因大腦皮質層的進一步分化,有了一種可以代表主觀感受的記憶體,其記憶者,即為概念。
然而,刺激是動態的,視各主觀個體的條件及環境而定。任何人在任何時空中,所遭遇的事件都不盡相同。所以前述的「認知」,只能代表主觀個體的感受。
舉例説,「甜」、「紅」都是共通的概念,在客觀立場,「糖是甜的」、「血是紅色」為真。但每個人所感到的「甜」及「紅」,以及其主觀的效應,絶對有所不同。所以,概念僅能供作人類客觀事物溝通的參考,而永遠無法有完全的共識.
因為人類在認知「概念」之前,往往先有「經驗」,所謂經驗,我的定義是:
【時、空間中所發生的各種現象或事件,透過人的感官,令意識認知該現象或事件與自我利害關係者,是為經驗。】
經驗的形成較概念更為複雜,因為時空殊異、個體感官有別,加以每一個人的經驗都建立在過去的經驗上,所以,任何一點細微的不同,對日後的經驗都有決定性的影響。
經驗純屬主觀,人藉著經驗才對外界產生認知,且因為認知而有概念。所以,每一個人早期的經驗,往往影響到其「概念」的形成,並構成個人意識的主觀型態,而有著獨特的「個性」。
學習是泯除這種主觀型態的重要過程與方法,尤其在嬰兒時期,父母的照料方式、環境的變化,幾乎可以説決定了人的性格。這些課題,我們將在〈人性觀〉中詳細討論。
本文所討論的都是一些基本概念,由概念形成觀念,這些觀念的全部,則組成了線性的宇宙層次。通過對每一層次的認知,才能理解人及人性。從而再透過結構的組織,終至認清宇宙全貌。
要想理解「概念」,最好從人類發展「概念」的過程上著手。可是逝者已矣,這種發展過程從何得知呢?現今全世界人類所沿用的各種文字中,唯有中文保存了大量的「概念信息」,透過這些信息,我們才能成功地與「古人」心意相通,以致體認到概念的來龍去脈。
反之,拼音文字的「概念信息」相當缺乏,因為拼音文字是以語言為基礎,在語言發展成熟以後,為了記事的方便,遂發明音符,將語音拼為文字使用的。
從歷史的角度來分析,游牧民族必須逐水草而居,而先民的記事工具不發達,攜帶不便,故未能發展出文字。同時,語言是動態的,各代之間,隨著生活習慣的改變,語音就會略有分別。語音不同,就造成溝通的不便,溝通不便,就使得原是同一祖先的民族分裂。
中華民族之所以歷數千年而不致分裂,是因為後代子孫雖各操不同的方言,而使用的文字卻共溯遠古,無礙彼此的認同及溝通。
拼音文字不僅形成分裂型的文化,兼以缺乏語音的原始記錄,所以在文化發展過程中,並沒有一種共同的演化規則,時到今日,後人無從觀察其概念結構的蛛絲馬跡。在工業革命時期,人類所追求的是生產效率,價值觀建立在經濟實力上,而拼音文字音形相通,字符有限,應用的功效遠遠高於圖形文字。可是在資訊時代中,情勢逆轉,資訊的效益、功能完全在於「概念信息」的大小,拼音文字就相形見拙了。
為了便於進一步的研討,兹將「概念信息」定義如下:
【文字中具有概念之分類、性質、特徵以及應用關係等信息者,是為概念信息。】
要應用概念信息,必須先從改進資訊工具的功能及結構下手,然而,對概念信息沒有充份認識以前,又無從著手資訊工具的設計。實際上,所謂概念信息,即相當於歐美各國所從事「人工智能」項目中的「自然語言」。
過去,歐美發展自然語言的基礎是字典查尋、文法分析及語意剖析上,但一直沒有滿意的結果。近來的趨勢,以耶魯學派為首,主張朝向概念分析發展,只是一時找不到理想的分類方式,眾説紛云,莫衷一是。
我認為,「概念信息」就是文字本具的概念定義,只需再加上語意結構,自然語言的全部功能就完備了。
兹將中文所具的概念信息分別説明如下:
1,中文文字的概念分類、性質及特徵:
根據許慎的「説文解字」,中文源自六書,分別是:
象形,指事,會意,形聲,轉注,假借。
中文字形發展的規則即為以上六類,其中形聲是以「形符」代表文字意義的分類,「聲符」代表該字的發聲。很明顯地,中文在造字之始,已經有了分類的觀念。
再根據「部首」來分類,在台灣「中華學術院」印行的「中文大辭典」上,共有 216個部首。這是在文字發展過程中,由於實際的需要,從生活經驗中篩選出來,再經過歷代的試用驗証,最後「約定俗成」而得。
我們根據部首,再進一步分析,以字形的結構為主,共得到「字首」 597個。這些字首,有的是沿用原來的分類,有的則是因為需要而發展變化得來,也有一部份是根據我們的設計理念分析出來的。總之,如果每一個部首能代表某類事物可推知,這些類別必然具有實用價值。
這就是字首的概念分類,在一個單獨的中文字形中,只需對輸入字碼加以查閱,立即可得到其分類的信息,請參考附錄二中文字首常識分類表。
2,文字本身的概念定義:我們計分出 8大族,每族 4類,每類8種共為 256種,每種之字數不限,對常用之八千餘字而言,平均每種有卅多字。其各族、類、種之部份資料,請見本書附錄一所收錄之分類表。
分類是一門極其複雜的學問,對任何一種事物而言,要得到理想的分類,都是煞費週章,很難面面俱到。人類所用的文字,是經過無數世代,無數才智之士,精心的設計、印証,可以説代表了人對萬事萬物認知的總和。今人要想在短暫的時間裏,把文字做合情合理的分類,可以説是難上加難。
有不少西方學者,早已發現了概念分類的重要,但囿於文字概念的模糊性,沒有任何人對之具有全面的認識,所以,迄今尚無理想的結果。
中國文字雖然本具概念分類,但因國人之民族自信心早已喪失殆盡,一味崇洋,唯恐步趨不及。至於自己的傳統文化,識者卻是寥寥無幾,放著偌大的概念寶庫不用,反而嫌怪中國文字落伍過時,竟去緣木求魚。
我們設計的「倉頡輸入法」,就建築在上述的概念分類上。應用倉頡輸入法產生字碼之時,已同時具有字碼、字形、字形辨識、字音以及字義分類五大功能。根據這個理念,我們已經將中文字形用最小的空間設計成功,加上字碼與英文兼容,完成了中文電腦的基本結構,中文字形辨識則即將推出,至於字音字義也將在近期之內,隨「中文自然語言」的應用系統,公開問世。
第三節 中文概念
要得知刑案的真相,須偵查原始現場。
欲理解人類思維方式,應分析初民文字。
唯中文保存了人的思路痕跡。
------------------
英文文字由廿六個代表語音的字母組成,非常簡明。中文文字則需要很多不規則的筆畫交互疊加,讀寫起來,都比英文麻煩。此外基於應用的觀念不同,同一種概念,在英文用一個單字即可表達,而中文卻很少有獨立使用的單字,必須將字組合成詞,以詞代表一個完整的概念。
這是因為中文係每字一音,而人耳能辨識,聲帶能發出的聲音並不多,標準國語包括四聲在內,僅有一千三百多個不同之音。在語音發展的過程中,為了避免重複和混淆,習慣上常採用「詞組」或「複字」等方式。也就是説,有些中文還要多組合一次,才能明確地表達一種概念。本來,中文字數就遠比英文的廿六個字母多,再加上這些組合,當然是難上加難。
表面上看來,英文的學習及應用的確是比中文容易,可是文字代表人類所有的認知,其效益絶非簡單的評估就能論定。不僅是文字,任何事物,都需要以其功能,來決定學習的時間長短。由於文字有一般的使用環境,也有更高層的應用功能,如果將這兩個不同的階段分開,答案就完全不同了。
兹假定,學習中、英文文字者,都已能運用該種語言,進行普通的對話。當學習英文時,只要學會廿六個字母及拼音法則,很快就能掌握其文字。而中文字彙則必需一個一個地學習,幾乎可以説沒有捷徑。這是第一個階段,學習的上限大約在五百到一千個文字,文化程度相當於小學五六年級。在這個階段,英文的確要較中文容易。
再繼續學下去,由常用對話進入專門知識時,英文每一個字彙仍祗代表一件事物,因而字彙逐漸增多,必須一一個別學習。但中文則不然,近千個單字,幾乎代表了近八成以上的「基本字彙」,而詞組多半能用基本字彙連接組合。換句話説,中文的學習在達到某一程度以後,對新詞的理解及應用將愈來愈容易。
兹以「車」字説明中文詞組與英文文字的差異:
由上表可見,中文的詞組是以「車」為概念分類詞,如在「車」前定義,可視作對「車」種之分類; 也可以在其後定義,則為車之附件或車之其他分類。
這種定義方法層次分明,充份利用各種已知的概念,導出新詞,大大提昇了文字的靈活性,既容易學習,又容易應用。但有個先決條件,即必須具備較完整的基本概念,對初學者而言,當然比較困難。
英文則完全相反,廿六個字母不多,很容易學會,其文字的定義也較完整,不必學太多的基本概念,就可以應用。可是,繼續下去學習的難度並不因為已有了基本字彙而減低,每一個獨立的字彙,都要重新學習,很少有組合的關係,更難得有分類定義的特性。
這兩種不同典型的文字優劣互見,對文化層次不高的人來説,英文比中文易學易用。在一些專業的立場,文字本身只供某種概念的詮釋,中文組合的功能也顯得多餘。一旦進入尚待開發的智慧領域,以及極為抽象的觀念認知時,具有組合性質的中文,就遠比概念獨立的英文要強得多了。
從歷史的角度來看,中文曾經有過極為輝煌的時期,將抽象思維發揮得淋漓盡致,而英文等其他拼音文字,則走上務實應用之道,終於有了今天的成就。到了資訊時代,則將由「人智」開創另一個新局面,概念的認知與應用才是成敗的關鍵,當英文單字還要靠人加以定義時,等義的中文詞彙早就輕易地組合出來了。
在我們初步的分析下,配合了電腦的結構,中文的基本概念可分為 256種。每一種基本概念之間又有主從的連接關係,原則上,這種連接關係與電影的視覺語言--「蒙太奇」極為相似。文字的順序相當於時間流程,每一個文字所代表的概念,則相當於每一分割的畫面。當人看到連續播映的畫面時,會產生一些認知,中文亦有此種效果。
比如説,中文的「量詞」相當於一幅畫,如一塊、一條、一堆、一片、一樹等都是「圖形」,每一種物事,都須冠以合適的量詞,以描述其形、質,否則就會感到不倫不類,這就是蒙太奇--前一畫面與後一畫面的直覺關係,中文的詞組幾乎都是這種架構。譬如「脱逃」與「逃脱」之別,在畫面上,若先看到「脱出控制」再行「逃走」之畫面時,必然感覺到是進行式; 而先「逃走」再看到「脱出控制」,則顯然已經完成了全部的動作,達到了目的。
第二章 資訊
第一節 文字的信息
第二節 概念的信息
第三節 中文概念
第四節 電腦概念