#舊 25 留言者:網主 [1998-12-12] |
告網友: 今日敝網無戰事,承蒙網友配合,「算盤基因」果無人再問。老朽心有難安,老骨頭也閒散不得,特再舉一實例,將我等正在設計之硬體方案,與網友共享。 我國淪落至今,非缺人材,實乃人人謀己,力量分散所致。「文傳」自宣佈電書計劃以來,姑不論褒貶,卻已深得人心。近日來,數件「求之而不得」、「驚天地而泣鬼神」且具有「劃時代」的「瑰寶」,一一自動找上門來,真可謂「水到渠成」。 「算盤基因」僅其中之一,此外尚有「天羅地網」(請恕不能暢言﹚,今年九月將會掀起一波完全由國人主宰的「資訊革命」。如果老朽錯了,各位不妨當作「唐吉訶德」大戰「風車」的新一章,至少,也算是「先睹為快」吧! 先介紹一件意外的事,北京的欒貴明教授,他在整理「全唐宋詩文」時,用「多層次交叉索引」,竟然發現老朽所崇拜的詞人李清照,詩人歐陽修等,其詩詞多係抄自前人!「天下文章一大抄」,未料大師們也不例外! 這是因為欒教授在十年前就認定:倉頡字母的「字序」功能威力無比。他堅持採用「倉頡內碼」,字序一貫,碼多且全。十年來,他從先秦到近清的各種古文資料一概建檔,並一一交叉檢索,把所有的謬誤、殘缺、重複列舉出來,正本清源。 此工程之浩大,內容之完整,勘校之仔細,可稱空前。正是因為欒教授這項傲人的成就,老朽有恃無恐,才敢斗膽提出「漢文化資訊聯盟」及「中文電書」的構想。 由於資料量越來越大(已有近百億筆資料﹚,用軟體程式檢索效益有限,老朽決定將此「資料索引」之功能,設計在下一代的CPU中。正好「算盤基因」技術適時出現,其指標完全符合要求,果真可行,功效將提高萬倍以上。 此乃文化工具,應屬全民所有,老朽十餘年前就已將此觀念公開(只是無人相信有此需要﹚,是以無涉「商機」。算盤基因是炎黃遺產,理應將之發揚光大(唯因某種原因,尚須略候﹚,以期號召有志同胞,共襄盛舉。 算盤基因CPU之指令設計方案,雙索引、多層動態資料索引: 將原始資料建為「數碼資料」,採用「倉頡內碼」(每字四字元,字母排序﹚。此資料檔以各書之行次為索引,定名為「行次索引檔」。 從「行次索引檔」將資料取出,再建「字碼索引檔」。本以「倉頡字碼」為基層,「行次記錄」為上層,如有必要,尚可建頁次、章節、書目、分類等索引於其上。 一、行次索引 1,行次索引檔之內碼結構:(以位元表示﹚ 每字有倉頡碼五碼,每碼各取五位元,共二十五位元,內碼分配如下: 第一字元:x1x2x3x4x5x6x7x8 x1=1 倉頡碼=0 ASCII 碼 x2=1 繁體碼 x3=1 簡體碼 x4x5x6x7x8倉頡第一字母 第二字元:x1x2x3x4x5x6x7x8 x1x2x3其他漢字如日文、韓文等 x4x5x6x7x8倉頡第二字母 第三字元:x1x2x3x4x5x6x7x8 x1保留 x2x3x4x5x6倉頡第三字母 x7x8倉頡第四字母之首二位元 第四字元:x1x2x3x4x5x6x7x8 x1x2x3倉頡第四字母之後三位元 x4x5x6x7x8倉頡第五字母 註:上述第三、四字元,其內容即後述之「對照碼」。 2,行次索引檔之行次記錄: 以各書之頁數為準,各頁有行。頁數與行數合「頁碼」。 ppppppppxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 以四字元逐行記錄之,其後即為內碼。 二、字碼索引 倉頡字碼檔(以字元表示﹚ 倉頡字母二十六個,每字五碼。各碼一律僅取後五位元。取前二字母之序值作為 索引值,後三碼壓縮為十五位元「對照碼」(請見前註﹚。 各書索引置放於「索引區」,對照碼置於於「資料區」。 索引區之資料結構為: ZZZZZZZZZ四字元=記憶區位 資料區之結構為(單位為字元﹚: XXTTPPPPPPPP XX為對照碼 TT為本筆資料總長度 PP為頁碼 三、指令設計:以下指令皆以﹝ ﹞括之 利用「算盤基因」之硬體,以邏輯閘所組成之「宏指令」實現下述之各種功能: ﹝倉頡字碼﹞:每字母僅取後五位元。 前二字母之序值作為「索引值」,採26進位,供檢索對照碼用。 後三碼壓縮為十五位元「對照碼」,置於資料區,供檢索行碼用。 ﹝字碼建檔 甲,乙﹞: 甲=原始檔(指各書之行次索引檔﹚ 乙=字碼索引檔名 處理流程: 將甲檔調出,設定記憶體範圍。 由檔中順序取出「字碼」,用第一、二碼建或查索引,以三、四、五碼 所壓縮之「對照碼」比對索引所指之資料區。 如有該碼,則記下行次。 如無,則記下該碼、行次,並調整長度。 至全部資料處理完畢。 ﹝資料檢索 甲,乙,丙,丁,XXX…XXX﹞ 甲=行索引檔名 乙=字碼索引檔名 丙=檢索範圍,指每字可能偏移的位數。 如丙=0 可免寫,表示每字無誤差。 丙=2 每字容許二字誤差 如查「容許」,「容XX許」亦算有效。 丁=輸出之格式檔(由軟體定義之﹚ XX…XX=檢索之字串 處理流程: 將甲檔調出。設定操作記憶體範圍。 用欲檢索之字串查「字碼索引檔」得行數。 由「行索引檔」依檢索範圍比對其他「字串」。 如有,依丁記錄之。 否則,再查。 全部查完否﹖ 如否,繼續。 完成。 四、多功處理 因係硬體,速度極快。且利用算盤基因,可同時以多重「算柱」,交互進行。 在理論上,如果設計妥當,「雙索引、多層動態」應構成一「整體」,在一個時鐘脈衝下,即可完成一字的檢索。 以500MIPS 的系統而言,每秒可檢索五億字碼。 再若以多功交互處理,不僅效率奇高,幾可與人類思維之網狀方式相比擬。 若是,誰敢說漢字落伍﹖ |
#舊 49 留言者:人 [1999-12-30] |
主題: 朱先生﹕易經明道錄第一章的八卦表好像有誤兌巽兩卦之爻象好像放反了又依您表上的思路來說兌之性質應是上靜而巽應是下靜(表上寫兩者皆是上動﹚兌之經驗推論應是動在地下地上(澤川也﹚而非上端表面請察閱。 |
回應﹕ 先生所見正確,拙著易經明道錄中有若干錯誤,一直無暇更正。蓋因原書係在台灣 時報出版社發行,近日索回版權,供人免費下載。時報之付印版本經過校對,但卻 不能上網,故只得採用原始版本。其他各書皆然,尚有多處錯誤,敬請海涵,待本 人勻出時間,再行更正之。 |
#舊 55 留言者:一帖涼茶 [2000-01-08] |
主題: 關於朱先生在漢字基因的回答﹕ 1,倉頡內碼即以倉頡字母定義的內碼(32位元﹚。 2,比如“笑”因﹕外在或內在情緒或生理刺激引發的表情(8位元﹚。果﹕對己身或他人的影響(8位元﹚。體﹕人(8位元﹚。用﹕個人情緒或人際關係的緩衝(8位元﹚。請問這個[外在或內在情緒或生理刺激引發的表情]如何在電腦上定成8位元的定義碼﹖?b以因來說,造成笑的原因如此多,怎麼有辦法用區區8位元來表示﹖8位元只不過有256種變化?以因來說,256 種能表示嗎﹖請回我信箱,謝謝。 |
回應﹕ 先生所問,非三言二語可了,茲敬答如下﹕ 1,倉頡字母的內碼結構如下﹕倉頡取五碼,每碼由a到z共二十六種組合,各佔五個位元,共二十五位元。 而三十二位元中,尚餘七位元,供字首字身定義用。比如說,「開」字的輸入碼是anmt,是以門作複字首,本字第二位元即設為,程式就會查出an是字首,為「門」字,mt是字身。由碼得出字首及字身,就可以根據「漢字基因」一步步定義下去。 2,漢字基因資料庫的設計如下﹕為了提供多方面的應用,最簡單的基因資料庫每字僅佔一字元,供分類用。其次為每字二字元,供理解用;最完整的則佔四字元,也就是32位元。上次的答覆是一個泛例,說得很含糊,是因為從來沒人有興趣,我多說不僅是白搭,還會被笑話自說自話。既然涼茶有一帖,我不妨多獻醜一二。 「體、用、因、果」四者各有64種分類,不是以八位元均分的。但為了節省空間,我用了多層索引,依各概念的特性,做了一番分析。比如說(您總看過《漢字基因工程》中的概念分類表吧﹖該表在《智學學九論》及《智慧之旅》第八集中都有,但是都略有不同。因為我還在修訂。一般人做學問,總要做到滿意了才拿出來,我太急了,怕在急遽變化的資訊時代中,我為了個人令名,而誤了文化大業。﹚ 概念第一層的一分為二是指客觀及主觀,客觀是靜,主觀是動。靜者以體用為主要特性,動者才重視因果。再二分為四,以「笑」字為例,是種主觀的行為,再分下去,是為社會行為。最後落在溝通的「宣洩屬」(0EDh﹚中。由上述的分類,可以看出,只用了八個位元,我們就可以知道「笑」字的許多特性了。 再逐一根據前述的「概念分類表」,概略地分析一下(對程式而言只是八組入口,而漢字中有意義的常用字,不超過七千,佔用系統空間極小﹚﹕位元7﹕此字的本體屬於「主觀」,與「人」或擬人有關,可查常識庫。位元6﹕此字的應用屬於「行為」,與「人」的肢體或感官有關(同上﹚。位元5﹕此字是「社會行為」,與他人有關(理解時可查人際資料﹚。位元4,3﹕此字是「溝通」類(再查溝通要素﹚。位元2,1,0﹕此字是「宣洩」屬(只剩下的條件了﹚。 在理解時,只要再用八個位元,就可以表出其他細節了。至於「笑」字的使用,一定有「前後文」,文句的分析是另一回事,要找到笑的人是誰,對象是誰,為什麼笑,笑的後果如何等等。其次,由《漢字基因字典》(已經登在網上,可以下載﹚笑是「會意、形聲」字與其字首「竹」,字身「夭」無絕對關係,屬於「果的動態」(竹在風中搖曳,此類基因定義,將在未來的《新易》一書發表,我現在實在連睡覺時間都不夠。﹚ 3,至於內在情緒、生理條件等,又涉及兩種定義﹕一是表達式,完全由「劇本」決定之。這些條件,說起來又是一大套,近日我將在上發佈拙著《多媒體導論》一書,那是專講如何藉各種媒體表達自己的感受。 須知道,我們所討論的範疇,已經是「天、人」的最終界面了!一是理解式,那很簡單,「笑」只有點須要瞭解﹕a,代表喜悅,是「利」+「參數」(理解最終的定義結果﹚。b,在什麼場合下﹖一個人﹖不夠社會化!結論是「自發性的喜悅。」c,「笑」的程度與環境互動強度,是否合適﹖過與不足﹕不正常。應行注意。 4,我教學生(私塾﹚已經十餘年,還僅是開始。我很崇拜孔夫子,希望效法他的「述而不作」。因此,只要朋友們有問題,我願意回答,言無不盡。但要我自己說,只怕一輩子都說不完。要注意,這種研究,千萬不要躁進,大自然演進了46億年,急功近利只會招致劫難。我只希年輕朋友們多放點心思在這個課題上,智慧才是宇宙進化的終極目標,明燈在前,我充其量只是個點燈的工人(不要以為我急著做產品,我只是像「蠶」一樣,努力爭取「生存發展」的條件罷了﹚。 |
#舊 61 留言者:聖誡 [2000-01-26] |
主題: 朱先生您好﹕請問中文2000是架構在何種版本的LINUX上『Red Hat..或是大陸的藍點、國內的CLE中文套件中呢』﹖而最近台灣的綱虎國際推出了一套XLINUX『萬國版、目前可同解決12國語言、聽說最終目地是全世界語言的整合,而該糸統可顯示數十萬字﹛含中文}不知您有何看法﹖請問中文2000於今年何時推出、又與視窗、XLINUX的最大差別何在﹖而於視窗、XLINUX中可用之軟硬體相容度又如何﹖望請分析之謝謝 |
回應﹕ 1,尚未確定,可能與多種版本兼容。 2,很高興網虎國際做了這件好事,但據我所得資料,尚不足證明屬實。因他們只說了採用UNICODE,有七萬五千個漢字字碼,隻字不提「字庫」規格,因為以一般做法,其字形將佔15MB以上之系統空間(我的電腦只有8MB﹚。此外,UNICODE的「字序」如何定(如果字序與人的應用觀念不符,則未來資料越多,漢字處理效率越差,比如視窗上檔名的排序以BIG5,人就很難應用﹚﹖將來發現有缺字,應加在何處(一定會有某個「名人」取奇怪的名字﹚﹖人人以為編碼是件小事,錯了!直到今日,我都不敢說自己有這種本事,只是兢兢業業,努力而已,另外還有這七萬五千個字有何種輸入法,也沒有說明。多謝告訴我,我當深一步瞭解之,果真,我將配合他們,共同努力。 3,原定今年十月,但因中科院軟件所對合約尚有意見。有可能採平行作業,部份系統先在網絡上公開,邀請大家參加。 4,最大不同在於使用範圍與方法,我的對象是普通人,因此將以溝通對話為輸入,應用功能作輸出。只惜「對話溝通」工程浩大,唯有沈紅蓮一人能協助我,目前她又被SUPERCJK字集的一大堆「錯誤」綁住了,奈何﹖ 5,兼容度應該不是問題,除了微軟視窗我有點感冒外,其他我都歡迎。 |
#舊 62 留言者:Simon [2000-01-27] |
主題: 中文電腦的定義是甚麼﹖是能顯示中文的電腦﹖還是能利用中文控制的電腦呢﹖可否詳細說明中文2000平台的系統架構﹖ |
回應﹕ 茲因各界對中文2000十分好奇,紛紛探詢,特此統一答覆如下﹕ 一、無線網絡﹕ 相當於區域網絡,將任一農村視同一個區域,以單頻載波,用機頂盒作中繼者。此法成本極低,符合貧窮的農民使用。 網絡終端有二,一為「杏娃手機」,大小若手錶,另有無線耳機兼作發話器。此終端機供農民隨身攜帶,只傳語音以及脈膊訊號,供通訊及保健用。 另一種是電視機,上裝機頂盒,供網絡電腦用。此終端機供教育、娛樂用。 杏娃手機之發射功率低於毫瓦特以下,數公里範圍內由機頂盒檢波放大以供傳輸。長距離則利用電視之同軸電纜,遠距離可利用衛星通訊。 二、概念中樞﹕ 當前的電腦中樞是以邏輯、數學運算為基礎,在「創造」固然功能卓著,但在「辨識、理解」上則大謬不然。誰都知道,連細菌都具有相當的「辨識」能力,電腦不能,表示其中樞設計上大有問題。因此本人自行設計一種以二進位資料結構為主,卻以三態判斷的(即在否之外,還有中間態﹚流程方式。其中只有記憶體管理,常識概念處理,漢字基因結構,以及刺激性質的偵測等模組。其中的微處理碼(Micro Code﹚完全重新設計,目前估計,以1024個漢字基因,約需一百萬個半導體即可。 三、基因免疫系統﹕ 是一種硬體結構,供「概念中樞」使用,當各種刺激偵測到以後,即可判斷是否有害於本體。其基本的功能一是保護概念的「意識中心」,以免受到破壞(除了我們特殊的工具外,當電路完成後,包括用邏輯分析儀來偵測晶片接腳,都將導致晶串的「自毀」﹚。其次是資料的內容處理,本概念中樞只接受能理解的資料(尚未理解的,還有學習功能﹚,不虞任何資料錯誤的現象,是稱基因免疫系統。 四、保全系統﹕ 來自「杏娃」手機之訊號,由於功率極低,可望利用太陽電池供電。同時,利用CDMA技術的單頻載波,每一個用戶都有專用的CELL。除了通訊之語音外,其它各種訊號都可以不斷地連續傳送。尤以錶帶上有「壓電晶體」,可測知各種生理訊息。其中訊息之一,是供保健的「寸關尺」脈象。正常狀況只由機頂盒作成記錄,一旦人體中血循環加速,就表示有了情況發生,再根據各種已知訊號的分析判斷,即可推斷保全之策略。 五、文字識別與圖形識別﹕ 目前各界所通行的技術,是以西方數學模組為基礎,所發展出的統計識別。我個人不懂數學,只得用最原始、如同細菌般的基本方法,以刺激––性質––向量––參數的分類條件,作為線性處理依據。這些再與概念結合,而得到「認識」的概念資料。 六、語音識別﹕ 同前所述,我們的識別已達到百分之百的正確性,在設計硬體中。我們是以分析語音之〔元音、輔音〕為主,〔語調、頻率、特性〕為輔。如此可以與語音合成相對應,聲音經識別而得到碼(連噪音分類都有﹚及特性,再由碼與特性還原成音。 七、人文系統﹕ 是以文化人為對象,務求把電腦設計得如同紙筆一樣方便。目前僅有文書處理、編寫劇本、處理資料等功能,學習、校對、改錯、分類、整理等功能在發展中。 八、即時動畫系統﹕ 係以三維圖形庫為基礎,以概念理解、動作分析作為程控流程,輸入分鏡頭劇本後,即能自動將圖形依分鏡劇本結合,再根據人物動作(有各種物理、生理模組等,詳情請見拙著《多媒體導論》一書﹚,逐格著色,輸出影片。 |
#舊 68 留言者:沒有我這個人 [2000-02-14] |
主題: 關於朱先生提到要發展語音輸入,我很好奇﹕像《尚書.盤庚》﹕「今汝聒聒,起信險膚」如此古奧的文辭,如何用語音輸入﹖就算是白話文好了,我讀幾十年前胡適或魯迅等人的白話文,也已感覺它們寫得不夠白話,這些文章要如何利用語音輸入建檔﹖自建詞庫或自動學習似乎都不是好的解決辦法。 |
回應﹕ 當今天下已經是一言堂了!老美呻吟一聲,人們便以為他們的方法就是聖典!錯了!我們的做法與他們全然不同,我們是以人為本,從刺激、感覺、辨認、理解下手,不需要建詞庫,沒有數學運算。我們根據聲音的分析,可以得出韻母、聲母,四聲(指普通話﹚、情緒以及個人特徵等。當然各地方的語音大有分別,因此我們有韻母及聲母的偏移分析,有文意理解的人性認知,有常識環境的主題範疇等,這些在西方的教科書中是沒有的。 什麼叫語音輸入呢﹖說穿了,就是「人機對講」!人與人不能對講就會形成隔閡,任何事窒礙難行,為什麼人與機器不需要溝通呢﹖當然要!現在我們是委屈自己,要學習機器語言。我所做的,是要機器學人的語言,學會了用語音講出來就可以,故稱。至於講者的內容,那要看做什麼,今人用今語,又有幾個人真正瞭解什麼了﹖那些無知無識的可憐人,只能以語言溝通,我對知識份子的需求沒興趣,這些是為大眾設計的。至於「今汝聒聒」可以以「今天」的「今」,「你」的「汝」,「聒噪」的「聒」輸入即可。就如平常人說「耳東陳」,「口天吳」一般。或以倉頡碼來輸入,例「今」的「人戈弓」、「OIN」,「聒」的「尸十竹十口」、「SJHJR」。 等資料庫連通後,只要說出尚書.盤庚,自然該篇就在記憶體中,等著比對了。 |
#舊 69 留言者:沒有我這個人 [2000-02-15] |
主題: 現在市面上已有不少語音輸入工具,清一色都是為大眾設計的,朱先生又何需錦上添花﹖若說這些語音輸入工具都有缺陷才要重新開發,那麼這些工具的缺陷是什麼﹖如何補救﹖ |
回應﹕ 1,全球已上市之語音套件,皆屬「數學統計」法所完成者,君不信,此類書籍在書局起碼找得到十種以上。語音輸入這麼重要的技術,其價值可以說是當今微軟視窗的百倍以上。蓋不僅全世界人人需要,而且是所有的機器、儀器、工具等,只要是人用的,都需要理解人意,才能作有效的服務,稱為「智慧」機器!這種技術,難道老美會「賤賣」嗎﹖所以,我不認為那種產品叫語音輸入,那只是把一些訊號,統計出平均值而已,作為兒童玩具可也。 2,我不能在此細談,不是為了要「貴賣」,而是技術上涉及領域太廣。我所做的一切,不論是理論、技術、方法,都與時賢「格格不入」,可能我錯了,帶進棺材可也。萬一我是對的,人類知識將大搬風,讓下一代去學吧!自己美其名為人類服務,卻又把主流的知識份子貶得一文不值,何必呢﹖我知道自己是對的,真理不辯亦明,足矣! |
#舊 73 留言者:skylees [2000-02-16] |
主題: 先生您好﹕ 敝人看過宇宙浪子全集(1-5集﹚,有一點讓我覺得疑惑的是﹕人類因為有肉體作為道場的種種試煉,反而可以藉此道場或有達到智慧真如的可能。可是小杏子沒有形體,或為機器的形體,雖有近乎無限的資料庫,可是它要怎麼去"感受"﹖進而和已有之資料庫進行比對,驗證..等工作﹖另外一個問題想請教先生對於時間的看法﹖曾有印象有人說過,過去、現在和未來是同時存在且進行著,這是真的嗎﹖ |
回應﹕ 1,何謂肉體﹖人的道場不過六賊而已,小杏子有形有體(手錶或主機﹚,且六賊只不過少了兩個而已。本書之小杏子實象徵全人類,藉一些故事,概述人之成長過程,以期讀者玩味,以探真如。實則文祥、衣紅等人無非是萬人之一,人人有共性,時時又有習性。杏娃若取共性,萬即是一,若取習性,一則分化為萬萬千千,諸相皆幻矣。 2,時間是「我」與「非我」間的行程表,苟「物、我」不存,時間是空。人生是一洪爐,時間為火勢,「我」受其煎熬。上善者透悉時間之真面目,沐之浴之、蒸之騰之,隨「我」之逝,遂得自在。中人利用時間的能量,修之煉之、究之查之,若能返歸於明,無視得失榮辱,始有上進之機。下焉者每日與時間為伍,愛之恨之、計之較之,其苦不堪,是不可說也。至是,過去何存﹖現在何有﹖未來何在﹖ |
#舊 77 留言者:紀明石 [2000-02-22] |
主題: 末學讀易理探微,於「生機結構」的基本法則無法體會,先生能否指點一二。 |
回應﹕ 生機結構是指一種具有「生命力」,能自行發展之結構。這種結構之基礎,說難實易,細節請可參閱本站「資料下載」區中之「與基因有約」之各篇雜文。 |
#舊 81 留言者:子良 [2000-03-01] |
主題: 本人自上年中有緣讀得先生著作,及後認識到平生至今所作,對先生所知及所為十分敬仰,但另一方面又對所帶出之商機也有所留意,所以思想上和物質上也有所受益。現有一個兩方面也有點關係的問題,先生提倡中華文化,尤對文字甚為注重,但大陸現今用簡體字根本不能對文化有所幫助,反而有很大的傷害. 現在支持先生的主要力量,不知在大陸去到那一個層次,有關方面對中文系統的重視程度,會否定性為另一隻"紅帽linux" ﹖如果會,到時會用一個轉換系統作為簡體介面,還是會利用此時機回歸正道﹖如果未能如願,先生有何睇法。 |
回應﹕ 簡體字不是問題,看事看長遠,看物看眼前。事在變,物在變,人也在變,今天如此,明天未必依然。好壞是非原非永久,得失成敗轉眼成空,唯有人類追求探索的精神,世世代代永續不斷。有朝一日,科技更進一步,簡體、繁體可能都將形影無蹤哩! |