#舊 479 留言者:yap [2000-09-13] |
主題: 所謂的”中文 C 語言”,如果是把 if (a﹚1﹚ {} else {}變成 如果 (甲 ﹚ 1﹚ {} 否則 {} 那我就覺得沒那個必要,C 語法那麼簡單,幾個保留字就算用硬記的也很快,和英文程度沒有多大關係,我承認中文單字含意很深,但一般人卻不容易寫出精確(甚至清楚﹚的中文來(一則是中文任意性很高、二則是年青一輩中文程度普遍低落﹚,中文做為電腦語言有先天性的困難,光是斷詞一項就令人非常頭痛,詞都斷不好,如何侈談語法檢查和語意分析﹖朱前輩的點子向來不同凡響,唯覺得”中文C”怪怪的,我怕是誤解了,特在此請教。 |
回應﹕ C語言之中文化確無必要,當年老朽所提倡者,主要是「中文培基」及「中文商務」語言。但正如所言,老朽從事研究,重視觀念,不重細節,難以與蜩鳩共語。今觀念又變,正全力發展「中文自然語言」中,以往未做,是不願多淌渾水,既已開CPU,便只得下海了。是以「程式語言」並不重要,至於別人是否願意做,則無言矣。 |
#舊 485 留言者:yap [2000-09-13] |
主題: 以往只知朱前輩閉關修練,擇徒甚嚴,自恨福薄,無緣親炙教侮,現在能和前輩在此互動,實在是稀有難得的因緣! 對於前輩近來大力提倡的電子書,末學除欣喜之外,更有一番特別的感受,原因是末學這五六年來工作內容(電子古籍﹚和電子書關係密切,對其中的種種困難(缺字,軟體環境,校勘﹚頗能體會,做好後又必需隨系統軟體的進步不斷地改進,建置成本高,維護成本更高,懂得利用的人又那麼少,看起來是吃力不討好,不過自覺有意義就值得了。閒話表過,末學有三個關於前輩製作的電子書之問題想請教﹕ 1.電子書採用的檔案可否在 PC 或 NC 上使用﹖或是 PC 上有模擬程式﹖因為末學感興趣的是”書本身”,而非電子書的硬件. 2.如何為電子書創造更多的內容提供者﹖使用者付費是最簡單的做法,但我直覺地認為前輩必定不會以此為第一優先,前輩為廣大人民著想,一分一毛都要計較,問題是就算電子書的成本降得再低,如果沒有便宜的”軟體”,那吸引力就大打折扣,很難成為平民化的東西,便宜的硬件大概不是電子書成敗的關鍵,重點在於有沒有足夠吸引力的內容。電子書內容的製作,有沒有具體的規格﹖轉換現成資料檔的工具﹖(因為好像前輩自己弄一套內碼﹚﹖如何說服重要文字資料庫(辭書,字書,文學著作全集等﹚的加入﹖版權的問題如何克服﹖3.以現階段而論,個人覺得硬件的能力遠遠超越軟體能發揮的程度,目下會覺得Palm,Notebook對中國人民而言很貴,但以中國的經濟成長率來看,這都不是大問題,專注於降低硬件成本,似乎頗殄前輩之才,我覺得如果前輩能主導編製幾個優良的電子資料庫(國學選粹,學習方法,基礎學識等﹚只要掛上網路,放入光碟,不必籍電子書普及,立即可以嘉惠非常多的人. 在如此低落識字率的國家,國民教育尚在起跑,各種基建還未到位之際,推廣電子書,是不是有點本末倒置﹖ |
回應﹕ 先生已知中文資訊之問題所在,但尚未知其詳也。由於資訊發展的速度太快,工具尚未成形,文化人不能介入,致工匠當道,以為編幾個字碼,就可以效李斯而揚名天下。孰知中國係多種民族之組合,有漢滿蒙回藏等文字,問題繁多。 僅以漢字為例,在使用毛筆書寫之時,人人可自創文字,自由自在。但經過時間的考驗,如此「約定」,唯有能透過人心之同,始能「俗同」。問題在,若非文化界「特級大師」級人士(億萬人中,千年難得一見﹚,有誰能斷定何字「俗同」﹖ 衍生之問題一,古今文獻中,各種「約定」之字,不下數十萬之多。其中較著者有甲骨、鐘鼎、大小篆、漢魏隸、楷行草及宋明刻版等字形。若僅以宋明之印刷版本為標準,其中就問題百出,蓋當年資訊不發達,所有刻本皆係出自「工匠」,正確性有待考證。遽而至今,一應刻本中之文字,已有近五萬之多,其中「變體、訛體」就令人莫衷一是,更何況「碑文」、「抄本」多表達「個性」,更難以計數(萬「壽」即為一例﹚。到底哪些字該保留,哪些字該剔除,又有誰膽敢冒天下之大不韙,自封大師﹖ 有學者孜孜不倦,專門收集古字,據老朽所知,武漢大學所收最多,已高達十餘萬,且已出書成冊,但無人加以考證。 台灣中央研究院的CCCII收字七萬餘,內政部戶政司收六萬多,且兩者間有很多無交集。繼而ISO國際標準協會介入,合中(台港﹚、日、韓、越等,編成SuperCJK字集,號稱八萬字。二月時,中國中文資訊協會委托老朽造字,經沈紅蓮一一比對,發現其中問題嚴重,且有一百多字重複,如此標準,豈非另一烏龍﹖ 嚴重之一,是山頭林立,各國瓜分一區,一彎一扭之異皆以為字,其字無音無義,祇是聊備一格。其次,所謂標準,祇有編碼,宛如學子排隊,人各一號,然後對號入座。最莫明其妙的,是各國又分「常用、次常用、罕用、次罕用」等等,成了大雜燴。 這又有何不妥呢﹖先在此聲明,當今「工匠當道」,老朽渾水已淌了二十年,人間嘴臉見得太多,只期望在有生之年,完成「夢想」,無意再惹風波。一時有感,書之於此,知之為知之,不知為不知,老朽率領諸弟子,自涉獨木橋可也。 舉例而言,假設有一億字的中文資料庫(老朽等所建者已超過百十倍矣﹚,欲查某字時,首先當輸入該字。該字必由「中文輸入」開始,進入電腦,再查「碼表」。 於是,第一個問題(不知者必謂﹕「不成問題」﹚就來了,要多少時間,能正確地將輸入碼換成電腦所貯存的「內碼」﹖對一般使用者,一秒鐘不算多,就算千分之一秒吧,上億個文字,如用輸入碼查表對照,就是十萬秒! 為什麼要千分之一秒呢﹖姑不論程式師的設計能力,標準碼本身就忽略了一個最重要的文字功能,就是「排序」!如果沒有排序,一萬字就得從第一個字「類比」起,到找到為止!拼音文字唯一優於漢字的,就是效率,其效率是因「字母」的「序位關係」,故而可用「字母索引」進入字位「層次」,再做類比。 這些「標準編碼」多使用傳統的「部首、筆畫」,再加上分成若干常用、罕用區,每查一字,就要浪費不少時間。在這種機制下,漢字比拼音文字的應用速度,約慢一百倍!一百倍不算多,但是以大型資料庫而言,要得到與拼音文字同等的效率,等於要花上一百倍的人力、物力、時間成本!難道這是「國人之福」﹖ 老朽全心全力致力發展「數碼網」、「電子書包」,就是效法「逍遙遊」,何苦與鳩蜩爭百尺之枝。在老朽「土法煉鋼」下,八萬字庫在CPU中,一億字的資料,數秒可得! 茲答所問於次﹕ 1,電書是「後資訊時代」的一種反思,任何一種實用的技術,在發展之初,無可置 疑地,是諸子百家爭鳴,由無而有,由有而亂。然而,個人時間有限,資源有限 ,兼以精力有限,到了煩不勝煩之際,必會有一波「整頓行情」。所謂整頓,就 是歸繁入簡,以簡馭繁。例如,照相機、手錶等,因為已成「日用品」,故「傻 爪式」盛行。 電腦也將進入「日用品」的階段,化繁為簡自有其必要。首先,網絡造就了「資源共享」的利基,將大型機設置在網站上,各種軟件齊備。使用者只須自備下載工具,用網絡溝通,就可以百分之一百取代PC矣! 2,電書之推廣在於「有利與否」,老朽早已自絕於「名利」,在今年三月舉辦「漢 文化聯盟」之際,已聲明採「系統公開」原則,願者得之。但「電子書包」則不 然,其功能有限,係供大陸學子讀書之用。須知大陸有學生二億五千萬,每年印 書經費龐大,因之而砍伐的樹木,又導致山林濫墾、水土流失,後害無窮。再加 上莘莘學子們,書包重約五公斤,對身心的損害,更是難以估計。 是故老朽銳身己任,責無旁貸,已將「電子書包」之成本壓到每本五十元美金以下(在三月,尚以為需一百美金﹚,真正令人感動的是天下有心人甚多(無心人當然難免﹚,有位李姓大師級的人物,手中擁有全世界最先進的「雙穩態液晶」(老朽最初書為「生化液晶」,其實所有液晶皆與生化有關,特此更正﹚,其利無限。李大師見老朽發展「電子書包」,電召老朽赴美洽商(事見「資料下載欄」之「數碼時代」劇本﹚。認為此中意義重大,明言要與老朽合作,協力發展此一千秋大業(雙穩態液晶電量不到一般的百分之一,且不閃爍,生產工序較少,故成本低效率高﹚。 此外,電書之內容已有「漢文化聯盟」成員之支持,無虞匱乏。兼以本公司在北京之文化資料庫將以古典文籍為主,率無版權之虞。以老朽之觀點,古書更具推廣之價值,目前已聘有國內十餘位文化界「大師」為顧問(國內資訊技術容或落後,但文化素養遠遠超過海外各地﹚,未來將全力發展「漢文化資料中心」。 3,老朽所作所為,一以貫之,無非「文化溝通」範疇。從「數碼網絡」起,先提供 全世界人民入門之網站;再統籌資訊內容,如大中華文化資料庫及漢文化資料聯 盟;設計應用介面,如中文2000,文昌2000,中文CPU及電書交換碼 (32000字,包括Big5BG,港澳用字,ISO10646第一字級﹚ ;雙穩態液晶;電書、電子書包等。雖分屬不同技術,但合之成為一條龍(又, 老朽已請得「龍的傳人」侯德健負責漢語系統分析,將先從普通話入手﹚,推廣 則為全面之文化溝通事業。 4,多謝提供網頁功能之協助,此事將有主事之工作人員與先生聯絡。 |
#舊 489 留言者:yap [2000-09-14] |
主題: 關於電子書包能減少樹木的砍伐之說,末學暫持保留態度,事實證明,全球紙張的耗用量,隨資訊性產品的普及,反而越來越大,原因是列印太方便,以前要寫滿一張A4紙張談何容易。為環保著想,前輩的電子書也許得要限制列印功能。﹕﹚ 書包太重,正課外的參考資料要負很大責任,無良書商為牟利益,罔顧學生健康,不過禍首還是升學主義,書包重量只是課業負荷的具像化,不從教育制度下手,縱然改用電子書包,學生的心理壓力一樣甚至更重,我想大部份的學生都會同意﹕心理壓力對於心靈和創意的傷害,遠遠烈於生理上的傷害。 現前編碼法﹕BIG5/GB/Unicode CJK, 一字一碼的做法,只照顧特定字形,沒有考慮字義和文字的內在關聯性,顯然是行不通的,必定會面對不收新字不足以應付需求(事實上是收不勝收﹚,收太多又增加系統負荷的兩難局面。末來中文編碼必定要走向組合式的做法﹕定義一組有限的字根(中文字母﹚,再利用這組字根組出所有的字。 前輩的做法是以倉頡字母為基,試圖令每一個中文字對應成一串五字元以下的”字串”,甚至更極端地,以之為內碼,取代現行的編碼,我想請教的是,前輩如何克服編碼的武斷性﹖對於一些奇怪的字形(如避諱,人名﹚,是不是每個人直覺編出的倉頡碼趨向一致﹖還是必需依賴您這裡統一編碼﹖ 還有,對於前輩9/14日的回覆,”查一字千分之一秒,查一憶億字要十萬秒”的說明,不太能理解,如果有一億字的資料,假設以Big5/GB或Unicode 來存,搜尋時輸入碼必定是先轉成資料庫內碼,再進行比對,以順序比對而論(暴力檢索法Sequencial search ﹚所需時間和英文是一樣快的,如果英文要考慮詞性變化(大小寫,前後綴,不規則變形tell–﹚told 等等﹚,則中文會快很多。如果是有建索引的情況,則檔案大小就沒有太大關係,末學有這方面的經驗,五千萬字的資料庫,平均都可以在一秒之內檢出任意字串,如果索引檔在cache,那麼就很少超過十分之一秒。而英文和其他拼音文字,絕對沒有中文的比對來得快和直接。 我們關心的使用者操作此一資料庫的時間,如果查表動作只發生在資料庫的製作過程,而非user runtime,時間不是太大問題,好比動畫的3D 著色就算要用一百台電腦算三個月,對觀看者而言,他們只在乎看起來流不流暢。 最後,前輩所言,”一億字的資料,數秒可得!”,是就任種搜尋技巧而論﹖如果資料不在主記憶體,用順序比對,以當前最好的硬碟,一秒最多也只能讀五百萬字左右,一億字就要近二十秒,還末計比對時間呢!如果是用建inverted index 的做法,那以前輩的功力,又是用組合語言(末學只懂C ﹚,在當前當PC上不必耗數秒,應立即可得,數秒之說,是不是因為受限於”電子書包”的運算能力﹖前輩卓而不群,(或者說因為眾人皆不足法,否則我想前輩也樂意從善如流﹚,不辭辛苦搞出一套套可睨群小的系統,我等凡夫俗子響往之餘,當然希望可以使用這些系統,但囿於還要在現行環境下討生活,無法置主流系統於不顧,希望前輩要多多考慮到我們這些夾在灰色地帶(不滿於現行系統卻無法拋棄﹚的人才好! |
回應﹕ 資訊時代已到,紙張之濫印是果,PC之不能隨意攜帶是因。正是如此,如不解決「電紙」的困境,未來紙張之浪費更多矣!「電書」是當前的稱謂,「電紙」才是真正的目標(本公司正申請專利中,申請之目的,乃為避免他人先得專利以之勒索﹚。由於老朽看得太遠,一般技工早已視余為「瘋子」,不必再驚世駭俗。 升學主義是社會現象,不能只看表面,在此不擬多談。 編碼才是嚴肅的問題,「主觀」認知是以「自我需求」為原則,「客觀」則依現實環境而定。老朽之主觀再好,以當前之世態,頗不適宜。必也,待老朽「陣亡」後,將有「華夏之旗蓋棺」,再經若干年,有後人由棺中取經,揚名於世,便成「客觀」矣! 至時,老朽之「漢字基因」必成「聖典」,人類文明另立碑階,人機同慶! 然人本「思想之絕緣體」,阻值極高,需要時間,才能形成力量。故欲成大業,必先能忍,循人之性,逐步漸進。老朽之倉頡內碼,恒取之於傳統之「形音義」,無一自創,不過賦一碼位而已。以老朽之漢字字庫而論,僅128KB,其文字之排列組合幾近千萬,再加上各種字形字體,各種大小,變化無窮(不久即可公開﹚。然鵬飛萬里,須待人類移民太空,始有其用武之地。今日為遷就大眾,特設一「內碼表」般「牢籠」,阻之攔之,僅此「違章建築」,其空間即已超過字庫本身,然如之奈何﹖ 至於是否「武斷、極端」,其定義委諸後世、後人可也。 老朽之資料庫,恒為「倉頡內碼」,前數日在本欄中曾將之設計成「算盤基因CPU」之技術,可往一閱。因該技術,每字從資料建檔到文字檢索,皆以硬體為之,目前規劃,祇須百餘邏輯閘,一個時鐘脈沖一字,再加軟體延誤,故約數秒可成。 八年前,人告發明「全文檢索」,老朽立判,僅係「內碼位址比對」。此法以「空間交換時間」,除了可查出有無該字及使用頻率外,與「全文」完全無關!嘩眾可取寵,欲實用須知「資料性質、原文出處、承前啟後、相關因素」,僅一字位何用之有﹖ 先生所謂五千萬字之檢索只須十分之一秒,所得之結果為何﹖是否包括原出處位址﹖試問僅僅建立該五千萬字之「全文索引」表需時若干﹖需轉換檔若干﹖系統空間佔若干﹖又若以數十億字計之資料、各種內碼(文化資料大五碼夠用嗎﹖﹚、各種系統,再若考慮大量資料處理時,平行輸入之每字轉換空間、時間,又應如何解決﹖ 把戲人人會變,各有巧妙不同。老朽因為看「劍仙小說」(受還珠樓主之誤﹚太多,今生所求乃「修百萬善功」,專事扶弱鋤強,故擬將專家系統回歸大眾。待多媒體CPU問世(今不設時程,以免害人心慌﹚,劇本一到,畫面立得,又是一個神話也(任事有一得就有一失,老朽腦中全是神話,故只會從事神話工作﹚。 請恕老朽狂言,人各有志,老朽無意生產產品,難得有一值得終生鑽研之藝術品,至少五六年之內,這些「自以為是之寶」,尚要把玩些時,不致影響當今的市場。但是,老朽預測PC即將式微,多半集中在網站上共用,電書之發展,才是值得關心的。 請放心,目前的主流市場,不過是少數人的專業,而最需要資訊工具的「真命天子」(文化人及普通百姓﹚尚未介入。就算電書成功了,電紙問世了,專家們的地位依然,只是角色變了,未來的大量資訊處理,仍舊是要依賴專家的! 2007年後記:如今舉世之「搜索引擎」皆係用「空間換取時間」之技術,成就了龐大的企業!本人一向對「營商」興趣缺缺,故而對前文之「全文索引」不屑一顧!斯乃本人之特色,終生一貫也! |
#舊 509 留言者:yap [2000-09-19] |
主題: 答前輩﹕ 五千萬字十分之一秒是平均值,最快約5~20ms(索引在cache﹚ ,最差約一兩秒(索引在CDROM ,受CDROM random seek 所限﹚,檢索的結果除了有URL 之外,還可以顯示keyword highlight 的摘要,並可以用建索引順序或比分排序,此外,比分,文件結構顯示(若干章,若干節等,支援天干地支最高三十六級﹚也是可以輸出的,使用者從按下psubmit 按鈕之後,如果LAN ,local user基本上是一秒內browser 回應,踫到user 要求顯示回覆太多(超過一百條﹚,那麼HTML formatting 和傳輸耗時甚多,也許要幾秒才能傳輸完畢。索引時間不計硬碟傳輸約2MB / sec。索引檔則約為資料容量之70% ~ 85% 轉換表容量不大,繁/簡/unicode轉換,加起來約 500K. 是純文字格式,載入記憶體後約少一半。 內碼可以自由選用,基本上建索引時會轉成 unicode CJK (用UTF-8﹚,缺字則記錄成漢語大字典字序,再不行就用構字式(字根加一些運算符號﹚字碼轉換只在輸出入階段發生,輸入通常只有幾個字,可以不計,輸出每秒大約可轉十萬字左右,一般而言是足夠了。 末學所作在前輩面前固然不值一晒,但我的user覺得還可以,因為用系統提供的grep來檢索整部大正藏,就算用最快的硬碟也要好幾十秒,並且也無法列出最相關的經文。 前輩開示的「資料性質、原文出處、承前啟後、相關因素」,「平行輸入之每字轉換空間」末學不太明白,可否煩請舉列說明﹖全文檢索若不根殖於”逆向檢引”(inverted index﹚,字詞檢索如何快速實現﹖古籍佛經含意甚深,末學不敢妄加判斷,佛經有云﹕依義不依語,我只能乖乖地遂字比對,不敢對經文的語法和語義做進一步的處理,事實上,對自然語言完全不懂,只知道白話文就很不好做,何況是文言文﹖中文很妙,”心花怒放”竟是形容極度喜悅,我想計算機是永遠不會懂的。 |
回應﹕ 人生像一場「馬拉松」賽,任一個亂集團的主流形成,在於一個定律﹕「後面的人看得見前面的人」。人的能力來自學習及經驗,如果看不見,沒有參考值,人就無技可施。在歷史過程中,冠軍經常出現在主流的前端,但也有例外,而例外將改變比賽生態。 緣主流集團只是眾目焦點所聚,若有人落後或領先太遠,超過視線所及,與賽者就難以知曉了。人生如此,科技亦然,閣下正在局中,可能居集團中領先地位,但斷斷不可自以為「中文技術在台灣,台灣各界唯xx,xx是我所發展」。 由於前曾聲明,本欄不再討論「技術」。原因無他,「技以害道」,技術日新月新事事新,人自己是誰尚不瞭解,經常「玩物喪志」。老朽本因時光流逝,滿腦都是未來世界衣冠文物,無人共享,頗感寂寞(僅指技術方面,思想上有古人為友,樂不思俗也﹚。 詎料在網上談技術,等於雞同鴨講,立涉實質利害,於是口沫橫飛,「惡名」昭彰。旋自思,所為何來﹖無知之輩本無知,火水未濟,是根性故,移苗於田,不過瓜瓜果果。時值戰鼓頻催,老朽自洩行跡,豈非「授人以柄」哉﹖ 「國之重器,不可示人」,老朽知錯,知錯則改!但閣下所下功夫甚深,不同凡響,可於觀念上略加探討,如是,尚不離本網之原則也。 首先是立場問題,目前之檢索,率皆以個人應用為原則。個人條件不同,系統功能及軟體效益差別極大。老朽所言,是指以「電書」上網、資料庫共享之大眾系統而言。所謂「平行輸入」即指一共用系統於尖峰態同時接受的文字輸入。也就是說,電書相當於最基本的鍵盤及顯示器,系統所接受之碼,不可能是任何「內碼」也。 其次,涉及目的,老朽忝屬「水滸」(剛演到第十九回﹕「林沖水寨大拼火」﹚一員,只知替天行道。當今「資訊落差」,必為後世首要之亂源,故全力鑽研「大眾資訊系統」,以為窮苦人民謀,一應「個人」皆不在局中。 因此,「文詞索引」的目的,不在於供「專家」找字查詞(如紅學專家,統計一下書中用了幾個「玉」字,就成了「寶」﹚,而是希望藉著「人文系統」,令不識字的老百姓可以領略中華文化之美(用文字、聲音、影像三位一體的多媒體技術﹚。令有識之士,正本清源,得以「探幽索隱」,以發揚古聖賢之「微言大義」。 故「資料性質」應將「概念」分解,化為結構性之「代碼」,使文字、聲音、影像三者得以互換處理(部份內容可見「漢字基因」字典﹚。 「原文出處」則供應用者考證,舉凡「人、事、時、地、物、情、理、法」,須全面檢索,以求出一多維的認知環境。 「承前啟後」有兩義,文化傳衍是大觀念,在此不談;微觀係指內容的完整性。從古至今,有心人常用「鋸箭法」(有人中箭,醫者僅鋸下其中一段﹚,「斷章取義」。若後人不查,以訛傳訛,對文化為害極大。今人習用「標點符號」,然多不知如何「斷句」,古文常無「句讀」,普通之檢索更增困擾矣! 「相關因素」項目繁多,是為文時偷懶,順手所書者。蓋老朽不自量力,食少事繁,「理解模組及人文系統」尚未落實,卻又妄想「門門深入」。此外公事俗情,在在難免,每日忙得不可開交。網友來文,常未及「細思」,即「出口成章」。不幸老朽早已揚言「不計毀譽、成敗」,可謂「自囚牢籠,其罪無赦」也。 故相關因素不及備述,試想如此系統,要「不吃草的好馬」,若無速度,何以致之﹖不過,閣下切勿因噎廢食,老朽只是個「理想者」,說不定哪天「凌風而去」。手上抓的,總比天上飛的實際些,繼續努力吧,只要別以為「世上沒有可以征服的了」就對了。 |
#舊 509 留言者:yap [2000-09-19] |
主題: 答前輩﹕ 五千萬字十分之一秒是平均值,最快約5~20ms(索引在cache﹚ ,最差約一兩秒(索引在CDROM ,受CDROM random seek 所限﹚,檢索的結果除了有URL 之外,還可以顯示keyword highlight 的摘要,並可以用建索引順序或比分排序,此外,比分,文件結構顯示(若干章,若干節等,支援天干地支最高三十六級﹚也是可以輸出的,使用者從按下psubmit 按鈕之後,如果LAN ,local user基本上是一秒內browser 回應,踫到user 要求顯示回覆太多(超過一百條﹚,那麼HTML formatting 和傳輸耗時甚多,也許要幾秒才能傳輸完畢。索引時間不計硬碟傳輸約2MB / sec。索引檔則約為資料容量之70% ~ 85% 轉換表容量不大,繁/簡/unicode轉換,加起來約 500K. 是純文字格式,載入記憶體後約少一半。 內碼可以自由選用,基本上建索引時會轉成 unicode CJK (用UTF-8﹚,缺字則記錄成漢語大字典字序,再不行就用構字式(字根加一些運算符號﹚字碼轉換只在輸出入階段發生,輸入通常只有幾個字,可以不計,輸出每秒大約可轉十萬字左右,一般而言是足夠了。 末學所作在前輩面前固然不值一晒,但我的user覺得還可以,因為用系統提供的grep來檢索整部大正藏,就算用最快的硬碟也要好幾十秒,並且也無法列出最相關的經文。 前輩開示的「資料性質、原文出處、承前啟後、相關因素」,「平行輸入之每字轉換空間」末學不太明白,可否煩請舉列說明﹖全文檢索若不根殖於”逆向檢引”(inverted index﹚,字詞檢索如何快速實現﹖古籍佛經含意甚深,末學不敢妄加判斷,佛經有云﹕依義不依語,我只能乖乖地遂字比對,不敢對經文的語法和語義做進一步的處理,事實上,對自然語言完全不懂,只知道白話文就很不好做,何況是文言文﹖中文很妙,”心花怒放”竟是形容極度喜悅,我想計算機是永遠不會懂的。 |
回應﹕ 人生像一場「馬拉松」賽,任一個亂集團的主流形成,在於一個定律﹕「後面的人看得見前面的人」。人的能力來自學習及經驗,如果看不見,沒有參考值,人就無技可施。在歷史過程中,冠軍經常出現在主流的前端,但也有例外,而例外將改變比賽生態。 緣主流集團只是眾目焦點所聚,若有人落後或領先太遠,超過視線所及,與賽者就難以知曉了。人生如此,科技亦然,閣下正在局中,可能居集團中領先地位,但斷斷不可自以為「中文技術在台灣,台灣各界唯xx,xx是我所發展」。 由於前曾聲明,本欄不再討論「技術」。原因無他,「技以害道」,技術日新月新事事新,人自己是誰尚不瞭解,經常「玩物喪志」。老朽本因時光流逝,滿腦都是未來世界衣冠文物,無人共享,頗感寂寞(僅指技術方面,思想上有古人為友,樂不思俗也﹚。 詎料在網上談技術,等於雞同鴨講,立涉實質利害,於是口沫橫飛,「惡名」昭彰。旋自思,所為何來﹖無知之輩本無知,火水未濟,是根性故,移苗於田,不過瓜瓜果果。時值戰鼓頻催,老朽自洩行跡,豈非「授人以柄」哉﹖ 「國之重器,不可示人」,老朽知錯,知錯則改!但閣下所下功夫甚深,不同凡響,可於觀念上略加探討,如是,尚不離本網之原則也。 首先是立場問題,目前之檢索,率皆以個人應用為原則。個人條件不同,系統功能及軟體效益差別極大。老朽所言,是指以「電書」上網、資料庫共享之大眾系統而言。所謂「平行輸入」即指一共用系統於尖峰態同時接受的文字輸入。也就是說,電書相當於最基本的鍵盤及顯示器,系統所接受之碼,不可能是任何「內碼」也。 其次,涉及目的,老朽忝屬「水滸」(剛演到第十九回﹕「林沖水寨大拼火」﹚一員,只知替天行道。當今「資訊落差」,必為後世首要之亂源,故全力鑽研「大眾資訊系統」,以為窮苦人民謀,一應「個人」皆不在局中。 因此,「文詞索引」的目的,不在於供「專家」找字查詞(如紅學專家,統計一下書中用了幾個「玉」字,就成了「寶」﹚,而是希望藉著「人文系統」,令不識字的老百姓可以領略中華文化之美(用文字、聲音、影像三位一體的多媒體技術﹚。令有識之士,正本清源,得以「探幽索隱」,以發揚古聖賢之「微言大義」。 故「資料性質」應將「概念」分解,化為結構性之「代碼」,使文字、聲音、影像三者得以互換處理(部份內容可見「漢字基因」字典﹚。 「原文出處」則供應用者考證,舉凡「人、事、時、地、物、情、理、法」,須全面檢索,以求出一多維的認知環境。 「承前啟後」有兩義,文化傳衍是大觀念,在此不談;微觀係指內容的完整性。從古至今,有心人常用「鋸箭法」(有人中箭,醫者僅鋸下其中一段﹚,「斷章取義」。若後人不查,以訛傳訛,對文化為害極大。今人習用「標點符號」,然多不知如何「斷句」,古文常無「句讀」,普通之檢索更增困擾矣! 「相關因素」項目繁多,是為文時偷懶,順手所書者。蓋老朽不自量力,食少事繁,「理解模組及人文系統」尚未落實,卻又妄想「門門深入」。此外公事俗情,在在難免,每日忙得不可開交。網友來文,常未及「細思」,即「出口成章」。不幸老朽早已揚言「不計毀譽、成敗」,可謂「自囚牢籠,其罪無赦」也。 故相關因素不及備述,試想如此系統,要「不吃草的好馬」,若無速度,何以致之﹖不過,閣下切勿因噎廢食,老朽只是個「理想者」,說不定哪天「凌風而去」。手上抓的,總比天上飛的實際些,繼續努力吧,只要別以為「世上沒有可以征服的了」就對了。 |
#舊 516 留言者:yap [2000-09-21] |
主題: 前輩所言甚是,吾也覺得這幾年來花了不少力氣在技術的精進上,常常為了些少速度的改進奮戰數月,因而忽略了普及和應用,「玩物喪志」實是一言驚醒夢中人,技術生命如此短暫,不及時以惠眾人實在可惜。 末學受教於台灣,卻非台灣人士,深知網上高手如雲,內地藏龍臥虎,豈敢夜郎。前輩目光如炬,末學的確曾身居某集團擔資訊要職,不過現己走出象牙塔,效古時縱橫家,恃一招半式,為生計理想奔走各國,雖然不如昔時安定,但能親近奇人異士和廣大群眾,頗自得其樂也。 中國自古以來,傑出不群之士向來命途多舛,泰半人頭落地,不得善終,非天忌英才(天若忌又奈何生之﹖﹚,實係庸人狼狽不除之難以自處,前輩重出江湖,為眾生故,務必多多保重。香江美食甚多,切切不可效孔明先生,「事繁」難免,豈可「食少」﹖前輩應用丫頭數名,一奉食,一著衣,一文墨,一吟唱,一鬆骨,晚輩若係女兒,當隨侍提鞋。前輩既已立德立功立言,我中華必有慷慨才俊,承前輩之志,為民族大業,粉身碎骨在所不惜也! |
回應﹕ 技精而後眾濟,功成遂以道明。 閣下闖蕩江湖之餘,若得閒暇,請以一題試之,可作為「武功」之提升,亦能供修 身養性,寧靜致遠。 題目為﹕「主題萃取」 程式語言﹕不拘(文字語言描述亦可﹚。 方法﹕「動態資料庫」 所謂動態者,無固定格式、形式,且因應條件而改變者。其資料內容可為文字 、符號及影像,不一而足。但必須是透過人之感知、理解後,所能處理之「代碼」 (目前可先假定為文字,實則「文字」乃「概念資料」,可作為資料庫之基層﹚。 於原始資料上,分層建立「索引檔」,層層堆壘,直至頂端而止(是以此管理 程式,應完全「自動化」。對人而言,是稱「慣性才能」﹚。 索引 人、事、時、地、物、情、理、法(老朽之理解系統,將提供一應 內容,故以一己之認知,假定其類即可﹚。前八項常交互應用,求其同,存其異, 層層相因,最終之同,即為「主題」(反向則以主題檢索內容﹚。 關鍵在於﹕如何「定義」及求出前述之八大索引﹖(屬於分析、歸納﹚ 例﹕書名 ﹕《老子止笑譚》 原著者﹕東周–李耳 釋註者﹕朱邦復(出版公司、日期等等……﹚ 結構 ﹕分八十一章,各章、節分註。 三層索引﹕書主題,章主題,節主題。 章主題﹕第一章﹕理之理(是稱「道理」﹚。 第二章﹕情、理之理。 第三章﹕事之理。 第四章﹕事之理。 …… 第七章﹕時之理。 第十二章﹕情之理。 第十九章﹕人之理。 全書主題﹕人生事物(人事時地物情理法﹚之道理。 若知一句主題,其句極易尋查。若知一書主題,其書亦輕易可得。若識得人生主題,生命必將大放光明,夫主題者,文化之精華也。 有感於閣下之誠意,特此相邀(網友們如有興趣,亦請共參﹚。 沈補﹕朱老師甚少著鞋,提鞋可免。另奉食、洗衣、駕車、拂蠅皆有其人。唯彼勤於剃頭,煩不勝煩,然其法亦甚簡,有現成推子,但取三分即可。觀諸此業傳統,似男猶勝於女,若得高手,情願相讓。 |
#舊 516 留言者:yap [2000-09-21] |
主題: 前輩所言甚是,吾也覺得這幾年來花了不少力氣在技術的精進上,常常為了些少速度的改進奮戰數月,因而忽略了普及和應用,「玩物喪志」實是一言驚醒夢中人,技術生命如此短暫,不及時以惠眾人實在可惜。 末學受教於台灣,卻非台灣人士,深知網上高手如雲,內地藏龍臥虎,豈敢夜郎。前輩目光如炬,末學的確曾身居某集團擔資訊要職,不過現己走出象牙塔,效古時縱橫家,恃一招半式,為生計理想奔走各國,雖然不如昔時安定,但能親近奇人異士和廣大群眾,頗自得其樂也。 中國自古以來,傑出不群之士向來命途多舛,泰半人頭落地,不得善終,非天忌英才(天若忌又奈何生之﹖﹚,實係庸人狼狽不除之難以自處,前輩重出江湖,為眾生故,務必多多保重。香江美食甚多,切切不可效孔明先生,「事繁」難免,豈可「食少」﹖前輩應用丫頭數名,一奉食,一著衣,一文墨,一吟唱,一鬆骨,晚輩若係女兒,當隨侍提鞋。前輩既已立德立功立言,我中華必有慷慨才俊,承前輩之志,為民族大業,粉身碎骨在所不惜也! |
回應﹕ 技精而後眾濟,功成遂以道明。 閣下闖蕩江湖之餘,若得閒暇,請以一題試之,可作為「武功」之提升,亦能供修 身養性,寧靜致遠。 題目為﹕「主題萃取」 程式語言﹕不拘(文字語言描述亦可﹚。 方法﹕「動態資料庫」 所謂動態者,無固定格式、形式,且因應條件而改變者。其資料內容可為文字 、符號及影像,不一而足。但必須是透過人之感知、理解後,所能處理之「代碼」 (目前可先假定為文字,實則「文字」乃「概念資料」,可作為資料庫之基層﹚。 於原始資料上,分層建立「索引檔」,層層堆壘,直至頂端而止(是以此管理 程式,應完全「自動化」。對人而言,是稱「慣性才能」﹚。 索引 人、事、時、地、物、情、理、法(老朽之理解系統,將提供一應 內容,故以一己之認知,假定其類即可﹚。前八項常交互應用,求其同,存其異, 層層相因,最終之同,即為「主題」(反向則以主題檢索內容﹚。 關鍵在於﹕如何「定義」及求出前述之八大索引﹖(屬於分析、歸納﹚ 例﹕書名 ﹕《老子止笑譚》 原著者﹕東周–李耳 釋註者﹕朱邦復(出版公司、日期等等……﹚ 結構 ﹕分八十一章,各章、節分註。 三層索引﹕書主題,章主題,節主題。 章主題﹕第一章﹕理之理(是稱「道理」﹚。 第二章﹕情、理之理。 第三章﹕事之理。 第四章﹕事之理。 …… 第七章﹕時之理。 第十二章﹕情之理。 第十九章﹕人之理。 全書主題﹕人生事物(人事時地物情理法﹚之道理。 若知一句主題,其句極易尋查。若知一書主題,其書亦輕易可得。若識得人生主題,生命必將大放光明,夫主題者,文化之精華也。 有感於閣下之誠意,特此相邀(網友們如有興趣,亦請共參﹚。 沈補﹕朱老師甚少著鞋,提鞋可免。另奉食、洗衣、駕車、拂蠅皆有其人。唯彼勤於剃頭,煩不勝煩,然其法亦甚簡,有現成推子,但取三分即可。觀諸此業傳統,似男猶勝於女,若得高手,情願相讓。 |