#1341 留言者:ibrick [2002-05-07] |
主題:讓電腦理解自然語言,用基因字典法可行呼﹖ 朱先生您好,拜讀了您在網上發佈的大多數文章,大部分的粗閱,因為有不少的內容對我來說還太深奧,有個問題向您請教,“讓電腦理解自然語言,用基因字典法可行呼﹖” 晚輩認為自然語言都能細化為一些基本概念類字詞,可以粗分為實物類與抽象類,基本概念類字詞的特徵是無法用語言本身來解釋清楚,如﹕ 不可以﹕不能,不行 (不管你怎麼說,說的都是等價概念詞,都在兜圈子,因為它們是在同一層次上) 基本概念類字詞其實只是人大腦中的一個感覺表達介面,通過語言將感覺強化、清晰並替代之,人們在日常生活中一般都忽略或忘記它的存在。它們之間的關係一個是表(字詞)一個是裡(感覺),一個是體(感覺)一個是用(字詞),所以要讓電腦理解自然語言就要讓電腦先擁有感覺,而感覺似乎無法從語言本身獲得,人們如果不理解某事,常說沒感覺,沒那個感覺任你說補嘴皮,他也不會懂,除非讓他身臨其境,則感覺自成矣。誠然,漢字基因可將自然語言條理理清,但無怎勘用﹖ 萬望前輩給愚下解惑,殷盼之。 另請問,論壇中簡體寫行嗎﹖我在大陸用繁體很不方便。 |
回應﹕ 「基因字典」不是供發展「自然語言」用的,其最大的意義,是幫助人們學習及瞭解漢字。當然,要發展「中文自然語言」,第一步也要先瞭解中文,但門道儘多,不表示非用此「漢字基因字典」不可。 「基本概念類字詞的特徵是無法用語言本身來解釋清楚」,此話是體會不夠深刻之故。老朽既已把概念分類表公開,顯然所行遠不止此,能持火炬,點根火柴又算什麼﹖ 「基本概念類字詞其實只是人大腦中的一個感覺表達介面」,此話對了一半,很不錯,能知此,當知其餘。再說,感覺已不是什麼神秘的玩意,在電子技術精進的今天,各種「商品」比比皆是。只要把索引介面建立好,其他事舉手可成。 難的是「常識」,由於常識沒有固定的範疇,似乎人人都知道,實則無人知道所知道的又是什麼!再加上常識應與「文字基因」一體,否則,就算知道是什麼,光建一個「常識資料庫」,空間無限膨脹,連用「超級電腦」都不夠(已知有個五千萬美金的計劃CYC,自1984--1994,將一百萬條常識輸入電腦,其結果仍被視為專家系統)! 言之止此,否則又將「授人以柄」矣!閣下有興趣,請自研詳,老朽的書,必須「驢讀」,寶庫在彼,「掠讀」無功,老朽無意另張門戶也! 又,以簡體上本網可也。 |
#1471 留言者:ibrick [2002-05-19] |
主題:關於蒼頡簡體 朱老師,您好 先前所問讓您為難了,是小生自已福薄,然而已進入遊戲就應遵守遊戲規則。但下面的問題 想來不涉及機密還煩請教一二。 在學習使用下載的第五代蒼頡簡體碼時,發現凡字首為馬字傍的編碼都是LM,M 能理解是字 首尾碼,L是縱,大概是指與鉤相連的一豎吧,但一般的書寫是以一折為起筆的,蒼頡輔助字形中 我沒找到折,以起筆的一橫算因是M,其實它與鉤的橫形很象,覺著可以是N。LM的依據為何﹖ 還想問一下以後關於智慧九論與老子止笑譚的問題可問嗎﹖ |
回應﹕ (沈代答)1.第五代蒼頡簡體字母及輔助字形表,在L部中當有新增的輔助字形┐,若無,恐為作者有所疏忽或無法造出此形。 2.凡與文化有關者皆可問,是什麼素材都沒有關係。 |
#1482 留言者:ibrick [2002-05-23] |
主題:小建議 朱老師,您好 我對供下載的基因字典有一些小建議﹕ 字典中文字有很多的﹖﹖或空格,給查看者帶來很多的不便與疑慮,心中憋得慌(說自己)。 近日在網上見到一種台灣錄入經典中常用一種規範的組字法,如下 符號 說明 範例 * 表橫向連接 明=日*月 / 表縱向連接 音=立/日 @ 表包含 因=囗@大 或 閑=門@月 - 表去掉某部份 青=請-言 - 若前後配合,表示去掉某部份,而改以另一部份代替 閑=間-日 月 ﹖ 表字根特別,尚未找到足以表示者 背=(﹖*匕)/月 () 為運算分隔符號 繞=組-且 ((土/(土*土))/兀) 〔〕 為文字分隔符號 羅〔目*侯〕羅母耶輸陀羅比丘尼 為求方便,不排除採用全形注音、標點及英文符號做為組字用字根。 如能在字典中用之,實學人之幸也,概因大陸之電腦都用簡體系統,下載檔中的缺字字庫常裝不上去,只能 望﹖興嘆。用上示之組字法,學人可以自行組字學習,大開方便之門。 |
回應﹕ 建議極佳,唯此舉與老朽本意不符,反而不利學者也。 蓋老朽做事方法與眾有別,一般人以「利己」優先,故拿出來的是「成功、成熟的成品」。老朽以「利他」出發,但有所思,只要一定可行,就先公之於眾,以求共享。 這兩者的分別,在於前者雖便於後進者「學習、應用」,但卻扼殺了創意及反思。如此,或許能成就某人,但卻無助於社會群體(我國傳統之弊也)。老朽非人,無意於人間的功名利祿,故行為「反常」(前已一再言及,所求唯有「奉獻眾利」)。 因之,從老朽發明倉頡輸入法至今(文傳因有股東投資之惠,責任必先顧及,始得利眾。只要屬於老朽,什麼都可捨棄,但是絕不「慷他人之慨」),除免費(或象徵收費,請見《智慧之旅》炎夏集)為許多廠商改建了不少中文電腦外,漢卡、聚珍以及幾十本著作等莫不在初就放棄了一己權利(至於別人有何看法,一點都不重要,因老朽不是做給「人」看的)。 《基因字典》正是如此,目前只收了六千餘字(故常有網友來告,謂有缺字),何也﹖欲待老朽將之竟功,可能尚須等上十年!怪只怪中國人都變成「老美的小奴」了,事事老朽都看不下去!偏偏中國人只剩下樹上的香蕉和土裡長的地瓜!老朽深覺愧對祖先,豁出去了,無顏娶妻生子、成家立業,誓要重現我「漢家地瓜」的遍地雄風! 《基因字典》意義重大,無與倫比!但老朽無意「成之於己」!再說,如果老朽將之編彙得更完整些,以中國人的特性,保證老朽又「造就」了一批「附會」之徒!再如果不能激發國人的創造力及上進心,就算有一百個老朽,也不過西天多一刻晚霞的點綴罷了! 老朽對人生看得透徹之極,生命的意義,不過在於承先啟後。先賢張載說得好;「為天地立心,為生民立命,為往聖繼絕學,為萬世開太平」!老朽不過「見賢思齊」而已!果真閣下「心中憋得慌」,那就達到老朽的目的了! 年輕人,為何不奮起呢﹖站在老朽的腦袋上,看看中國人的明天吧,那個世界遠比當今開闊閎大!自己開拓出來的路(當然要有「地基」,漢字基因都是現成的。別忘了,連「佛經」的版權都屬於阿難先生,佛陀早就棄權了),收獲是自己的。如果只照別人的學,大不了變成一個「鸚鵡精」,動口時,只是照本宣科,連正誤都分不清楚! 加油!任何人有「改進版本」,老朽再忙,也會撥出時間來提供淺見。但動手要快,油乾燈滅,待老朽化骨成灰就來不及了! (註﹕缺字字庫應與簡繁無關,而是系統問題。) (沈補﹕簡體系統造字檔,正請人補上,完成後另行公布。) |
#2408 留言者:ibrick [2002-11-14] |
主題:詢問 問簡體版網站關了嗎﹖這兩天我上不了(無內容) |
回應﹕ 應是網管一時疏忽,請原諒。 (網管補)﹕ 簡體鏡射站網址已於數月前由http://www.cbflabs.com.cn 改為http://www.cbflabs.net。 之前網友瀏覽cbflabs.com.cn,頁面會有提示信息並會自動轉向cbflabs.net。思慮不週之處,請諒解。 |
#4273 留言者:ibrick [2004-06-04] |
主題:第五代仓颉输入法手册 朱先生您好: 我在貴網總閱讀第五代倉頡輸入法手冊,打開網頁滿目“??”,無法看下去,能不能用圖檔完善之,如基因字典一般。打擾了,謝謝。 觀貴網多年,剛發心學用倉頡,發現倉頡的分型方法與大陸的分型方法有很大的不同,如五筆輸入法等都是以書寫習慣、字根、偏傍等分型編碼,倉頡一般是在字的圖形上切割分型,一時很不習慣,如“井”字,五筆碼為“F二橫、J二豎、K字型三”,倉頡碼為“T並、T並”。所以非常想仔細看一下“倉頡輸入法手冊”。在大陸一般是找不到倉頡輸入法的書的。 另外我想問一下,“兆”字倉頡碼為什麼是LMUO。 再次謝謝了。 |
回應﹕ 本書應無此問題,將請網管回答。 倉頡以形取碼是因漢字甚多,便於不識之字,皆可自由沿用,以確保永續之生機。如取筆順,會寫一萬字以上,已是專家了,那其餘之字怎辦? 兆字左半是一直兩橫(已定義直斜為直),首尾取直橫;右半是仰人(見輔助形)。 建議去倉頡之友-馬來西亞(見友站連接),有專家解答。 (網管補)謝謝閣下的建議,將改進後上傳。 |
#4296 留言者:ibrick [2004-06-09] |
主題:还是有关仓颉 朱先生,安好: 又來打擾了,近來學用倉頡,用的是國標版倉五,支持一萬多字,重碼多多。 先生人文系統以倉頡碼為內碼,一字一碼,如何做到?改了取碼規則?能說的 話可以透露一些。 |
回應﹕ 一字一碼者,根據取碼規則,重複字前加X。英文鍵有26,倉頡只用24,X是為了定義重複字用,Z則供片語或個人慣用詞之擴充碼。只惜一些系統工程師不懂,胡作非為,尤以「微軟」的洋工程師,重複字要「選擇」,而且在中文態的英符竟是半形! 倉五可支持六萬多字,但坊間無六萬字庫也。人文系統有「組合字千萬」(有效字近十萬,將公佈於文傳寶典中),只要倉頡碼拼得出,就有字形,故「輸入碼=內碼」。老朽不願介入狗咬遊戲,明知未來倉頡為主流,自己努力就是,不爭也! |