SIGHAN
計算語言學會(ACL)中文語言處理特別小組(SIGHAN) 第一屆國際中文分詞競賽

 

第一屆國際中文分詞競賽﹕ 詳細規則

以下為第一屆國際中文分詞競賽關於訓練語料及最後測試之完整敘述。 凡參加本競賽者即表示瞭解以下敘述﹐並同意遵守以下所詳列之條件。  

一﹐訓練語料

語料

本競賽提供四組語料﹕

擷自上述語料庫之訓練語料將自三月十五日起提供。 連結至各語料庫及其所採用分詞標準之描述屆時亦將提供。

上述語料任何一組或組合均可用於測試。 例如﹐參賽者可決定測試賓州大學及北京大學語料。 唯一限制為﹐參賽者不可選用參賽前即已知測試部分之語料。 由此推論﹐參賽者不可測試自己單位出版之語料。  

開放式或封閉式

參賽者可決定參加開放式競賽或封閉式競賽﹐二者皆參加亦可。 參加開放式競賽者﹐除可使用上述語料外﹐並可使用取自任何其它語料庫﹐ 擁有專利權之詞典﹐全球互聯網等之語料。 參加開放式競賽者﹐在其兩頁結果報告書中﹐必須詳列正確或錯誤結果來自各語料之百分比。 例如﹐若測試語料出現之詞並未出現於訓練語料﹐而其F值為0.7﹐則參賽者必須解釋如何獲致該結果﹕ 是否由於使用收詞廣泛之詞典﹐或偵測未知詞之演算法極佳﹐等等﹖

參加封閉式競賽者﹐僅可使用與測試語料出處相同之訓練語料﹐不可使用其它任何資料。  

宣告

參賽者下載訓練語料時﹐必須注冊並提供該單位之連絡人等各項資料。參賽者並須宣告欲參與何項競賽。 以下為宣告之一例﹕
開放式 封閉式
中研院語料 X X
城市大語料 X
賓大語料
北大語料 X

此例中﹐參賽者宣告將參加中研院語料之開放式及封閉式競賽﹐城市大之開放式競賽﹐及北大之封閉式競賽。 參賽者並未參加任何賓大語料之競賽。

資料下載後﹐參賽者將被分派一參賽身份代碼。提交最後結果及上載兩頁報告書時應使用此身份代碼。  

資料格式

訓練資料及測試資料將以其原出版之編碼形式出版。訓練語料將以下列形式呈現﹕

授權

本語料僅提供為此次競賽專用。下載訓練語料及測試語料之參賽者必須同意 該語料僅能使用於本次競賽﹐ 不可使用於任何其它用途。若欲 挪為它用﹐須逕洽原語料出版單位。中文語言處理特別小組(SIGHAN) 與計算語 言學會(ACL)對參賽者誤用語料不負任何責任。

二﹐語料測試

測試語料將于美國東部日光節約時間二零零三年四月二十二日零時三十分自本站開放。 測試語料之格式與上述之訓練語料格式相同﹐但空格將予以去除。

參賽者將大約有三天時間處理原始資料﹐將結果轉換為指定之格式﹐並交回指定 之FTP站。最後截止日期時間為﹕

美國東部日光節約時間二零零三年四月二十五日十七時零分

參賽者必須將結果壓縮成一檔名為<參賽身份代碼>.zip之ZIP檔﹐並將此檔案上載至下列FTP站﹕

ftp.sighan.org/pub/incoming

遲交者將不予計分。

最後結果之格式必須嚴格遵守 上述訓練語料格式之描述。尤其﹐每句必須佔一行﹐交回語料之總行數亦必須與 未處理前之測試語料總行數相同。切分之詞及標點符號必須以空格分開﹐切分之 詞亦不應有任何其它標記 (如詞類標記等)。交回之資料必須與其原 出版語料庫享有相同之編碼方式。請注意: 中文里經常用ASCII碼表示拉丁字母 和數字等。 您的系統輸出結果應保留原來的編碼方式。 不要把ASCII碼變為國 標碼或大五碼。 同理, 也不要把用國標碼或大五碼表示的拉丁字母和數字等變 為ASCII碼。

最後結果將以全自動方式計分。用以計分之程式將予公開。計分項目為precision,recall及平均加權之F值。 已見詞彙與未知詞彙之分數亦將公佈。

註﹕參賽者下載測試資料及交回最後結果亦即宣示未曾接觸過該測試資料。

參賽者亦須同意其測試過程將為全自動。此意謂任何型式之人工干預均不被允許﹐此包含﹐但不限於﹕

三﹐結果

最後結果將分為兩階段。二零零三年五月十日前僅通知個別參賽者﹐之後對所有參賽者及參與SIGHAN研討會者公開。 參賽者須同意﹐包含參與者姓名在內之參賽資料及結果﹐主辦單位均可公佈。  

四﹐報告書

參賽者須同意﹐凡參與本競賽任何部分者﹐均須於二零零三年五月二十 五日前繳交一份概略介紹其分詞系統及其最後結果之兩頁報告書。參與封閉 式競賽者提及如何獲致最後結果之技術細節。參與開放式競賽者必 須描述如何獲致最後結果之技術細節。

除開兩頁限制外﹐此報 告書之格式必須嚴格遵守ACL2003之格式準則。

參賽者應上載其兩頁結果報告書<參賽身份代碼 >.<doctype>("doctype"格式可為 "doc", "pdf" 等)至以下FTP站﹕

ftp.sighan.org:/pub/incoming