
以下为第一届国际中文分词竞赛关于训练语料及最后测试之完整叙述。 凡参加本竞赛者即表示了解以下叙述,并同意遵守以下所详列之条件。
本竞赛提供四组语料:
撷自上述语料库之训练语料将自三月十五日起提供。 连结至各语料库及其所采用分词标准之描述届时亦将提供。
上述语料任何一组或组合均可用于测试。 例如,参赛者可决定测试宾州大学及北京大学语料。 唯一限制为,参赛者不可选用参赛前即已知测试部分之语料。 由此推论,参赛者不可测试自己单位出版之语料。
参赛者可决定参加开放式竞赛或封闭式竞赛,二者皆参加亦可。 参加开放式竞赛者,除可使用上述语料外,并可使用取自任何其它语料库, 拥有专利权之词典,全球互联网等之语料。 参加开放式竞赛者,在其两页结果报告书中,必须详列正确或错误结果来自各语料之百分比。 例如,若测试语料出现之词并未出现于训练语料,而其F值为0.7,则参赛者必须解释如何获致该结果: 是否由于使用收词广泛之词典,或侦测未知词之算法极佳,等等?
参加封闭式竞赛者,仅可使用与测试语料出处相同之训练语料,不可使用其它任何资料。
参赛者下载训练语料时,必须注册并提供该单位之连系人等各项资料。参赛者并须宣告欲参与何项竞赛。 以下为宣告之一例:
| 开放式 | 封闭式 | ||
| 中研院语料 | X | X | |
| 城市大语料 | X | ||
| 宾大语料 | |||
| 北大语料 | X |
此例中,参赛者宣告将参加中研院语料之开放式及封闭式竞赛,城市大之开放式竞赛,及北大之封闭式竞赛。 参赛者并未参加任何宾大语料之竞赛。
资料下载后,参赛者将被分派一参赛身份代码。提交最后结果及上载两页报告书时应使用此身份代码。
训练资料及测试资料将以其原出版之编码形式出版。训练语料将以下列形式呈现:
本语料仅提供为此次竞赛专用。下载训练语料及测试语料之参赛者必须同意 该语料仅能使用于本次竞赛, 不可使用于任何其它用途。若欲 挪为它用,须迳洽原语料出版单位。中文语言处理特别小组(SIGHAN) 与计算语 言学会(ACL)对参赛者误用语料不负任何责任。
测试语料将于美国东部日光节约时间二零零三年四月二十二日零时三十分自本站开放。 测试语料之格式与上述之训练语料格式相同,但空格将予以去除。
参赛者将大约有三天时间处理原始资料,将结果转换为指定之格式,并交回指定 之FTP站。最后截止日期时间为:
参赛者必须将结果压缩成一档名为<参赛身份代码>.zip之ZIP档,并将此文件上载至下列FTP站:
迟交者将不予计分。
最后结果之格式必须严格遵守上述训练语料格式之描述。尤其,每句必须占一行,交回语料之总行数亦必须 与未处理前之测试语料总行数相同。切分之词及标点符号必须以空格分开,切分之词亦不应有任何其它标记 (如词类标记等)。交回之资料必须与其原出版语料库享有相同之编码方式。 请注意: 中文里经常用ASCII码表示拉丁字母和数字等。 您的系统输出结果应 保留原来的编码方式。 不要把ASCII码变为国标码或大五码。 同理, 也不要把用国标码 或大五码表示的拉丁字母和数字等变为ASCII码。
最后结果将以全自动方式计分。用以计分之程式将予公开。计分项目为precision,recall及平均加权之F值。 已见词汇与未知词汇之分数亦将公布。
注:参赛者下载测试资料及交回最后结果亦即宣示未曾接触过该测试资料。
参赛者亦须同意其测试过程将为全自动。此意谓任何型式之人工干预均不被允许,此包含,但不限于:
最后结果将分为两阶段。二零零三年五月十日前仅通知个别参赛者,之后对所有参赛者及参与SIGHAN研讨会者公开。 参赛者须同意,包含参与者姓名在内之参赛资料及结果,主办单位均可公布。
参赛者须同意,凡参与本竞赛任何部分者,均须于二零零三年五月二十 五日前缴交一份概略介绍其分词系统及其最后结果之两页报告书。参与封闭 式竞赛者可提及如何获致最后结果之技术细节。参与开放式竞赛者必 须描述如何获致最后结果之技术细节。
除开两页限制外,此报 告书之格式必须严格遵守ACL2003之格式准则。
参赛者应上载其两页结果报告书<参赛身份代码 >.<doctype>("doctype"格式可为 "doc", "pdf" 等)至以下FTP站: