自动分词之例- 词汇活跃度纵横谈
动态视角:词汇活跃度纵横谈(原文摘录)
史有为(日本 明海大学)
内容提要:本文从新词爆炸谈起,评论当代词汇研究,认为动态研究是当前词汇研究的突破方向,词汇活跃度则是动态研究中的重要课题。本文分析活跃度的观察尺度、研究内容、影响因素、制约机制和研究方法。本文最后探讨作为活跃度研究基础的辞书和词库,并评析与此相关的国内辞书不足之处。
关键词:词汇 活跃度 动态研究 现代汉语
1. 由新词爆炸谈起
进入信息时代,让我们感受特别强烈的就是新词爆炸,新的词语层见叠出,多不胜收。跟不上时代,跟不上词汇发展这种感触尤深尤烈。稍稍上网,稍稍阅读面向年轻人的媒体,一大群新词语就纷至沓来,应接不暇,有的词义模糊晦暗,有的甚至茫然难知。其中信息技术为我们带来的新词更感同身受,其数量可以百计,甚至上千。
若以“网-”作例,自网络/网路出世之后,网站、网页、网址、网志、网民、网虫、网友、网恋、网游、网点、网际、网卡、网屏、网评、网贴、网关、网签、网购、网坛、网店、网吧,等等,等等,也让人目不暇接。
这个时期的词汇就如女士的时装,琳琅满目,万紫千红,稀奇古怪。诸如IT界的视频、视像,点击率、芯片、软件、硬件、软盘、硬盘、光盘/光盘、闪盘/优盘、彩铃、短信、伊妹儿;新潮系的驴友/旅友、包二奶、超女、打女、财女、超男、潜规则、“粉丝”;企业界也不甘寂寞,某些电影制作公司改成了“影业”,一些制药厂/公司受境外影响改成了“药业”,鞋厂和袜厂则改称“鞋业”、“袜业”,时兴的防盗门厂也用上了“门业”的名号;等等,等等。
且不论这些词语是好是坏,是昙花抑或万年青,新词爆炸总归是现实。而现实首先必须承认,必须记录。这是第一性的。然后才谈得上第二性的评判和规范。
以上这一切不禁使人引发出这样一些想法:我们有必要为这类动态现象作一纪录,也有必要从动态角度开辟词汇新的研究方向。于是,就有了下面这番不知能否实现的议论。
2. 词汇动态研究的必要性
2.1 词汇动态研究的需要与现状
一般说,静态就是描写,与此相对的动态似乎就是“述史”。其实静态并不等于描写,动态也并不就等于述史。它们角度不同,各有侧重。语言学的主要目的就是说明什么是语言,在汉语词汇学来说就是弄清汉语词汇是什么样的,其构造的机理与发展变化的动因与机制是怎么样的。语言动态研究关注的是:语言或语言成分和各语言方面的变动、动因和机制,以及语言不同制约力量之间的较量,更进一步可以推论或预测其未来的趋向。就词汇而言,词汇主要描写侧重于词汇的静态,但也不排除描写一个横断时期内的词汇动态变化。由此可见,动态研究就是横跨述史和描写两类的新视角研究。社会的变动时而快时而慢,词汇也就有相应的变动。哪些新生,哪些复活,哪些退休,哪些衰落,各个时期之间如何变化或发展,等等,都应该有所记录,有所分析和研究。这是词汇的动态视角所应研究的。
2.2 词汇动态研究之目的
词汇的动态研究,其目的当可有三:
其一,出于语言学的目的。语言科学要求我们揭秘语言,解明语言是什么。这就需要记录语言变动的一切方面,内中包括词汇的变动,从而弄清作为语言一部分的词汇到底是什么。
其二,出于语言应用的目的。动态研究不但可以弄清词汇如何发展,还可以弄清社会和语言的互动关系,弄清社会如何促进词汇产生并发展,而词汇反过来又如何促进社会的。
其三,出于某民族及其语言发展的需要。通过词汇的动态研究,可以了解该语言在各语言中所处的地位(词汇部分)以及如何改善这样的地位。在当前世界中,各个语言都在竞争中存在,有的因竞争失败而消亡,有的则得到改善,得以名列前茅。
2.3词汇动态研究的几个方面
词汇动态研究是一个新的领域,我们还不能完全描写出它的范围和研究品种。但据我们推算,它至少应包括如下三个方面:
一是对以往与当下词汇活动的观察与比较,其中有的词汇新生与隐汰,词汇消长,词汇流动、词汇接触等方面,并做出某种测算。这是最经典意义上的动态研究。本文所论的“活跃度”是其中的一个方面,也是观念不同于传统的一个方面。
二是对未来可能的词汇活动的预测。
三是对词汇活动干预的研究,这就是通常所称的规范研究。
本文讨论第一个方面中的一个部分。我们也期待其它同行对此作出更新的开拓。
3. 词汇活跃度及其研究
3.1 语言活跃性、活跃度及其观察尺度
语言在不同时期有不同的动态表现,或高或低,或大或小,或多或少,或相对激烈或相对沉静。这种情况可以用“活跃性”来概括。传统的语言学也常说:语法最稳定,很难在一年或数年、十数年内感觉出;语音变化则相对快些,但也并非几年之内就能感觉到;词汇则不同,其变化最快,也最活跃,几乎每个十天半个月就会感觉到变动或变异,不是新词新义产生,就是旧词旧义消失。对此,传统的方法只是举例概略描写,不采用量化方法。因此也无法明确认识语言的动态变化。显然,词汇研究目前最薄弱的就是精度和量化,很少人采用计量方法去研究。其原因是:一则不易,二则不会,于是第三也就不敢。然而计量方法是任何科学的必然走向,定量分析是定性分析的必然归宿,也是定性分析的更高更精确的阶段。
3.2 词汇活跃度研究的几个方面
设定词汇活跃度的观察尺度为“1年”和“5年”两个级别,而以1年作为基础单位。那么细致地说,词汇活跃度需要或可以做如下基础性的工作和统计:
a.逐年汇集新词语、建立以1年为时间限度的新词语语料库并分别统计其词例和词种的年出现数;
b.记录新词语来源,是自创还是引进概念,并分别统计每年的词种数量;
c.记录并统计新词语分布门类;
d.根据新词语语料库分别统计新词语出现频度以及结合门类的使用度;
e.如果可能,统计创词者的人数;
基础性工作之后,就应进入具体的词汇活跃度的研究,大致有以下七个方面:
1)某时期词汇与前一时期相比,在词语增加与淘汰方面的比率。增加部分包括新增且稳定存留下来的,新增但很快淘汰的。另外就是非词成词、弃词复活两种,也可列入。
2)某时期词汇与前一时期相比,地域间词语交换数量和频度的变化。例如,外族语和外国语词进入汉语,方言地域之间的词语交换,方言词语进入普通话。
3)某时期词汇与前一时期相比,在旧词词义变动方面的比率。这就是旧瓶装新酒的类型,也有人把这一种视为新词增加的一种类型。
4)某时期词汇与前一时期相比,在构词成分若干高位和低位使用率方面的变化。
5)某时期词汇与前一时期相比,在构词类型方面变动的比率。可以成为构词法活跃度。
6)该时期词汇活跃情况与社会情况的相关关系或相关度。词汇活跃度与社会活跃度是一对相关项,可以互相印证。从而促进对社会发展的研究。
7)该时期词汇活跃度变化的动因与机制。这是我们研究词汇活跃度的一个目的。从这里可以看到我们在语言应用方面的一些任务。
这七个方面,都与活跃度有关,而且深度顺次递增。第3、5两项则是最难的。但最基本的是第1、2两项,第1项是第6、7两项的基础。活跃度有不同类型的测算,一般可以以第1、2两项作为基本活跃度。进一步的是第1、2、3三项相加以后的活跃度,这是更精准的活跃度。
以上研究都基于大规模统计,有很大难度。因此我们也不排除活跃度的个案研究,即研究个别词或一组词的兴衰起伏和兴替交代,例如“非典”类语词的起落,某个或某类语缀的兴替,外族语词的引进,港台语词与普通话的互动,等等。
3.3 词汇活跃度的影响因素和制约机制
据我们初步分析,影响词汇活跃度的因素可大略归为社会、人和语言等三个方面。细别之有下列九个因素:
1)社会生活的活跃程度。
2)跨地域交际活跃程度。
3)文化活跃程度。
4)新事物出现率。
5)信息传播渠道类型和数量的因素。例如现在出现的传媒丛林化现象。
6)人的群体心理因素。
7)人对生活或事物的需求态度。
8)人对语言文字的使用程度和运用态度。
9)制约语素能产度的语素类型和能产的构词类型。即单音或多音语素的活性、语素的类型;
语言因素尤其是构词类型,与社会和人的因素相比,其对词汇活跃度的影响还是较弱。因此这一因素与前两种因素相比也许只能算半个因素。
3.4 关于词汇活跃度研究方法
词汇活跃度研究的基本方法是:
1)大规模调查统计方法。为了完成3.2节中第1-4项任务,词汇就需要大规模的语料,越多越好,语料越多,活跃度越精确。为此需要建立适合其研究的不同级别的多信息词库。
2)计量方法。为了计算出词汇活跃度,还需要建立合适的数学模式。
3)随机抽样方法。根据需要,做大范围内的随机统计,以便减轻工作量,并提供试样数值,以便在一定程度上满足需要。
4)对比法。对比这些时期的词语,得出词语的兴衰生死的概况。
5)剥离法或提取法。对比这些时期的词语,剥离或提取出后一时期出现的新词语,提供给另一些活跃度研究。
6)分割法。例如:可分割为随机性抽样研究和全词汇研究;可分割为多年间研究和一年间研究;可分割为全门类研究和分门类研究(如:新词语类;普通词语类;专名类;外来词类;科技类;经济类;军事类;休闲娱乐类。这些门类可以根据需要设置和细化,例如可以设立外来概念词类,包括音译词、意译词、日语汉字词以及汉外混种词);还可分割为频度研究和使用度研究。
7)综合法或合成法。将各门类词语的变动数值综合化。
4. 词汇活跃度研究的基础
4.1 词汇活跃度研究需要新型的辞书和专门词库
1)词汇活跃度研究需要大量的统计资料作为基础。这些资料在过去以及现在基本上保存在词典和一些专着中。词典起到静态搜罗和汇集的作用,并给动态研究提供了一定的基础。到目前为止,词语的静态汇集的确已经取得了长足的进步,从《尔雅》到《方言》,到《康熙字典》,再到当代的《辞源》、《辞海》、《现代汉语词典》和《汉语大词典》以及《现代汉语规范词典》,还有近年来以《新词语大词典》为代表的多种新词语工具书,这样的汇集已经有了不错的纪录。但从许多方面看,我们的基础工作仍显单薄。具体而言,我们对古代或者现代的词汇总量仍然未能完全调查清楚,对词汇家底还掌握得不够,许多词语并非按照动态研究的需要或语言学的需要去搜集并确认,对动态研究并不十分趁手。
2)需要专门为动态研究服务的辞书和多信息词库。词汇动态研究不能完全依靠词典,词典有许多局限。一般情况下,词典很难每年改版或每年出新版,也很难容纳详细的书证和出现年月以及其它必要信息。因此需要为此专门制作辞书,并利用电脑技术制作多信息词库。
未来将有可供更精准研究的新型辞书出现,也期待全地域(或多地域)、多信息的词库能尽快出现。
4.2 现有辞书的缺憾
这些不足有相当部分不能责怪编者,主要还是受历史和社会的局限所致,是时代的烙印。依笔者所见,这些落后或有问题处大致有以下九端:
①首先是指导思想落后,编纂观念仍然滞后于现实之后于学科和科学观念的发展,依然受到社会政治或意识形态的影响,很多词语因此而未收。例如:“铁姑娘”、“胡风分子”、“右派分子”、“党天下”。这些都是历史,社会的历史,语言的历史,而重大历史是无法回避或跨过去的。
②以“典范”、规范或稳定性作为理由,可能排除了过多词语。例如许多简称就是因稳定性的理由而失收的。其实临时词是动态研究中的一个重要关注项目。
③可能以语词词典为由,排除了太多的专科性词条。例如据我们不完全抽查,在D-H之间就缺收“代议制、单眼、电热器、电压、定点、动画、读唇术、对译、多面体、短音、多血质、二律背反、放射性、防腐剂、废液、分子量、辐射热、腹式呼吸、公倍数、高速度、骨质、雇员、管制塔、广角、硅藻土、硅酸、过饱和、海王星、号音、黑字、化学纤维、混纺、活性、幻听、环礁”,而这些词语有不少在当代社会已经逐渐日常化和普及化了。
④可能是因为对简称和义项的一些偏见,缺收了许多简称,尤其缺收整体切分型的简称(或曰称代)。后者例如:“清华”可称代“清华大学”;“牡丹”可称代牡丹牌电视机、牡丹信用卡、牡丹香烟。这些均应分别设立义项。这样做才能真实反映语言和语言生活。
⑤相当部分的词条缺乏书证,其词条数目不少;有些应该查到的书证却未查到,反而是日本的词典帮助我们查到了汉语的较早书证。例如“胎毒”、“庭园”等无书证;“现金”在《汉语大词典》中仅能提出邹韬奋的书证,而《日本国语大辞典》指出在《新唐书》中已见该词。
⑥大部分有书证不着录该书证成书时间或发表时间,使人很难确定其大致出现时间。其实编者在编纂时收集书籍资料时应该清楚写作或发表时间的,统一标注更是举手之劳。
⑦缺少对词语研究成果的简要说明,包括辞书对该词释义的本质变动。这些说明类似《日本国语大辞典》第二版中的“语志”项目。
⑧一些极具语言价值的书文可能因政治和意识形态的关系而被弃置不用。例如一些曾被打成“胡风分子”的著名作家的文字作品丝毫未见,却多见柯云路的作品。这当然可能囿于时代和政治进程,情有可原,但也足见词典编纂者心中的禁区以及理念缺陷。
⑨对口头文本严重注意不足。以往仅仅以纸质文本载体上的语篇作为词目的勾乙收集来源,而没有采用口头纪录的方法来收集词目。事实证明,书面记载的词语和口语使用的词语有较大差别,其中口头使用的词语有相当一部分很难出现于书面。
我们承认辞书编纂可以受类型、目的、对象、资金、时间、人力等的制约因而对词语有所选择。但也不能以此为观念性的落后作辩解。我们不应该忘记词典所应负的使命。词典的作用之一就是一视同仁地记录描写词语并备查、解惑;作用之二是规范并解惑,即为“典”。这两种作用可以分别编纂两类不同的词典。为词语活跃度或动态研究的词典属于前一类,应该以详尽纪录汉语所有词语为使命,应该超越政治与意识形态。我们期待不久会有这样一部适合词汇活跃度研究的辞书出现,会有勇者来改写当代的辞书历史。2008年8月处暑定稿
原文分词
动态 视角 :词汇 活跃 度 纵横 谈
史 有为 (日本 明 海 大学 )
内容 提要 :本文 从 新词 爆炸 谈 起, 评论 当代 词汇 研究, 认为 动态 研究 是 当前 词汇
研究 的 突破 方向, 词汇 活跃 度 则是 动态 研究 中的 重要 课题。 本文 分析 活跃 度 的 观察 尺度 、研究 内容 、影响 因素 、制约 机制 和
研究 方法。 本文 最后 探讨 作为 活跃 度 研究 基础 的 辞书 和 词库, 并 评析 与 此 相关 的 国内 辞书 不足 之 处。
关键 词 :词汇 活跃 度 动态 研究 现代 汉语
1. 由 新词 爆炸 谈 起
进入 信息 时代, 让 我们 感受 特别 强烈 的 就是 新词 爆炸, 新的 词语 层 见 叠出, 多
不胜 收。 跟不上 时代, 跟不上 词汇 发展 这种 感触 尤深尤烈。 稍稍 上网, 稍稍 阅读 面向 年轻人 的 媒体, 一 大群 新词 语 就 纷至沓来,
应接不暇, 有的 词义 模糊 晦暗, 有的 甚至 茫然 难知。 其中 信息 技术 为 我们 带来 的 新词 更 感同身受, 其 数量 可以 百 计, 甚至 上千。
若 以 “网 -”作 例, 自 网络 /网路 出世 之后, 网站 、网页 、网址 、网志 、网民 、网虫 、网友 、网恋 、网 游 、网点 、网际 、网卡 、网 屏 、网 评 、网 贴
、网 关 、网 签 、网购 、网坛 、网 店 、网吧, 等等, 等等, 也 让 人 目不暇接。
这个 时期 的 词汇 就 如 女士 的 时装, 琳琅满目, 万紫千红, 稀奇 古怪。 诸如 IT界 的 视频 、视像, 点击 率 、芯片 、软件 、硬件 、软盘 、硬盘 、光盘 /光盘 、闪 盘 /优盘 、彩 铃、短信 、伊妹儿 ;新潮 系 的 驴友 /旅 友 、包 二奶
、超 女 、打 女 、财 女 、超 男 、潜规则 、“粉丝 ”;企业 界 也 不甘
寂寞, 某些 电影 制作 公司 改 成了 “影业 ”,一些 制药 厂 /公司 受 境外 影响 改 成了 “药 业 ”,鞋 厂 和 袜厂 则 改称 “鞋 业 ”、“袜业 ”,时兴 的 防盗 门 厂 也 用 上 了 “门 业 ”的 名号 ;等等, 等等。
且 不论 这些 词语 是 好 是 坏, 是 昙花 抑或 万年青, 新词 爆炸 总归 是 现实。 而 现实
首先 必须 承认, 必须 记录。 这是 第一 性 的。 然后 才 谈得上 第二 性 的 评判 和 规范。
以上 这 一切 不禁 使 人 引发 出 这样 一些 想法 :我们 有 必要 为 这类 动态 现象 作 一
纪录, 也 有 必要 从 动态 角度 开辟 词汇 新的 研究 方向。 于是, 就 有 了 下面 这番 不知 能否 实现 的 议论。
2. 词汇 动态 研究 的 必要 性
2.1 词汇 动态 研究 的 需要 与 现状
一般 说, 静态 就是 描写, 与 此 相对 的 动态 似乎 就是 “述史 ”。其实 静态 并不
等于 描写, 动态 也 并不 就 等于 述史。 它们 角度 不同, 各有 侧重。 语言 学 的 主 要目 的 就是 说明 什么 是 语言, 在 汉语 词汇 学
来说 就是 弄清 汉语 词汇 是 什么样 的, 其 构造 的 机理 与 发展 变化 的 动因 与 机制 是 怎么 样 的。 语言 动态 研究 关注 的 是 :语言
或 语言 成分 和 各 语言 方面 的 变动 、动因 和 机制, 以及 语言 不同 制约 力量 之间 的 较量, 更 进一步 可以 推论 或 预测 其 未来 的
趋向。 就 词汇 而言, 词汇 主要 描写 侧重 于 词汇 的 静态, 但 也 不 排除 描写 一个 横断 时期 内 的 词汇 动态 变化。 由此 可见, 动态
研究 就是 横跨 述史 和 描写 两 类 的 新 视角 研究。 社会 的 变动 时而 快 时而 慢, 词汇 也 就 有 相应 的 变动。 哪些 新生, 哪些 复活,
哪些 退休, 哪些 衰落, 各个 时期 之间 如何 变化 或 发展, 等等, 都 应该 有所 记录, 有所 分析 和 研究。 这是 词汇 的 动态 视角 所 应
研究 的。
2.2 词汇 动态 研究 之 目的
词汇 的 动态 研究, 其 目 的当 可 有 三 :
其一, 出于 语言 学 的 目的。 语言 科学 要求 我们 揭 秘 语言, 解 明 语言 是 什么。 这
就 需要 记录 语言 变动 的 一切 方面, 内中 包括 词汇 的 变动, 从而 弄清 作为 语言 一 部分 的 词汇 到底 是 什么。
其二, 出于 语言 应用 的 目的。 动态 研究 不但 可以 弄清 词汇 如何 发展, 还 可以 弄清
社会 和 语言 的 互动 关系, 弄清 社会 如何 促进 词汇 产生 并 发展, 而 词汇 反 过来 又 如何 促进 社会 的。
其三, 出于 某 民族 及其 语言 发展 的 需要。 通过 词汇 的 动态 研究, 可以 了解 该 语言
在 各 语言 中 所 处 的 地位 (词汇 部分 )以及 如何 改善 这样 的 地位。 在 当前 世界 中, 各个 语言 都 在 竞争 中 存在, 有的 因 竞争
失败 而 消亡, 有的 则 得到 改善, 得以 名列 前茅。
2.3词汇 动态 研究 的 几个 方面
词汇 动态 研究 是 一个 新的 领域, 我们 还 不能 完全 描写 出 它的 范围 和 研究 品种。
但 据 我们 推算, 它 至少 应 包括 如下 三个 方面 :
一 是 对 以往 与 当下 词汇 活动 的 观察 与 比较, 其中 有的 词汇 新生 与 隐 汰,词汇
消长, 词汇 流动 、词汇 接触 等 方面, 并 做出 某种 测算。 这是 最 经典 意义 上 的 动态 研究。 本文 所 论 的 “活跃 度 ”是 其中 的 一个
方面, 也是 观念 不同 于 传统 的 一个 方面。
二 是 对 未来 可能 的 词汇 活动 的 预测。
三 是 对 词汇 活动 干预 的 研究, 这 就是 通常 所 称 的 规范 研究。
本文 讨论 第一 个 方面 中的 一个 部分。 我们 也 期待 其它 同行 对 此 作出 更新 的 开拓。
3. 词汇 活跃 度 及其 研究
3.1 语言 活跃 性 、活跃 度 及其 观察 尺度
语言 在 不同 时期 有 不同 的 动态 表现, 或高 或低, 或 大 或 小, 或多或少, 或 相对
激烈 或 相对 沉静。 这种 情况 可以 用 “活跃 性 ”来 概括。 传统 的 语言 学 也 常 说 :语法 最 稳定, 很难 在 一年 或 数 年 、十 数 年内
感觉 出 ;语音 变化 则 相对 快 些, 但 也 并非 几年 之内 就 能 感觉 到 ;词汇 则 不同, 其 变化 最快, 也 最 活跃, 几乎 每个 十 天
半个 月 就会 感觉 到 变动 或 变异, 不是 新词 新义 产生, 就是 旧词 旧义 消失。 对 此, 传统 的 方法 只是 举例 概略 描写, 不 采用 量化
方法。 因此 也 无法 明确 认识 语言 的 动态 变化。 显然, 词汇 研究 目前 最 薄弱 的 就是 精度 和 量化, 很少 人 采用 计量 方法 去 研究。
其 原因 是 :一则 不易, 二则 不会, 于是 第三 也 就 不敢。 然而 计量 方法 是 任何 科学 的 必然 走向, 定量 分析 是 定性 分析 的 必然
归宿, 也是 定性 分析 的 更高 更 精确 的 阶段。
3.2 词汇 活跃 度 研究 的 几个 方面
设定 词汇 活跃 度 的 观察 尺度 为 “1年 ”和 “5年 ”两个 级别, 而 以 1年 作为 基础 单位。 那么 细致 地 说, 词汇 活跃 度 需要 或 可以 做 如下 基础 性 的 工作
和 统计 :
阿 .逐年 汇集 新词
语 、建立 以 1年 为 时间 限度 的 新词 语 语料 库 并 分别 统计 其 词例
和 词种 的 年 出现 数 ;
b.记录 新词 语 来源, 是 自创 还是 引进 概念, 并 分别 统计
每年 的 词种 数量 ;
c.记录 并 统计 新词 语 分布 门类 ;
d.根据 新词 语 语料 库 分别 统计 新词 语 出现 频度 以及
结合 门类 的 使用 度 ;
e.如果 可能, 统计 创词者 的 人数 ;
基础 性 工作 之后, 就 应 进入 具体 的 词汇 活跃 度 的 研究, 大致 有 以下 七个 方面
:
1)某 时期 词汇 与 前 一 时期 相比, 在 词语 增加 与 淘汰
方面 的 比率。 增加 部分 包括 新增 且 稳定 存 留下 来 的, 新增 但 很快 淘汰 的。 另外 就是 非 词 成 词 、弃 词 复活 两种, 也 可
列入。
2)某 时期 词汇 与 前 一 时期 相比, 地域 间 词语 交换
数量 和 频度 的 变化。 例如, 外族 语 和 外国 语词 进入 汉语, 方言 地域 之间 的 词语 交换, 方言 词语 进入 普通话。
3)某 时期 词汇 与 前 一 时期 相比, 在 旧词 词义 变动
方面 的 比率。 这 就是 旧瓶装新酒 的 类型, 也 有人 把 这 一 种 视为 新词 增加 的 一 种 类型。
4)某 时期 词汇 与 前 一 时期 相比, 在 构词 成分 若干
高位 和 低 位 使用 率 方面 的 变化。
5)某 时期 词汇 与 前 一 时期 相比, 在 构词 类型 方面
变动 的 比率。 可以 成为 构词 法 活跃 度。
6)该 时期 词汇 活跃 情况 与 社会 情况 的 相关 关系 或
相关 度。 词汇 活跃 度 与 社会 活跃 度 是 一 对 相关 项, 可以 互相 印证。 从而 促进 对 社会 发展 的 研究。
7)该 时期 词汇 活跃 度 变化 的 动因 与 机制。 这是 我们
研究 词汇 活跃 度 的 一个 目的。 从 这里 可以 看到 我们 在 语言 应用 方面 的 一些 任务。
这 七个 方面, 都 与 活跃 度 有关, 而且 深度 顺次 递增。 第 3、5两 项 则是 最
难 的。 但 最 基本 的 是 第 1、2两 项, 第 1项 是 第 6、7两 项 的 基础。 活跃 度 有 不同 类型 的 测算, 一般 可以
以 第 1、2两 项 作为 基本 活跃 度。 进一步 的 是 第 1、2、3三 项 相 加以
后 的 活跃 度, 这是 更 精准 的 活跃 度。
以上 研究 都 基于 大 规模 统计, 有 很大 难度。 因此 我们 也 不 排除 活跃 度 的 个案
研究, 即 研究 个别 词 或 一 组词 的 兴衰 起伏 和 兴替 交代, 例如 “非 典 ”类 语词 的 起落, 某个 或 某 类 语缀 的 兴替, 外族 语词
的 引进, 港台 语词 与 普通话 的 互动, 等等。
3.3 词汇 活跃 度 的 影响 因素 和 制约 机制
据 我们 初步 分析, 影响 词汇 活跃 度 的 因素 可 大略 归 为 社会 、人和 语言 等 三个
方面。 细 别 之 有 下列 九 个 因素 :
1)社会 生活 的 活跃 程度。
2)跨 地域 交际 活跃 程度。
3)文化 活跃 程度。
4)新 事物 出现 率。
5)信息 传播 渠道 类型 和 数量 的 因素。 例如 现在 出现
的 传媒 丛林 化 现象。
6)人 的 群体 心理 因素。
7)人 对 生活 或 事物 的 需求 态度。
8)人 对 语言 文字 的 使用 程度 和 运用 态度。
9)制约 语素 能产 度 的 语素 类型 和 能产 的 构词 类型。
即 单音 或 多 音 语素 的 活性 、语素 的 类型 ;
语言 因素 尤其是 构词 类型, 与 社会 和 人 的 因素 相比, 其 对 词汇 活跃 度 的 影响
还是 较 弱。 因此 这 一 因素 与 前 两种 因素 相比 也许 只能 算 半个 因素。
3.4 关于 词汇 活跃 度 研究 方法
词汇 活跃 度 研究 的 基本 方法 是 :
1)大 规模 调查 统计 方法。 为了 完成 3.2节 中 第 1-4项 任务, 词汇
就 需要 大 规模 的 语料, 越 多 越 好, 语料 越 多, 活跃 度 越 精确。 为此 需要 建立 适合 其 研究 的 不同 级别 的 多 信息 词库。
2)计量 方法。 为了 计算 出 词汇 活跃 度, 还 需要 建立
合适 的 数学 模式。
3)随机 抽样 方法。 根据 需要, 做 大 范围 内 的 随机 统计,
以便 减轻 工作 量, 并 提供 试样 数值, 以便 在 一定 程度 上 满足 需要。
4)对比 法。 对比 这些 时期 的 词语, 得 出 词语 的 兴衰
生死 的 概况。
5)剥离 法 或 提取 法。 对比 这些 时期 的 词语, 剥离 或
提取 出 后 一 时期 出现 的 新词 语, 提 供给 另一 些 活跃 度 研究。
6)分割 法。 例如 :可 分割 为 随机 性 抽样 研究 和 全
词汇 研究 ;可 分割 为 多年 间 研究 和 一 年间 研究 ;可 分割 为 全 门类 研究 和 分 门类 研究 (如 :新词 语 类 ;普通 词语 类 ;专名
类 ;外来 词类 ;科技 类 ;经济 类 ;军事 类 ;休闲 娱乐 类。 这些 门类 可以 根据 需要 设置 和 细化, 例如 可以 设立 外来 概念 词类,
包括 音译 词 、意译 词 、日语 汉字 词 以及 汉 外 混 种 词 );还 可 分割 为 频度 研究 和 使用 度 研究。
7)综 合法 或 合 成法。 将 各 门类 词语 的 变动 数值 综合
化。
4. 词汇 活跃 度 研究 的 基础
4.1 词汇 活跃 度 研究 需要 新型 的 辞书 和 专门 词库
1)词汇 活跃 度 研究 需要 大量 的 统计 资料 作为 基础。
这些 资料 在 过去 以及 现在 基本上 保存 在 词典 和 一些 专着 中。 词典 起 到 静态 搜罗 和 汇集 的 作用, 并 给 动态 研究 提供 了 一定
的 基础。 到 目前 为止, 词语 的 静态 汇集 的确 已经 取得 了 长足 的 进步, 从 《尔雅 》到 《方言 》,到 《康熙 字典 》,再 到 当代 的
《辞源 》、《辞 海 》、《现代 汉语 词典 》和 《汉语 大 词典 》以及 《现代 汉语 规范 词典 》,还有 近年 来 以 《新词 语 大 词典 》为 代表
的 多种 新词 语 工具 书, 这样 的 汇集 已经 有 了 不错 的 纪录。 但 从 许多 方面 看, 我们 的 基础 工作 仍 显 单薄。 具体 而言, 我们
对 古代 或者 现代 的 词汇 总量 仍然 未能 完全 调查 清楚, 对 词汇 家底 还 掌握 得 不够, 许多 词语 并非 按照 动态 研究 的 需要 或 语言
学 的 需要 去 搜集 并 确认, 对 动态 研究 并不 十分 趁 手。
2)需要 专门 为 动态 研究 服务 的 辞书 和 多 信息 词库。
词汇 动态 研究 不能 完全 依靠 词典, 词典 有 许多 局限。 一般 情况 下, 词典 很难 每年 改版 或 每年 出 新 版, 也 很难 容纳 详细 的
书证 和 出现 年月 以及 其它 必要 信息。 因此 需要 为此 专门 制作 辞书, 并 利用 电脑 技术 制作 多 信息 词库。
未来 将 有 可供 更 精准 研究 的 新型 辞书 出现, 也 期待 全 地域 (或 多 地域 )、多
信息 的 词库 能 尽快 出现。
4.2 现有 辞书 的 缺憾
这些 不足 有 相当 部分 不能 责怪 编者, 主要 还是 受 历史 和 社会 的 局限 所致, 是 时代
的 烙印。 依 笔者 所 见, 这些 落后 或 有 问题 处 大致 有 以下 九 端 :
①首先 是指 导 思想 落后, 编纂 观念 仍然 滞后 于 现实 之后 于 学科 和 科学 观念 的 发展,
依然 受到 社会 政治 或 意识 形态 的 影响, 很多 词语 因此 而 未 收。 例如 :“铁 姑娘 ”、“胡 风 分子 ”、“右派 分子 ”、“党 天下 ”。这些 都是 历史, 社会 的 历史, 语言 的 历史, 而 重大 历史 是 无法 回避 或 跨 过去 的。
②以 “典范 ”、规范 或 稳定 性 作为 理由, 可能 排除 了 过多 词语。 例如 许多 简称 就是 因 稳定 性
的 理由 而 失收 的。 其实 临时 词 是 动态 研究 中的 一个 重要 关注 项目。
③可能 以 语词 词典 为 由, 排除 了 太 多 的 专科 性 词条。 例如 据 我们 不 完全 抽查,
在 D-H之间 就 缺 收 “代议 制 、单 眼 、电热 器 、电压 、定点 、动画 、读 唇 术 、对译 、多面体 、短 音 、多 血 质 、二 律 背 反 、放射 性 、防腐
剂 、废液 、分子量 、辐射 热 、腹式 呼吸 、公 倍数 、高速 度 、骨质 、雇员 、管制 塔 、广 角 、硅藻土 、硅酸 、过 饱和 、海王星 、号 音
、黑 字 、化学 纤维 、混纺 、活性 、幻听 、环 礁 ”,而 这些 词语
有 不少 在 当代 社会 已经 逐渐 日常 化 和 普及 化 了。
④可能 是 因为 对 简称 和 义项 的 一些 偏见, 缺 收 了 许多 简称, 尤其 缺 收 整体 切分
型 的 简称 (或 曰 称 代 )。后者 例如 :“清华 ”可 称 代 “清华 大学 ”;“牡丹 ”可 称 代 牡丹 牌 电视 机 、牡丹 信用 卡 、牡丹 香烟。 这些 均 应 分别 设立 义项。 这样做
才能 真实 反映 语言 和 语言 生活。
⑤相当 部分 的 词条 缺乏 书证, 其 词条 数目 不少 ;有些 应该 查 到 的 书证 却 未 查
到, 反而 是 日本 的 词典 帮助 我们 查 到 了 汉语 的 较 早 书证。 例如 “胎毒 ”、“庭园 ”等 无 书证 ;“现金 ”在 《汉语 大 词典 》中 仅 能 提出 邹韬 奋
的 书证, 而 《日本 国语 大 辞典 》指出 在 《新 唐 书 》中 已 见 该 词。
⑥大部分 有 书证 不 着录 该 书证 成书 时间 或 发表 时间, 使 人 很难 确定 其 大致 出现
时间。 其实 编者 在 编纂 时 收集 书籍 资料 时 应该 清楚 写作 或 发表 时间 的, 统一 标注 更是 举手 之 劳。
⑦缺少 对词 语 研究 成果 的 简要 说明, 包括 辞书 对 该 词 释义 的 本质 变动。 这些 说明
类似 《日本 国语 大 辞典 》第二 版 中的 “语 志 ”项目。
⑧一些 极具 语言 价值 的 书 文 可能 因 政治 和 意识 形态 的 关系 而 被 弃置 不用。 例如
一些 曾 被 打 成 “胡 风 分子 ”的 着 名作 家 的 文字 作品 丝毫 未 见, 却 多 见 柯云 路 的 作品。 这 当然 可能 囿于 时代 和 政治 进程, 情有可原, 但
也 足见 词典 编纂 者 心 中的 禁区 以及 理念 缺陷。
⑨对 口头 文本 严重 注意 不足。 以往 仅仅 以 纸 质 文本 载体 上 的 语 篇 作为 词目 的
勾 乙收集 来源, 而 没有 采用 口头 纪录 的 方法 来 收集 词目。 事实 证明, 书面 记载 的 词语 和 口语 使用 的 词语 有 较大 差别, 其中
口头 使用 的 词语 有 相当 一 部分 很难 出现 于 书面。
我们 承认 辞书 编纂 可以 受 类型 、目的 、对象 、资金 、时间 、人力 等 的 制约 因而 对词
语 有所 选择。 但 也 不能 以 此 为 观念 性 的 落后 作 辩解。 我们 不 应该 忘记 词典 所 应负 的 使命。 词典 的 作用 之一 就是 一视同仁
地 记录 描写 词语 并 备查 、解惑 ;作用 之 二 是 规范 并 解惑, 即 为 “典 ”。这 两种 作用 可以 分别 编纂 两 类 不同 的 词典。 为
词语 活跃 度 或 动态 研究 的 词典 属于 前 一 类, 应该 以 详尽 纪录 汉语 所有 词语 为 使命, 应该 超越 政治 与 意识 形态。 我们 期待
不久 会有 这样 一 部 适合 词汇 活跃 度 研究 的 辞书 出现, 会有 勇 者 来 改写 当代 的 辞书 历史。 2008年 8月 处暑 定稿。