数说红楼:揭秘《红楼梦》作者之谜

中国的四大名著中《红楼梦》有非常特别的位置。然而,其作者归属仍是谜团,各学派争论不一。1920年,胡适先生“大胆假设”,认为后四十回并非曹雪芹所著,而是高鹗续书。周汝昌认为《红楼梦》共108回,现存80回,后28回遗失。白先勇认为,没有人能续作红楼梦,后四十回中作者笔触细腻,前后呼应,一百二十回应全系曹雪芹所做。关于续作的文学价值,红楼梦“发烧友”张爱玲并不以为然。她认为后十回乃是“狗尾续貂,附骨之蛆”。读到第81回“占旺相四美钓游鱼”时,便觉“天日无光,百般无味”,仿佛进入了“另一个世界”。众多大家各执一词,学术界仍无定论。今天,狗熊会带大家再读石头记,尝试从数据分析角度给出一点佐证。

从前80回到后40回:红楼一梦,大厦倾颓

想要了解红楼梦作者,需先了解红楼梦。红楼梦讲述贾、史、王、薛四大家族的兴衰,贯穿贾宝玉、林黛玉、薛宝钗的爱情婚姻主线。“贾不假,白玉为堂金作马;阿房宫,三千里,住不下金陵一个史;东海缺少百玉床,龙王请来金陵王;丰年好大雪,珍珠如土金如铁”正是对四大家族极盛时期的判词写照。从红楼梦前八十回到四十回,发生了什么?简而言之,从前80到后40,是四大家族“大厦倾颓”,贾宝玉和林黛玉爱情悲剧的重要过渡。

我们先来看看故事的主人翁。初读红楼梦,最艰难的是缕清人物关系。红楼梦中眼花缭乱的宗亲关系,常常让人置身云雾。这里我们抽丝剥茧,只提取前十大出场人物和他们的出场比例,如下图所示。贾宝玉出场的比例最高,着墨最多。令人有点意外的是出场其次的并不是钗黛,而是贾府的封建家长代表,贾母和凤姐。贾母在书中有非常重要的地位,她是贾府内部最高权力的代表。这位老人不仅懂得享受荣华,而且当贾府倾頽之时,她拿出家财赈济众人,也是有条不紊,从容镇定。凤姐可以算是贾府的“执行董事”,明是一盆火,暗是一把刀。她执掌贾府实权,但为人心狠手辣,最终机关算尽,终免不了含愧而死。

1从数据分析检验看《红楼梦》作者归属

从上面的分析已经可以看出,红楼梦前后情节出现了很大变化,后40回作者更加关注主要人物之间矛盾的处理,减弱了对边线人物的描写。接下来,我们不妨“咬文嚼字”,看看作者在用语习惯上是否前后一致。

从统计学上,判断作者前后用语是否一致,我们自然与【统计检验】联系在了一起。这里,将整体分为:1~40回,41~80回,81~120回作对比。前两个总体的对比将作为参照;重点对比后两个总体之间的差异。我们将一个章节的词频作为一个观测,使用t检验检验不同总体之间词频均值的差异(注:这里我们要求这些词不能在3个总体的词频都<30)。

我们看看具体结果,首先我们关注【高频词汇】。经过统计检验,红楼梦前后用词出现较大断层的高频词集中于形容词、副词方面(在动词、介词、连词等方面差异不大,此处不再列出细节结果)。几个频率显著减小的词包括:越发、难道、可巧、不曾、原是。

①越发:

众人越发慌了。(第25回)

那袭人、麝月等一发慌了,回过凤姐几次。(第95回)

②难道:

黛玉笑道:“你说你会过目成诵,难道我就不能一目十行么?”(第23回)

雨村低了半日头,忽然笑道:“莫非他有遗腹之子,可以飞黄腾达的么?”(第120回)

③可巧:

可巧宝玉往黛玉那里去了。(第60回)

恰好王夫人打发周瑞家的照看(第103回)

④不曾:

黛玉道:“不曾读书,只上了一年学,些须认得几个字。”(第3回)

贾母道:“我活了八十多岁,自作女孩儿起,到你父亲手里,都托着祖宗的福,从没有听见过那些事。”(第106回)

⑤原是:

凤姐儿说道:“大老爷原是好养静的。“(第11回)

袭人道:“二爷的病原来是常有的。“(第105回)

我们从统计检验角度谈红楼梦作者归属,不能够没有参考系。在本节开头,我们已经说明,将前40回与41~80回的语言特征连续性作为参考;实际上,从前面的统计检验结果来看,前80回的语言风格相对更加统一。但是似乎这里并不能让我们完全信服,对于一般的章回小说,出现语言风格的波动是不是正常现象呢?由于情节、感情的波动,小说的文字使用出现差异可能并不是一个“奇葩”的现象。

我们不妨看看其他章回小说是咋样的。这里纳入我们之前讨论过的一个章回小说,《倚天屠龙记》作为参考(显然这一部小说没啥作者争议,感兴趣的读者可以自行分析其他章回小说)。同样地,我们对倚天屠龙记划分三个总体,检验在实词、虚词等方面的差异。结果如下表所示,我们并不能找到非常显著的总体之间差异。这说明《倚天屠龙记》这部小说作者在前后用语用词习惯上是相对更加统一的。

最后,我们进行了一个“鬼畜”的回归分析。首先将一个章节看成一个观测,前80回所有章节标记成Y=0,后40回标记成Y=1。一个自然的问题是,通过回归分析,能否“智能”区分前后总体?删除一些可能跟情节相关的词,经过变量选择后保留了6个词汇,它们大部分是文言虚词,回归系数如下表所示:

关于模型的预测性如何呢?我们进行了5折交叉验证,得到预测集平均AUC达到95.4%!这说明通过用语特征能够非常清晰的区分出红楼梦前后的差异。

红楼梦这部小说可以说包罗万象,从数据分析角度看作者归属只是其中一个方面。红楼梦中有许多语言特征很有意思,它的内容从古至今也多方争议。

在判断显著性时,我们不再以p值小于0.05为标准。这是由于此处涉及“多重检验”的问题。简而言之,如果涉及许多组假设检验,设置显著性水平为0.05是不尽合理的。此处我们采取Bonferroni修正,将p值根据总的检验组数进行调整。由于本案例总共涉及几十组检验,采取谨慎性原则,我们标注了p值<0.001的词汇。对多重检验感兴趣的读者也可以了解一下专用于多重检验的FDR方法,此处我们不再赘述。

THE END
0.《红楼梦》的作者到底是谁?文史(一)胡适经过“考证”,认定《红楼梦》的作者是北京西山“曹雪芹”,这既缺乏依据,又违背常理。 其一,《红楼梦》中描述的人物有五百多个,个个都是“假语村言”,没有一个是真姓实名,“曹雪芹”也不例外。此人虽然只在首尾两回中一闪而过,但也给读者留下了深刻印象,成为《红楼梦》整个故事情节发展过程中的一个http://www.chinawriter.com.cn/GB/n1/2021/0223/c419387-32034820.html
1.《红楼梦》真正作者的“立足之地”在哪里?我们确立了《红楼梦》的作者是谁,却不能从假故事上一一对应地全盘还原他的亲历亲闻,不能从作品的隐情上,全面有序地展示作者都经历了哪些事,又怎能解决作品自身种种矛盾呢?又怎能从作品本身验证我们确定的作者呢?笔者所确立的"<红楼梦>作者是弘晈"说,恰恰能经得起作者这一关卡的检验.https://www.360doc.cn/article/36319167_1140054217.html