数据分析《红楼梦》的作者有多少个

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

1、曹雪芹、高鄂 。1921年胡适发表了《红楼梦考证》,认定《红楼梦》前80回是曹雪芹所作,而后40回是高鄂续写的。

清裕瑞在《枣窗闲笔》中说,听说有《风月宝鉴》一书,又名《石头记》,“不知为何人所作”,曹雪芹对它进行了删改润色,其叔脂砚斋给加了批注,并改名为《红楼梦》,他曾见过抄本。

程伟元,苏州人,出版商,曾三次印刷出版《红楼梦》,他出版的《红楼梦》程甲、程乙本他在刻本的序文中说:“《红楼梦》小说本名《石头记》,作者相传不一,究未知出自何人,惟书内记雪芹曹先生删改数过。”。

看来他也吃不准曹雪芹是不是作者。

脂评本封面只写脂砚斋重评石头记,没有曹雪芹的名号。

问题是不同脂批间具有非常多的矛盾,脂批很可能为假造。

欧阳健《古代小说版本漫话》说“脂本乃后出之伪本,而程本方为《红楼梦》之真本。”

曲沐《庚辰本<石头记>抄自程甲本<红楼梦>实证录》一文中,对脂本和程甲本作了大量的文字对比,证明脂本是造伪,脂本是从程甲本上抄录的,造伪者是脂砚斋。

永忠和明义言之凿凿说曹家有个曹雪芹,但翻遍曹家家谱却查无此人,在曹家家族中,合于敦氏兄弟所记载的曹雪芹年龄的,只有曹天佑一人。

雍正5年曹家被抄时,曹雪芹才4岁,还在吃奶,什么都不懂,以后是不可能写出宛如帝王般的生活情景,大量的细节如不是生活在其中,很难仅靠想象就能描写出来。

(曹雪芹的出生年月有两种说法:一是雍正2年(1724年),一是康熙54 年已未(1715年),按这个算,曹当时是13岁)。

确实有个曹雪芹,是个残疾人,靠制作贩卖风筝养家糊口,此人写过一部《废艺斋遗稿》,和《红楼梦》没关系。

高鹗。不是续书者,他只是书商程伟元的一个打工仔。程老板在旧货市场上淘到的《红楼梦》后40回的手稿,是由他编辑修改完成的。有程本序言为凭,有程伟元和张船山两人为证。张船山,四川遂宁县人,乾隆庚戌进士,著名诗人,书画家。张船山在《赠高兰墅鹗同年诗》题解中写道“传奇红楼梦八十回后俱兰墅所补”,现在人们比较认同“补”是编辑修订的意思。

中国红楼梦学会会长张庆善说:“高鹗不应该是《红楼梦》续作者,他应该是《红楼梦》最后出版的整理者。

2008年,红楼梦学会名誉会长、《红楼梦学刊》主编冯其庸提议后40回的作者宜署无名氏,得到了专家和出版商的赞同,彻底否定了所谓的红楼梦后40回“高鹗续作说”。

2、瞿麻子。河南人,生活在康熙年间,从小给给地主放牛。这人是个嫖客,有玩女人经验,40岁什么事不做,就猫在家写《红楼梦》,写好后卖给皇族家的人看,后来活到56岁死去。瞿麻子幼儿时期得过天花,落下满脸麻子(嘿嘿,康熙也得过天花,苏麻喇姑用一把喂牛的几几草就医好了他,这老兄从小放牛却不懂这个)。

3、石头、空空道人、吴玉峰、孔梅溪,曹雪芹,这是书中说的和书的创作有关系的5个人,石头是始作者,空空道士是抄录者,吴玉峰和孔梅是题名者,曹雪芹增删润色者。5人都为《红楼梦》出了力,但一样是劳动者,待遇却是不一样的,曹雪芹幸运地爬上了封面,那四个倒霉蛋却只能躺在书里。

4、洪晟。这是近期盛行的土默热红学的开创者、吉林省总工会主席土默热教授提出来的。

洪晟是明末清初的剧作家,曾写过著名的《长生殿》。

土先生认为《长生殿》与《红楼梦》虽然题材和体裁不同,但主题思想、故事结构、人物性格、神化系统、悲剧结局却相似;“金陵十二钗”是宝玉的亲姐妹和表姐妹,清初诗坛上著名的“蕉园诗社”也正好12位才女,是洪晟的亲姐妹和表姐妹,洪晟年轻时常与这些姐妹们一起踏雪踏青,诗词酬唱,她们的活动同《红楼梦》中描写的完全一样;脂批透露《红楼梦》作者为“芹溪”,而“芹溪”恰恰是洪晟的一个别号;于是乎就认定红楼梦和长生殿的作者是一个人,这个人就是洪晟;洪晟的《洪上舍传奇》就是《红楼梦》的底本。

土先生还解析了《红楼梦》作者由洪晟变为曹雪芹的经过:洪晟和曹寅是好朋友,康熙43年他把《洪上舍传奇》的手稿交给曹寅,请曹寅帮助刻版印刷。不幸的是洪晟在回家的途中喝醉酒掉河里淹死了。从此手稿落在曹寅家。曹寅晚年,因穷困潦倒书稿未能出版。到了乾隆年间,这个手稿被同样穷得揭不开锅的曹雪芹给翻了出来。《洪上舍传奇》现已不存。

5、石涛。是个和尚,俗名朱若极,明朝皇族,靖江王朱赞仪的11世孙, 其父朱亨嘉于清顺治二年(1645)自封监国,被南明朝廷唐王朱聿键所杀。石涛后跟宦官出身的喝涛出家做了和尚。他当和尚,却穿道袍,因为道袍和明朝的服装相似。有人这么形容他,说“幼入佛门,老着道袍,亦僧亦道一石涛”(嘿嘿,挺贴切)。石涛是个大画家,康熙时代,他的画名已驰名天下。

另一种是《红楼梦》里隐藏着石涛的事。石涛和曹寅是好朋友,红楼梦第55回,后半回,作者编造的八个谜语全部是围绕石涛而设计的。康熙46年(1707年)石涛病逝于扬州,享年 66岁,葬在扬州蜀岗之麓。有人说他的死就像黛玉“一抔净土掩风流”,也像妙玉“欲洁何曾洁,云空未必空”!

最初的《红楼梦》是写给乾隆看的。和珅的目的是给皇帝和王公贵族们洗脑,以防大清走元末的道路。乾隆56年(1791年),北京“萃文书屋”首次以木活字排印出版的120回《绣像红楼梦》(程甲本),就是根据和珅手稿编写的。乾隆活着的时候,《红楼梦》非常吃香,嘉庆一上台,《红楼梦》就倒了霉,原因是和珅写《红楼梦》把汉人礼学仕子虚伪丑恶的嘴脸全都揭露出来了。

这无异于在说,大观园是作者在千里外的地方凭空造出来的,就像在五云中、日月光辉里的空中楼阁。这可以表明红学考证专家肯定的曹雪芹著书北京黄叶村、大观园在北京或南京某地的一切根据是不能成立的。

宝玉诗:《红楼梦》访妙玉乞红梅

酒未开樽句未裁,寻春问腊到蓬莱。不求大士瓶中露,为乞孀娥槛外梅。入世冷挑红雪去,离尘香割紫云来。槎栎谁惜诗肩瘦,衣上犹沾佛院苔。

8、吴梅村,名吴伟业,明末清初诗人,崇祯时的榜眼,大家熟悉的“冲冠一怒为红颜”就是他老人家写的句。此人明亡时曾辞归故里,顺治十年又极不情愿地奉招出仕,十三年又辞官还乡。

2004年,抚顺市社科院院长、研究员傅波和抚顺市地方史研究会常务理事、抚顺市政府处级调研员钟长山抛出了一个惊人的观点:吴梅村是《红楼梦》全书一百二十回的真正作者。理由是,《红楼梦》中,“悼红轩”、“怡红院”、“红楼梦”名词只有清初的明朝遗老才能写得出来;较早版本的《红楼梦》中记载:“吴玉峰题曰《红楼梦》;东鲁孔梅溪则题曰《风月宝鉴》”“《风月宝鉴》一书,乃其弟棠村序也”, 他们把上述几个人名进行了一番组合,结果出现了吴梅村3个字。吴梅村的政治观点同《红楼梦》创作主题相合。更为重要的是,相对于曹雪芹难以维持生活的窘境来看,曾经隐居十年的吴梅村具有写作这样一部鸿篇巨著的时间。

9、张岱,明末清初散文家,写《湖心亭记》的那个。浙江绍兴人,祖籍四川绵竹。张家累世显宦,国破家亡后,他隐于嵊县西白山中一年,后又搬回绍兴,晚年生活贫困凄凉。

10、湖南娄底的一名女子,此女名曰谢三曼。前80回是由此女所写,后40回是曹雪芹添改之作,没高鄂什么事。理由是:

书中多次写到湘江,而且人名、物名中带“湘”的很多。第64回贾琏与尤二姐要槟榔吃,而嚼槟榔是湖南人的习俗。

书中所记述的地名与姓氏与传说极为吻合。

(1)、书中有“一帆风雨路三千”之句,而由娄底乘船顺涟水入湘江,经洞庭,入长江,至南京(京城),刚好三千里左右。

(2)、贾雨村乃胡州人氏,原湘乡县正有胡州之地,现在双峰县境内,离白鹭村不到二十里,为谢家族祠所在地。“谢”姓在当地方言中两种读音,当地方言中的“谢”与“贾”谐音相似。

(3)、书中写到:“白扬村里人呜咽”,又写到“谁谓池塘曲,谢家幽梦长。”白扬村属湘乡县毛田乡范围里的一个村庄,村中人多姓谢,离白鹭村不足十里。

11、胤礽。疯癫狂人朱在《惟我读懂红楼梦》中称,这是他从《红楼梦》本身文字中读出来。胤礽是康熙与皇后赫舍里所生,康熙朝两立两废的太子。康熙死后,4子胤禛登基,将胤礽由咸安宫迁到了祁县郑家庄,并派众兵看守。胤礽于雍正2年12月病死,时年51岁。死后被追封为理密亲王,葬于黄花山。《红楼梦》是胤礽哭出来的。

12、曹頫。他就是书中的那位“情僧”。曹府被抄,曹家仿佛由天堂走进了地狱,他遭到了整个家族的唾骂。心里上的极大落差,让他痛不欲生。他出家当了和尚,法号空空道人。但他人在禅房却无心经卷,每天总是沉浸在对从前吃香的、喝辣的、泡小妞、玩名伶的回忆中不能自拔,想想哭哭,哭哭想想,十年工夫,竟然哭成了一部《情僧录》。之后,他开始四处云游,每到一处他都将书拿出示人,看的人又都会帮他修改书名,他就把这些事也写入了书中,所以书中才会有吴玉峰题曰《红楼梦》,孔梅溪则题曰《风月宝鉴》这些文字。其后,其弟脂砚斋给书加了批,其子曹雪芹又对书多次批阅增删,伟大的《红楼梦》就这么诞生了。

13、明延宁王朱由梿。这是马兴华老先生用自己弄的判断《红楼梦》作者及贾府原型的十二条标准逐条对照和用“谐音法”、“拆字法”去拆解书里的诗句弄出来的。

比如:书中第1回作者自述:“背父兄教育之恩,负师友规谈之德。”

马先生就对照出朱由梿父亲死后,他的哥哥完全有可能负起教育责任。

第2回,雨村道:“更妙在甄家风俗,女儿之名亦皆从男子之名,不似别人家里另外用这些春、红、香、玉等艳字。”

马先生对照出益定王朱由木的四个女儿永福郡主振麟、永康郡主振祥、安远郡主振瑞和待封郡主振彩,罗川王朱常湑的女儿衍祥,淳河王朱常汭的女儿衍寿等一窝丫头片子都起了个男子的名字。

再比如:《红楼梦》第50回里写道,湘云编了一支《点绛唇》迷语:“溪壑分离,红尘游戏,真何趣?名利犹虚,后事终难继。”众人也有猜是和尚的,也有猜是道士的,也有猜是偶戏人的,宝玉说一定是耍的猴儿。马先生通过“谐音法”和“拆字法”就弄出了下面的成果:

“溪壑分离,红尘游戏” ——朱由析。

“真何趣?名利犹虚,后事终难继。”——真名记。

“也有猜是和尚的,也有猜是道士的”——道士。

“也有猜是偶戏人的”,“一定是耍的猴儿”——由“猴”字按“申猴”的关系得“申”字,从偶戏人的“人”字得“壬”字,最后得《红楼梦》成书年代为“壬申”年(1692年)。

朱由梿,出生于明朝的益王府,被封为延宁郡王。明亡后,他出家做了道士,道名朱元育,道号云阳,有《参同契阐幽》与《悟真篇阐幽》两著存世。

14、马錡、马大观、马益著。这是山东退休警察马孝亮考证出来的。马孝亮,祖籍山东临朐县,明代马愉状元第18代孙。该同志自称运用现代侦破案件法及平时所学知识,从多方面进行了综合分析判断,发现《石头记》的作者是康熙年间贡生、明代宣德状元马愉后人临朐马錡、马大观、马益著祖孙三人。

马锜苦熬20年写《石头记》,于乾隆初年脱稿前80回。因年老体衰,后40回仅写出提纲、要点和章节回目。

马锜晚年(乾隆8年或9年),让儿子马大观和孙儿马益著带上《石头记》,去北京找曹雪芹,组成了三人写作班子,开始对《石头记》进行修改、润色、审定,经“批阅十载、增删五次”,最终《脂砚斋重评石头记》、《金陵十二钗》、《红楼梦》等几个版本先后面世。

其间,执笔进行大幅修改的是曹雪芹,马大观蹲住北京批改3000余处,马益著一边在贡院攻读,一边积极参与,批注、修改1500余处。

因此, 《红楼梦》的作者排名顺序应为:马锜、马大观、曹雪芹、马益著或马锜、曹雪芹、马大观、马益著。

◆我们都在读书的时候学过《红楼梦》的作者有两个!曹雪芹写了前80回,高鹗续写了后40回。不过我读书那会儿从来就没怀疑过,因为老师说的都是权威的嘛。然而,红学上关于《红楼梦》的作者争议一直很大,存在着很多种版本。这里俺就不去像红学家们做很深入的研究了,毕竟俺是数据分析师,不是汉语言文学的研究者。

话说回来,我相信读过《红楼梦》的人可能都感觉的出,前80回和后40回从文笔上是有些差距的,但这种差距也不至于是狗尾续貂。而我在写本文而收集素材的时候,不停的复制+粘贴电子版的红楼梦各章节时,也发觉越到后面的章节,诗词越少甚至没有了。因此,直观上也感觉有那么一点意思。

统计学家则不是依靠直觉做判断。曾经有统计学家试图从一个作家的虚词使用分布上去做甄别《红楼梦》的作者。首先,统计学家通过虚词的分布,证明了前80回和后40回是存在显著性差异的,说明确实是来自于两个不同的作者。然后,再通过曹雪芹和高鹗在出版《红楼梦》相关章节之前和之后的文章的虚词分布做比对,发现最终在统计上能说明《红楼梦》是曹雪芹和高鹗两个作者。

但是前辈和我们说,从后40回的详细分析来看,统计学家还发现可能还不止高鹗一个人写的,或许存在第3个作者!

时光荏苒,时隔多年我在知乎上又看到了这个老话题。

不过知乎上涉及的内容,得益于现在数据分析方法工具的日益丰富,有好多人用更多的新方法例如主成分分析法,用SVM,用聚类分析都做了相似的研究。

看到大家都那么有热情用数据分析的工具来搞搞小研究,正好挠到我的痒处!我也打算尝试过下小瘾,我也来试试看,《红楼梦》的作者通过数据分析的方法能不能用识别出来到底是多少个人。

首先第一步,你得有一个电子版的,可用于分析的《红楼梦》。于是我就上网从电子书下载的网站上,找一篇下载量比较靠前的TXT格式的《红楼梦》。这个电子版红楼梦我试着读了几个章节,没有那种劣质读本错别字、漏字语句不顺的现象。而且和1982年经典版本的《红楼梦》总字数非常接近。算是没有糟蹋这次的研究吧。

接下来要做的事情并不是说马上去做分析研究,而是要认真想一想前人他们做研究时的一个假设,到底是不是有道理。什么假设呢?那就是“作家的作品中,虚词分布有其独特性,是相当难模仿出来的,因此可以作为分辨作者身份的参照物(或者说文学指纹)”。

我发现在知乎里面,这个假设几乎是所有分析的人都默认的,然而就是没有人能够站出来说这个假设是合理的。

那虚词是啥,就是区别于实词的。搜了一下资料,大众对虚词的认识有2个共同点:一是虚词必须依附于实词或语句,来表达或丰富语法意义;二是虚词不能单独成句,不能单独作句法成分。

由于我不是学语言文学的,所以我也没办法从汉语言文学的理论角度上去证明这个假设。不过我就想尝试着从逻辑上,从现实的感知上看能不能说得过去。因为“每个作家作品中虚词使用是有其独特性”的这个假设,那么多的人都认为它有道理,我想必然有他合理的地方。我归纳了一下,大致原因有3个:

1. 每个作家都是生长在一个独特的环境的,这种环境对作家语言的影响是非常的深远,因此形成的虚词使用习惯也非常独特。

最具典型的特点就是方言环境,让虚词对语句的影响最明显。举个例子,普通话里面“看完报纸后他挺难过的”, “挺”这个时候就是虚词,作为副词用,表示“非常地”。要是这句话换成东北小品的作品的话,就会变成“看完报纸后他老难过了”,这个时候东北方言“老”代替了“挺”;而要是作者是个广西人,那么可能这句话就变成了“看完报纸后他蛮难过的”,此时“蛮”代替了“挺”;若作者是个广东人,那么就会变成“看完报纸后他几难过”,此时“几”就替代了“挺”……,例子太多了。

而且,同一个作家即便写作对象变了,虚词的使用习惯和很难改变。例如还是刚才的例子,那个广西的作家即便是将句子换成“看完报纸后他蛮高兴的”,或者“看完电影后他蛮多牢骚的”,“看完广告后他蛮……的”,“蛮”这个虚词是很难从他的用词习惯中甩掉的。

虚词除了选择有独特性外,虚词在句子中使用的位置每个人都不一样。比方说, “他时不时用手擦擦汗”和“他用手时不时擦擦汗”,意思就是一样的,但“时不时”的位置就不一样。不同人写作习惯不同,对虚词的位置使用习惯也是不同的。

除去刚才所说的作家生长语言环境的独特性外,再加上每个作家所处的时代、本身的阅历、受教育程度、人生重要事件经历又各自不同,因此其使用虚词的习惯必然是独特的,也是很难模仿的。

2.虚词不受情节的影响,这点是和实词相比最大的优势。写一本小说,如果我们统计实词的话,很容易被情节所干扰,因为实词构成了情节。比方说《水浒传》里面,武松因为打过老虎,因此在写关于他在景阳冈的那段情节中,“大虫”这个实词就会出现的比较多;但如果写到其他情节时,甚至些其他章节时,因为情节没有打虎的需要了,“大虫”这个实词又不见了,或者很少出现。顶多被“母大虫”这个绰号中的“大虫”给统计进去。

这样一来,在某些实词构成的情节中,其频率就会高发,反之就几乎统计不到,容易产生一个窘境:同一个作家,因为不同的章节和不同的小说情节差异大,相同的实词分布也就会差异很大。这样一来非常难判断出这篇文章到底是不是这个作者写的。

而虚词则不同,无论情节如何发展,作者都必然的要用他习惯的虚词来表述或补充人物或事件的一些行为、思想和事件的发展。而虚词又只是补充或修饰实词的,它们如果丢失或取消掉,对情节的事实或主干影响很小,有时候微乎其微。

举个最简单的例子,佛教禅宗六祖慧能在评价2个和尚“风动还是幡动”争论时,说的“既不是风动,也不是幡动,而是你们的心动罢了”这句话中,我们去掉“而”、“罢了”这2个虚词,原句的意思没受半点影响。

3.虚词数比实词数量少很多,统计起来工作量小。在文言文中,虚词常用的有18-20个,常用实词超过120个;现代汉语中(算上白话文这个近亲吧),根据1998年上海辞书出版社出版的《现代汉语虚词词典》来统计的话,约800多个。而实词如果我们做个不太精确的估算,按商务印书馆2012年出版的《现代汉语词典 第六版》收录6.9万个词来算,减去800多个虚词,也就是说实词就超过6.8万个!因此,虚词的分布对统计计算而言,大大减少了计算量。

以上虚词的3个特点,也被前人用来做过对照实验,发现对于甄别作者来说效果不错。比方说李贤平就试过将《儿女英雄传》的某些章节混进《红楼梦》的部分章节中,结果一统计虚词的分布,就分析出这些章节不是同一个作者。

好,刚才我们分析完了“每个作家作品中虚词使用是有其独特性”的这个假设,发现从逻辑上和实际感知上都是很合理的,或者说没有很大的反对意见的话,接下来我们就要选择要分析的虚词了。

《红楼梦》是诞生于雍正时期,从文风上来看算不上很文言文,初中生都能读的了。但和现代汉语的小说比起来,又没那么“现代化”,也有很多之乎者也。因此,我们姑且先把其当成一个白话文来对待,先按文言文常用的虚词外加白话文中常见的虚词来做下尝试。

常用的文言虚词包括:于、也、而、乎、以、所、与、者、何、为、因、乃、则、其、若、之、焉、然、矣。

而白话文中常用的虚词有或、亦、方、即、皆、仍、故、尚、呀、吗、咧、罢、么、呢、让、向、往、就、但、越、再、更、很、偏等等。

确定了要分析对象后,接下来,从“简书”网站上下载了一个可以统计字、词的小工具软件,然后老老实实的将电子版的《红楼梦》按照120回进行切割,切割成了120个独立的txt文档。然后将这120回分别用这个小工具统计了这些虚词在每个章节出现的频率。

接下来,就是数据分析师的角色登场了。

一、基础统计的分析

刚刚把这些虚词统计完的时候,我粗略的浏览了下,有个比较极端的情况出现了:“吗”和“咧”这2个做句尾修饰语气的虚词,居然几乎只出现在80回之后!

当然啦,极端不代表全貌嘛!我先将全文分成2类,前80回和后40回;以及前40回、中40回、后40回两种场景。由于这些虚词我用正态性检验检查过,1/3的虚词在全文的分布都不是正态总体,因此用均值和标准差来做分析不适合,于是我通过非参数检验来做一下探索。

对于第一种分类场景,采用Mann-whiney U 检验,对于第二种分类场景,采用Kruskal-Wallis检验和Mann-whiney U 检验,分析的结果如下

非参数检验的结果我们看到,后40回无论是和前80回做比较,还是和1-40回,41至80回做比较,只有30%不到的虚词分布差异不显著,而更多虚词都指向了差异显著的结论。所以在这里可以推断,最后的40回应该是一个独立的作者。

那前80回分拆成2部分来看,1-40和41-80回并没有多少虚词支持差异显著。可以说明前80回是另一个作者完整写完的。因此《红楼梦》由2个作者写成的结论,从非参数检验来看是可以成立的。

二、聚类分析

聚类分析我用的纯探索式聚类。因为我也不知道最终哪些章节会明显的聚集在一起。

原理思路简介如下:

44个不同虚词,可以作为识别各个章节是否属于某一个作者的44个判断维度;

而不同虚词在每个章节的频数,就成为每个章节的各个特征指标。

因此,我的数据表的列向量,表示的是每个虚词在120个章节的出现频数,故我采用的是聚类分析中是对各个章节为个案的“个案”聚类。或者叫做Q型聚类。

我按照欧式距离、欧式距离平方、夹角余弦三种聚类法来试试,同时也对原数据按不处理、以及0-1归一化处理分别来尝试。因为谱系图太大了,不好全部都粘贴过来,因此我总结一下分析的结果。

总的来说呢,一百个人看莎士比亚,就会有100个哈姆雷特。从这些谱系图来看,你可以按照先入为主的观点来解读,也可以按一些新的观点来解读。但我发现都能说得过去。

首先,我实在是没办法不按既有观点来看这个分析结果,因为在脑海里都20年的灌输结果,不这么想还真感觉不太自然哩,呵呵。因此,三种聚类法显示1-80回和81-120回之间确实有比较清晰的界限。也就是说前80回的章节会比较少地和后40回的章节聚成一类。往往都是前80回的章节聚成几个小类,后40回的章节聚成几个小类。

无论是原始数据还是做0-1归一化处理,结论和上面差不多。唯一的差别就是用0-1归一化后,聚类的效果更明显,聚类的层次要少一些;用原始数据聚类,更多的先聚成很多小类,然后才慢慢汇聚成大类,聚类的层次要多一些。某些章节的聚类归属也有些许差异。

其次,让我说说新的观点,就是《红楼梦》可能是若干作者共同修改或编纂的。这个观点其实是参考李贤平的观点。

因为从谱系图来看,并没有展现出我们想看到的那种,前80回的章节呼的一声像听到哨子立刻就集合在了一起,后40回也在听到哨声后马上站成一堆。而是若干不同的章节先汇聚成一些小类,然后这些小类再汇聚成中等的类簇。这个过程还比较长,至少在第8次聚类的时候才明显看出某些类簇比较集中。

到了第20次的时候,这些聚类才汇集成少数几个大类。李贤平的观点是说,正因为作者很多,所以才会出现这样的层次聚类过程。当然了,他还列举了其他考证的证据来支持他的观点。

但尽管如此,不知道是否凑巧,偏偏前80回的章节和后40回的章节,他们确实比较少有交集。

下面我就随便选一个夹角余弦做聚类的方法,0-1归一化的谱系图给大家解解馋。其中图中的C119,代表的是章节119。大家看看,自己心中的“哈姆雷特”是长啥样吧!

三、主成分分析

说到主成分分析法在这方面的应用,其实一开始我看到前人有人拿来用,我内心还是有些犯嘀咕的。因为用主成分的原理,是各个章节的虚词的出现频率有相关性。这样,才有可能将有相关关系的几个章节变成一个主成分。

可我看到知乎和一些论文里面,强调说主成分分析法分析到不同作者之间的虚词差异,那到底他们是如何办到的呢?于是我就用这些虚词在各章节的出现频率使用了一把。

同样还是探索式的分析,我把所有章节作为变量进行主成分分析来看,信息比较集中在2-3个主成分上。前2个主成分能解释86%以上的信息;为了进一步分析主成分,我将主成分的轴进行旋转后,发现3个主成分,能解释88%的信息,并且每个主成分的特征值突变的没那么严重了。

从以上的计算来说,《红楼梦》所有章节,大致可以分成2大类和3大类,换句话是说作者可能是2个或3个。那这些作者是写了那些章节呢,当我们打开各主成分来看,得到的结论和聚类分析还是有比较大的差异。

PS: 我采用的旋转法是Kaiser 标准化的正交旋转法。每个主成分里面各个变量(章节)之间的荷载,我按照 >0.6 才认为是显著荷载,并将之进行归类。

具体的计算结果如下:

从上面的分析来看:如果按未旋转前的主成分来看,前2个类的章节,只有少数几个属前80回的章节属于于第二类外,绝大部分章节属于第一类。

而观察旋转了主成分轴之后,第2类和第3类的章节,都在前80回里,而第一类的章节涵盖了全文几乎70%。

这么说来,推论得到《红楼梦》应该还是有一个主要的作者,其他的作者要么补充,要么改编、修订、增补。

这个结论倒是和高鹗自己在《兰墅序跋》和《新镌全部绣像红楼梦》萃文书屋乾隆辛亥刊本卷首中所说的那样有些能说得通:

“予闻《红楼梦》脍炙人口者,几廿余年,然无全璧,无定本。……书中前八十回钞本,各家互异;今广集核勘,准情酌理,补遗订讹。”

……书中后四十回,系就历年所得,集腋成裘,更无它本可考。惟按其前后关照者,略为修辑,使其有应接而无矛盾。

那这个主要的作者是谁呢?应该还是曹雪芹,但高鹗,他(或许是他召集众人)对全文做了收集、校勘、整理。后面对负责编纂时自己又对部分的章节做了修订。才会有《红楼梦》的全文面世

呵呵,是不是我自己又多刻画了一个“哈姆雷特”呢?!

四、神经网络分析

上面几个方法,都是传统的偏统计领域的方法,都还是可以解释的。但是神经网络则没那么容易被解释。不过在很多非线性的仿真来看,效果又比较好。

所以本次我还是尝试使用了一下。我采用的是多层感知器来做分析,也就是通过神经网络对各个章节进行训练,看看能否在既定的分类基础上,支持2个作者分别撰写前80回和后40回的猜想。因为分类这种分析方法用于做探索分析不太合适,或者说做不了。

多层感知器的参数设计简单介绍下:

1、将前80回的章节标记为1,后40回章章节标记为2

2、然后将80回和后40回的章节顺序打乱,同步的这些虚词在这些章节里面的频数也跟着走,并且对虚词频数进行标准化。

3、抽取70%的章节做训练,30%的章节做测试,目的就是要看测试的那部分章节判断,和已有认识是否相同。比方说测试集那部分的章节的既定分类,和训练出的结果一致的话,那么说明这前80回和后40回的观点,还是真的能成立。

4、激活函数,隐藏层和输出层我分别采用双曲正切,softmax,以及sigmoid函数,反正都尝试了一下;

5、分别误差平方和,交叉熵作分别为监督学习的原则

6、训练方法采用批处理法;

7、分别尝试采用梯度下降法和共轭梯度下降来处理梯度优化;

8、初始学习率为0.1,0.2……0.6都尝试一下;

然后,机器就开始训练了……,不停的调参也开始了

最终训练的结果最好的情况下,参数如下:

隐藏层数为1层,隐藏层中有3个神经元;隐藏层的激活函数是双曲正切;

输出层的激活函数是softmax,采用交叉熵最小原则。

不过,神经网络训练的结果有个特点,就是不稳定。例如,隐藏层的神经元的权值只要达到阈值就可以往下传递,那么这个“达到阈值”可不是每次的情况都一样的。比方说这次比阈值高5%,下次比阈值高3%,都能往后传递。因此同样参数设定下,每次的结果都不能重复。只能说稳定保持在某个水平左右。

那么在我保持上面参数不变的情况,多层感知器训练结果就是稳定在93%-98%之间,最终朝着97%-98%左右收敛。

同时,我还是好奇的做了3个作者的假设验证,看看多层感知器能否通过学习,进行识别。我假设前40回、中40回和后40回为3个作者,然后将数据表的章节顺序打乱,同样的按照2个作者的训练方式设计参数,于是机器通过学习之后,得到的训练测试精度,一开始在75%-87%左右震荡,慢慢的一度达到了91%。但是这些训练稳定性没有2个作者验证时那么高,后来又陆续掉到60%-80%。总的来看,测试精度不算高,差不多在80%左右。

下图是包含1层隐藏层的网络图。

五、SVM分析

支持向量机技术和神经网络的多层感知器一样,本身做分类研究的话比较难有探索性的收获。毕竟你训练出一个超平面,只能将已有的样本进行既定类别的分类,而不能去发现样本以外的类别。

因此我还是用来对其做前80回和后40回作者是否一个人的验证。

我用MATLAB里面自带的SVM工具包来做的实验,简单介绍下操作的思路:

首先在MATLAB中要把待测试的虚词的各章节出现的频数、每个章节预先设定好的类别设定好变量,我命名是sample和type;

其次编写代码

>>

train=[(sample(1:50,:));(sample(81:100,:))];

%将sample中的1-50章节,81-100章节设定为训练集

>> test=[( sample (51:80,:));( sample

(101:120,:))];

% 将sample中的51-80章节,101-120章节设定为测试集

>> group=[(type(1:50,:));( type

(81:100,:))];

% 将type中的1-50章节,51-80章节设定为训练集的预定类别(前80回为1,后40回为2)

>>

svmMODEL=svmtrain(train,group,'kernel_function','linear');

%运用svmtrain命令包训练超平面;

>>

classfication=svmclassify(svmMODEL,test)

% 用svmclassify对测试集的样本进行分类。

不过分析的结果发现,测试集的50个章节中,只有3个章节的分类和既定分类不一致,精度达到了94%!

由此看来,前80回和后40回作者是2个人的猜想也还是很能站得住滴。

由于44个虚词代表了44个维度,这里就没办法画出图来了。

小结:

基础统计分析、神经网络、SVM技术的分析结果,是支持《红楼梦》的作者为2个人的;

“聚类分析”的结果比较开放,关键看你怎么解读。它既可以支持2个作者,也可以支持多个作者,所以想用这种分析工具来做研究的话,还是得钻研下原著才行滴。

“主成分分析法”,对作者人数的判定,介于2人至3人之间。和聚类分析一样,想用这种分析工具来做研究的话,还是得钻研下原著才行滴。

后面的花絮:

说实话,如果要认真的用虚词来做技术分析,识别《红楼梦》的作者的话,还真缺少一个重要的环节。那就是曹雪芹的其他作品。也只有通过他的其他作品的虚词使用情况,来对比《红楼梦》的虚词使用情况,才能够确定红楼梦是否曹雪芹的作品。

然而,据说曹雪芹一生中流传下来的作品,除了《红楼梦》之外,还有就是《废艺斋集稿》。但是这个手稿现在找不到了,被一个金田的日本古董商人从前清的礼亲王府重金购走了,并且也在民国时期吧,几个学者费了很大的劲儿誊抄了其中一个部分做风筝的章节。结果后来那个叫金田的古董商人在日本消失了,找到找不到。

( “金田”是不是“金田一耕助”的亲戚啊?我禁不住暗暗思量,“金田一耕助”这哥们儿侦查的案子几乎都会有人失踪或狗带的,嘿嘿嘿)

首先,就是电子版的《红楼梦》和经典的1982版到底有多一致,这个我还真没来得及细读;

其次,就是统计虚词时,有些虚词可能存在实词化的场景。例如“于”可能是人名,那个时候就是实词了;“之”有可能是代词时……等。这些只有人读的时候才能够识别的。但是我用的是一个词频统计工具软件,它可分不出哪个是实词哪个是虚词,我就一股脑全当成虚词了。

THE END
0.红楼梦的作者曹雪芹简介。曹雪芹,中国古典名著《红楼梦》的作者,祖籍辽宁铁岭,生于南京,约13岁时迁回北京。曹雪芹出身清代内务府正白旗包衣世家,他是江宁织造曹寅之孙,曹雪芹早年在南京,江宁织造府亲历了一段锦衣纨绔、富贵风流的生活,至1728年,曹家因亏空获罪被抄家,曹雪芹随家人迁回北京老宅。后又移居北京西郊,靠卖字画和朋友救济为生,曹雪https://www.jianshu.com/p/bb577d257cfe
1.红楼梦作者简介当第一次接触红楼梦时,我接受不了林黛玉的哭哭啼啼、贾宝玉的女孩子脸、王熙凤的贪得无厌。直到我搞清楚了这个故事的情节,我才开始了学会欣赏它,开始分析里面人物的特点,开始感觉林黛玉的忧愁是美的,贾 假如给我三天光明作者简介作文 一天妈妈给我买了《假如给我三天光明》。这本书的作者是海伦·凯勒,海伦http://www.unjs.com/h/b/27439.html
2.红楼梦作者简介资料(红楼梦作者简介)红楼梦作者简介资料(红楼梦作者简介) 1、曹雪芹(1715~1763)?清代小说家。 2、名霑,字梦阮,雪芹是其号,又号芹圃、芹溪。 3、祖籍辽阳,先世原是汉族,后为满洲正白旗“包衣”人。 (相关资料图) 4、曹雪芹的曾祖曹玺任江宁织造。 5、曾祖母孙氏做过康熙帝玄烨的保姆。http://news.xunjk.com/news/xyxw/2023/0815/618434.html
3.红楼梦的作者简介他在人生的最后几十年里,以坚韧不拔的毅力,历经十年创作了《红楼梦》并专心致志地做着修订工作,https://wenwen.soso.com/z/q597982630.htm
4.醉读红楼《红楼梦》的作者之谜可见,“壬午除夕”这个时间节点,既不是江宁织造曹寅的后代曹霑曹雪芹的去世时间,也不是《红楼梦》的真实作者爱新觉罗·永琪的去世时间,而是永琪写下“林黛玉泪尽而亡”的时间。 其实,关于《红楼梦》的作者身份,批书人在脂批中已经再三进行了强调。 【戚回后】将可卿之病将死作幻情一劫,又将贾瑞之遇唐突作幻情https://www.jianshu.com/p/207fce90d689
5.红楼梦作者曹雪芹简介红楼梦作者曹雪芹简介2022-06-26 曹雪芹的《红楼梦》阅读笔记【3篇】 阅读笔记是指在阅读时为了记录阅读经验或整理课文精彩部分而做的笔记。 以下是为大家整理的关于曹雪芹的《红楼梦》阅读笔记的文章3篇 ,欢迎品鉴!曹雪芹的《红楼梦》阅 [阅读本文]2025-06-11 校园安全主题方案手稿(合集九篇) 手稿是汉语词语http://www.db51888.cn/k/hongloumengzuozhecaoxueqinjianjie/
6.经典好书推荐之二十《红楼梦》书名:红楼梦 作者:曹雪芹 等 出版社:人民文学出版社 索书号: I242.4/227-3:1 I242.4/227-3:2 典藏地点:二楼外借书库 作品简介 《红楼梦》又名《石头记》,是中国古典长篇小说中最优秀的作品,是中国古代小说发展的高峰和总结,被列为中国古典四大名著之首。小说成书于1784年(清乾隆四十九年),前80回为曹雪芹https://tsg.gdsspt.edu.cn/info/1036/1242.htm
7.读书詹丹:天下文体入“红楼”文化>>作者简介: 詹丹,上海师范大学人文学院教授、博士生导师,都市文化学博士点带头人,兼任中国红楼梦学会副会长、上海市古典文学学会副会长。 作者:詹丹 编辑:周怡倩 责任编辑:朱自奋https://www.whb.cn/zhuzhan/xinwen/20220923/487071.html
8.红楼梦的作者是谁《红楼梦》又名《石头记》,是中国古典小说的巅峰之作,位居“中国古典四大名著”之首。那么红楼梦的作者是谁呢?下面就是学习啦小编给大家整理的红楼梦的作者简介,希望对你有用! 红楼梦的作者是谁 红楼梦的作者曹雪芹,续作是由高鹗完成。 曹雪芹(约1715-约1763),名沾,字梦阮,号雪芹,又号芹溪、芹圃,中国古典https://www.xuexila.com/lishi/bk/shuji/7523.html
9.写作规范4.作品名作关键词应加书名号,如“红楼梦”应为《红楼梦》,特定含义的词作关键词应加双引号,如“一带一路”。 五、中图分类号 1.具有文献标志码的文章应标注分类号,文章一般标注一个分类号,多个主题的文章可标注两个或三个分类号;主分类号排在第一位,多个分类号之间应以分号分隔。 2.分类号前应以“中https://xuebao.lsnu.edu.cn/zzzx/xzgf.htm
10.《阳明诗话》专栏之三:王门弟子保幼孤专栏作者简介 赵永刚,文学博士,现为贵州大学文学与传媒学院副教授、中文系主任、硕士研究生导师。学术兼职有贵州省《红楼梦》研究会副会长、贵州省儒学研究会常务理事、中华诗教学会理事、北京曹雪芹学会理事等。 出版学术专著《王阳明年谱辑存》、《中国古代文学传习录》、《清代文学文献学论稿》、《杭世骏年谱》等。http://acc.gzu.edu.cn/2020/0428/c5685a134532/page.htm
11.红楼梦的作者是谁创作背景是什么《红楼梦》是中国古代章回体长篇小说,中国古典四大名著之一。《红楼梦》是一部具有世界影响力的人情小说、中国封建社会的百科全书、传统文化的集大成者。其作者以“大旨谈情,实录其事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。 http://www.chusan.com/zhongkao/240212.html
12.红楼梦十五讲(豆瓣)蔡义江作者 刘梦溪作者 冯其庸作者 作者简介· ··· 刘梦溪,1941年生,中国艺术研究院中国文化研究所研究员、所长,《中国文化》杂志创办人、主编。主要著作有《传统的误读》、《学术思想与人物》、《红楼梦与百年中国》、《中国现代学术要略》等。 冯其庸https://book.douban.com/subject/2247482/
13.《红楼梦》作者曹雪芹介绍曹雪芹(约1715—约1763),我国清代最伟大的小说家。汉人。名沾,字梦阮,雪芹是其号,又号芹圃、芹溪。祖籍辽阳,先世原是汉人,后为满洲正白旗“包衣”人,是为旗人。中国长篇名著《红楼梦》的作者。以下是小编整理的《红楼梦》作者曹雪芹介绍,希望对大家有所帮助。 曹https://mip.ruiwen.com/wenxue/hongloumeng/465536.html