AI写小说

AI模型写小说能力实测:Claude vs ChatGPT vs DeepSeek

为什么我们需要实测AI模型写小说的能力?

市面上的AI写作评测,大部分停留在"生成一段文字好不好看"的层面。但写小说不是写一段文案——它需要对话有个性、世界观有逻辑、角色有深度、长篇有一致性、风格有辨识度。

我们设计了5个专门针对小说写作的任务,让Claude、ChatGPT和DeepSeek分别完成,然后从小说写作的实际需求出发评分。不是比谁写的句子更漂亮,而是比谁更适合用来写小说。


测试方法论

我们为每个模型设计了5个标准化写作任务,每个任务代表小说写作中的一个核心能力维度:

任务1:对话写作

测试内容:让模型写一段3人以上的群体对话场景,包含冲突和不同性格的角色。

评估维度

  • 每个角色的对话是否有辨识度(能不能光看台词就知道是谁在说话)
  • 对话是否自然、有节奏感
  • 对话是否推动了情节
  • 是否避免了"AI味"的对话模式(如每个人都说话太客气、太完整)

任务2:世界观构建

测试内容:让模型构建一个包含魔法体系、社会阶层、历史背景的虚构世界。

评估维度

  • 魔法体系是否有内在逻辑(规则是否自洽)
  • 社会结构是否合理(不同阶层的利益冲突是否真实)
  • 历史背景是否有细节感(不是泛泛的"千年战争")
  • 世界观是否有原创性(不是照搬常见套路)

任务3:角色塑造

测试内容:让模型创建3个角色,包含完整的外貌、性格、动机、缺陷和成长弧线。

评估维度

  • 每个角色是否有独特性(不是套路化的"冷酷男主+温柔女主+搞笑配角")
  • 角色的缺陷是否真实(不是"太善良""太执着"这种假缺陷)
  • 角色的动机是否有力(能不能让读者理解角色为什么这么做)
  • 角色之间的关系是否有张力

任务4:章节连续性

测试内容:让模型分3次写作3个连续章节,每次写作时只提供前一章的内容作为上下文。

评估维度

  • 角色性格是否在3章中保持一致
  • 情节线索是否连贯推进(没有遗忘前文伏笔)
  • 语气风格是否稳定(没有突然变化)
  • 世界设定是否前后一致(没有自相矛盾)

任务5:风格遵从

测试内容:分别要求模型用3种不同风格(口语化、文学性、极简主义)写作同一场景。

评估维度

  • 模型是否真正理解并执行了风格要求(不是只是换了几个词)
  • 不同风格版本的文字是否有明显的风格差异
  • 每种风格版本是否达到了该风格的典型水准
  • 模型是否在所有风格中都避免了AI味

评分体系

每个任务10分制,5个维度各占权重:

  • 对话辨识度 / 世界逻辑 / 角色独特性 / 一致性 / 风格差异度 = 核心指标
  • 自然感 / 细节感 / 真实性 / 稳定性 / 执行度 = 辅助指标

ChatGPT 测评

优势

对话自然度

ChatGPT在对话写作上有明显优势。它生成的对话节奏感好,语句自然流畅,尤其是日常对话场景——角色之间的互动读起来像真人聊天。在群体对话中,ChatGPT擅长处理多人节奏,对话来回切换时不容易混乱。

这种优势来自ChatGPT庞大的对话训练数据——它见过太多真实的对话场景,因此在模拟对话节奏上有先天优势。

知识广度

ChatGPT在知识覆盖方面最强。无论你要求构建什么样的世界观——修仙体系、中世纪魔法、赛博朋克科技——它都能给出相对完整的框架。它不会因为题材冷门而出现明显的知识空白。

弱势

长段落声音漂移

ChatGPT最大的问题:在超过2000字的段落中,角色声音会逐渐漂移。一个开头说话简短有力的角色,到段落中段会开始说更完整、更礼貌的句子。这不是个别现象——几乎每次长段落写作都会出现。

这意味着如果你让ChatGPT写一个完整的章节(3000-5000字),你需要特别关注角色对话是否保持了前半段的风格。如果不检查,读者会觉得角色"说话变了味"。

安全过滤器的限制

ChatGPT的安全过滤器在小说写作场景中会造成困扰。它会在以下情况拒绝或修改内容:

  • 暴力描写过于具体时(即使这是故事需要的冲突场景)
  • 情感描写涉及某些敏感主题时
  • 角色做出道德争议行为时(即使这是角色设定的一部分)

对于写网文爽文、悬疑推理的作者来说,这个限制尤其烦人——这些类型的故事需要冲突、需要角色犯错、需要不舒适的场景。

各任务评分

| 任务 | 评分 | 说明 | |------|------|------| | 对话写作 | 8.0 | 对话自然流畅,多人对话节奏好,但角色辨识度中等 | | 世界观构建 | 7.0 | 框架完整但偏模板化,原创性不足,细节不够深入 | | 角色塑造 | 6.5 | 角色容易套路化,"缺陷"常是假缺陷,动机深度不够 | | 章节连续性 | 5.5 | 长段落声音漂移明显,角色一致性在跨章节时不稳定 | | 风格遵从 | 6.0 | 能执行风格要求但差异不够大,各版本都偏"ChatGPT味" |

ChatGPT总分:33.0 / 50


Claude 测评

优势

长篇一致性

Claude在章节连续性上表现最好。3个连续章节中,角色性格保持稳定,语气风格前后一致,前文的伏笔在后文中被自然地提及和推进。这种一致性不是偶然的——Claude在长文本处理上有系统性的优势。

如果你写长篇连载小说,这个优势是最重要的。一个章节间角色性格跳变的小说,读者体验会严重受损。Claude在这方面几乎不需要你额外检查和修正。

细腻文笔

Claude的文字有一种内在的质感——不是华丽辞藻堆砌,而是语言本身的克制和节奏感。在文学风格写作任务中,Claude生成的文字有真正的文学品质:意象精准,情感克制,叙事节奏自然。

这个优势在以下场景特别有价值:

  • 写需要文学品质的段落(角色独处时的内心描写、关键场景的氛围营造)
  • 写需要细腻情感表达的场景(不是"她很伤心",而是通过行为和氛围暗示悲伤)
  • 写需要风格辨识度的作品(文字本身有独特味道)

角色塑造深度

Claude创建的角色有更真实的缺陷和更有力的动机。它不太会给出"太善良""太执着"这种假缺陷——它的角色缺陷通常是行为层面的(比如"习惯性逃避冲突"而不是"太温柔"),动机通常是具体的(比如"因为亲眼看到母亲被杀害所以追求力量"而不是"想要变强")。

弱势

偶尔过度解释

Claude有时会在不需要解释的地方加上解释。比如一个角色做了某个行为,Claude会加上一段内心活动来解释为什么这么做——但在小说中,让读者通过行为本身去理解角色才是更好的手法。

这个问题不严重,但需要注意。你可以在提示词中明确要求"不要过度解释角色行为",Claude会很好地遵从。

对争议内容的保守态度

Claude在处理争议内容时比ChatGPT更灵活,但仍然有一定的保守倾向。它不会像ChatGPT那样直接拒绝,但可能会用更温和的方式来处理暴力或道德争议场景。

对于写悬疑、黑暗题材的作者来说,这个限制比ChatGPT小得多,但不是完全不存在。

各任务评分

| 任务 | 评分 | 说明 | |------|------|------| | 对话写作 | 7.5 | 对话有质感但节奏略慢,角色辨识度高 | | 世界观构建 | 8.0 | 逻辑自洽性好,原创性强,细节深入 | | 角色塑造 | 8.5 | 真实缺陷,具体动机,角色间关系有张力 | | 章节连续性 | 8.5 | 跨章节一致性最好,声音稳定,伏笔推进自然 | | 风格遵从 | 7.5 | 风格差异明显,文学风格执行出色,极简风格偶有过重 |

Claude总分:39.0 / 50


DeepSeek 测评

优势

中文语言品质

DeepSeek在中文写作上有独特优势。它生成的中文文字有一种"母语感"——不是翻译腔的中文,而是自然的中国读者习惯的中文节奏和表达方式。尤其是在以下场景:

  • 网文爽文的快节奏对话和短句爆发
  • 古风的意象表达和留白手法
  • 口语化的自然人声叙事

如果你主要写中文小说,DeepSeek的中文品质是所有模型中最好的。其他模型写中文时或多或少有"翻译腔",DeepSeek几乎没有。

性价比

DeepSeek的价格远低于ChatGPT和Claude。在长篇连载场景中(每天写3000-5000字),成本差异非常明显。如果你写的是百万字级别的长篇,DeepSeek的成本优势可能是决定性的。

效率

DeepSeek的响应速度快,生成效率高。在批量写作场景中(比如一次性生成多个角色的设定、批量生成世界观细节),DeepSeek的效率优势最明显。

弱势

英语文学风格偏弱

DeepSeek在英文写作的文学品质上明显弱于Claude和ChatGPT。它生成的英文文字有"功能性"但缺乏"质感"——能传达信息但缺乏风格辨识度。如果你写英文小说,DeepSeek不是最优选择。

偶有套路化倾向

DeepSeek在角色塑造和世界观构建上有时会走向套路化。它生成的角色设定偏模板——"冷酷但有柔软内心的男主""聪明但社交障碍的女主"这类组合出现频率偏高。世界观构建也偏向常见框架,原创性不足。

这不是致命问题——你可以在提示词中明确要求避开套路,DeepSeek会做调整。但你需要更仔细地检查和引导。

长篇一致性中等

DeepSeek在章节连续性上介于ChatGPT和Claude之间。它的角色声音漂移比ChatGPT轻,但不如Claude稳定。在3章以上的长篇写作中,建议每2-3章检查一次角色一致性。

各任务评分

| 任务 | 评分 | 说明 | |------|------|------| | 对话写作 | 7.0 | 中文对话自然流畅,但英文对话风格偏弱,辨识度中等 | | 世界观构建 | 6.5 | 框架完整但套路化倾向明显,原创性不足 | | 角色塑造 | 6.0 | 角色偏模板,缺陷和动机不够深入,需要额外引导 | | 章节连续性 | 6.5 | 比ChatGPT稳定但不如Claude,中文一致性优于英文 | | 风格遵从 | 6.0 | 中文风格差异明显,英文风格执行偏弱 |

DeepSeek总分:32.0 / 50


对比总表

| 评估维度 | ChatGPT | Claude | DeepSeek | |---------|---------|--------|----------| | 对话写作 | 8.0 | 7.5 | 7.0 | | 世界观构建 | 7.0 | 8.0 | 6.5 | | 角色塑造 | 6.5 | 8.5 | 6.0 | | 章节连续性 | 5.5 | 8.5 | 6.5 | | 风格遵从 | 6.0 | 7.5 | 6.0 | | 总分 | 33.0 | 39.0 | 32.0 |


按使用场景推荐

场景1:写中文网文爽文

推荐:DeepSeek + Claude组合

  • 用DeepSeek写日常章节——它的中文节奏最适合爽文的短句爆发风格
  • 用Claude写关键章节——大高潮、重要反转、需要文学品质的段落
  • 用DeepSeek做世界观和角色的初始设定(成本低,速度快),然后人工检查调整

场景2:写中文文学小说

推荐:Claude为主

  • Claude的文字品质在文学风格上最好
  • 关键对话场景可以尝试ChatGPT——它的对话自然度略高
  • DeepSeek可用于口语化对话的辅助生成

场景3:写英文小说

推荐:Claude为主,ChatGPT辅助

  • Claude在英文文学品质和长篇一致性上都是最优
  • ChatGPT在英文对话自然度上略胜,可用于对话密集的章节
  • DeepSeek在英文场景中不推荐作为主要工具

场景4:长篇连载(百万字级别)

推荐:根据章节类型切换模型

  • 日常推进章节:DeepSeek(成本最低,中文品质好)
  • 重要剧情章节:Claude(一致性最好,文学品质高)
  • 对话密集章节:ChatGPT(对话节奏最自然)

场景5:短篇创作(1-5万字)

推荐:Claude

  • 短篇对风格品质要求高,Claude在这方面最可靠
  • 短篇不需要大量重复写作,成本差异不重要
  • Claude的章节连续性优势在短篇中也能体现

如何用AI Novel Writer Manager组合模型的优势

单独用任何一个模型都有明显短板。AI Novel Writer Manager的核心价值是让你在一个项目中自由切换模型——在每种场景下用最合适的模型。

实操方式

在Manager中配置多模型

  1. 设置3个模型为可用:ChatGPT、Claude、DeepSeek
  2. 为不同写作任务预设模型偏好:
    • 日常章节 → DeepSeek
    • 关键剧情 → Claude
    • 对话场景 → ChatGPT
  3. Manager会根据你的写作进度和章节类型自动建议使用哪个模型

跨模型一致性管理

不同模型生成的文字风格有差异。Manager提供了风格统一功能——在切换模型后,自动检查新内容与前文的一致性,标记需要手动调整的地方。

成本优化

Manager会追踪你的写作量和各模型的用量,给出成本报告和优化建议。比如"你过去30天70%的章节用了Claude,如果日常章节切换到DeepSeek可以节省60%成本"。


最终建议

没有"最好的模型"——只有"最适合你当前任务的模型"。

  • 写中文、追求性价比 → DeepSeek
  • 写文学品质、长篇一致性 → Claude
  • 写对话密集场景 → ChatGPT
  • 写长篇连载 → 组合使用,按章节类型切换

最重要的是开始写。模型只是工具,你的故事才是核心。选一个模型开始你的第一章,写完再决定是否需要切换。实践比理论更有说服力——你自己的写作体验才是最终的评测标准。