岭南文化大模型完成10亿词元语料建设,全国首个区域文化大模型交出“年考”答卷

来源:羊城晚报•羊城派 作者: 发表时间:2026-03-28 12:33
羊城晚报•羊城派  作者:  2026-03-28
率先发布粤语思维链数据集,“文化通”等首批应用落地文旅,教育方向加快探索

“全国超过一百个大模型,却没有一个能用粤语思考、听得懂粤剧、看得懂广彩瓷器。”一年前,这句话道出了岭南文化在人工智能时代面临的尴尬处境。

3月28日,羊城晚报报业集团旗下岭南文化大模型实验室发布过去一年阶段性建设成果:围绕“打技术基础、做示范应用、找落地场景”三条主线,实验室已完成超10亿词元岭南文化语料建设,在全国率先发布粤语思维链语料集,基于深度蒸馏微调发布7B至72B参数系列模型,并在文旅、教育两大领域实现首批应用落地。这是国内首个聚焦区域文化的多模态大模型首次系统性公布建设进展。

10亿词元筑底座:
让大模型“学透”岭南文化

语料建设是这一项目最核心的基础。过去一年,项目团队系统整理形成了超过10亿词元的岭南文化语料,覆盖13大类、200多个子类,数据形态涵盖文本、图片、音频、视频,并已完成广东省数据知识产权登记。对区域文化模型而言,这意味着其能力建设不再依赖零散信息的简单调用,而是建立在较大规模、较高结构化程度的本土文化知识供给之上,为后续模型训练、知识组织和场景应用提供了稳定底座。

在语料建设中,最具突破性意义的成果是粤语思维链语料集的发布。岭南文化大模型实验室负责人解释,当前主流大模型在处理粤语时,本质上走的是一条“曲线路径”——先将粤语翻译成普通话,再基于普通话语义生成回答,最后转回粤语输出。这种“翻译中转”模式导致模型在面对粤语语境中的方言逻辑、文化隐喻和本土表达时往往“水土不服”,丢失了大量只有粤语母语者才能领会的语义细节。而实验室构建的粤语思维链数据集,通过系统化标注粤语推理路径,让模型能够像在广州本土长大的人那样直接用粤语逻辑进行思考,而非经由普通话“中转”。

例如,普通大模型会把“饮早茶”简单等同于“吃早餐”,但经过粤语思维链微调的模型,能理解“饮茶”在广府生活中更是一种家庭仪式和街坊社交方式,从而给出真正贴合本土语境的回答。该数据集已于2025年12月面向全国开源,系国内首个面向区域方言的思维链语料资源,发布后引起学界和业界广泛关注。

模型方面,实验室基于DeepSeek和通义千问等国产基座模型,通过文化数据深度蒸馏微调,先后发布7B至72B多个参数规格的岭南文化垂直模型,具备文字、图片、视频等多模态处理能力。

在合规层面,实验室已于2025年9月、2026年1月分别完成深度合成算法备案和生成式人工智能大模型备案,成为国内为数不多完成“双备案”的区域文化大模型团队,为后续产品化和商业化扫清了政策障碍。

“一展一知识库”:
让展览从“展完即散”走向“永续留存”

技术底座搭建完成后,如何将能力转化为可感知的应用?实验室给出的第一个答案,是与广东省博物馆联合打造的“广东外贸一千年”多模拟语料集。

该项目依托广东省博物馆年度大展“互利天下:广东外贸一千年”,运用大模型技术将分散在不同数据来源中的展品信息进行智能整合与关联串联。以展览中一件清代广彩瓷盘为例,实验室利用大模型将其年代背景、产地信息、贸易路线、纹饰来源等多维度知识从不同数据源中提取并贯通——一件文物,就能牵出一整条海上丝绸之路的贸易链条。不仅如此,项目还围绕22件一级文物构建了展品图片多模态语料集,采用“点—线—面”的多层标注体系,对器物的空间位置、几何尺寸、纹饰结构、叙事画面等进行结构化视觉标注,使文物从静态展品图片变为可被算法识别、被模型理解的视觉知识单元。

这一语料库项目的意义,远不止于服务单一展览。实验室将这套方法论概括为“一展一知识库”,其更深远的价值在于创新性地探索了一种文博发展新模式——让每一个高质量展览,不再是闭幕即结束,而是其核心内容、研究成果与文物数据,通过语料库建设沉淀为可永久传承、持续积累和迭代的高质量数据资产。过去,一场展览无论策划多精良、研究多扎实,闭幕之后相关内容往往随之“归档”,难以被持续调用和再生产。“一展一知识库”所要改变的,正是这种“展完即散”的行业惯性。

正如广东省博物馆相关负责人在此前发布会上所言,这种探索的意义“并不止于多了一套语料库”,而更在于推动文博展览从“一次展示”走向“长期复用”,从“文物宝库”走向“知识工厂”。这标志着文博机构在文化数字化和“数据要素×”领域迈出了实质性的一步,为展览知识资产的永续留存和价值转化提供了一条可复制、可推广的实践路径。

两大场景率先落地:
从文旅导览到教育互动

有了技术基础和示范成果,关键还要“用起来”。过去一年,岭南文化大模型在文旅和教育两大领域率先实现应用落地,让技术成果真正触达普通用户。

在文旅领域,2025年8月,基于岭南文化大模型打造的智能文旅服务产品“文化通”正式上线羊城派App,面向公众提供个人文旅导览、文化活地图等一体化智能服务。与一般旅游攻略类产品不同,“文化通”的核心差异在于对“文化游”需求的深度理解能力:它不是简单地罗列景点和路线,而是基于对岭南文化脉络的深度认知,结合实时数据,为用户生成细化到分钟级的行程规划,精确到每顿早餐的花费、景点间路线是否拥堵等实用细节。这种“既懂文化又懂生活”的产品特质,使其在同类产品中形成了鲜明的差异化定位。目前,该产品已入选广东省文化和旅游厅、广东省工业和信息化厅联合发布的2025年广东“人工智能+文旅”应用场景典型案例。

下一步将推进“一村一芯”计划,为省内典型村落部署以本土文化语料微调过的垂直大模型,将每个村落独特的历史文脉、民俗风物、建筑遗产等转化为智能导览和文化体验产品,以数字化手段助力广东“百千万工程”在文化维度的纵深推进。

在教育领域,实验室正积极探索“一书一应用”模式——将图书内容、角色形象与AI互动能力进行深度融合,让孩子能够直接与书中角色对话、扮演角色、沉浸式体验故事。这一模式突破了传统数字阅读的单向传播局限,让图书从“被阅读”变为“可对话”,从“静态文本”变为“活态体验”。

与此同时,围绕“岭南文化通识+AI素养”方向,实验室正在研究制定面向校园和青少年群体的融合课程体系,计划在条件成熟后逐步在省内学校落地使用,并向港澳地区延伸,为粤港澳大湾区青少年提供兼具文化底蕴与技术素养的创新课程资源。这一课程体系的设计思路是“以文化为内容、以AI为工具”,让学生在学习岭南文化的过程中同步提升人工智能素养,实现文化传承与科技教育的有机融合。

“一个底座、一套模式、一条路径”:
探索区域文化数字化新范式

回顾过去一年的建设历程,实验室相关负责人将成果概括为“一个底座、一套模式、一条路径”:建设了一个底座——全国首个区域文化多模态大模型,实现模型自主可控;打造了一套模式——“一展一知识库”,让文化资产从“展完即散”变为“永续留存”;走出了一条路径——从文旅到教育,让岭南文化真正走进日常生活。

当前,羊城晚报报业集团已将岭南文化大数据中心建设列为“十五五”规划重点任务。下一步,实验室将围绕《广东省推进落实国家文化数字化战略实施方案》,持续深化语料建设、模型迭代和场景拓展,在文博、文旅、教育、社科研究等领域探索更多应用可能,推动岭南文化数字资源向更大范围的知识服务和产业应用转化。

“我们的目标很明确——让岭南文化在大模型时代不缺席、有话语权。”羊城晚报报业集团(羊城晚报社)党委委员、副社长丁华表示,当大模型正在重塑知识生产和文化传播的底层逻辑时,区域文化不应只是被动的数据供给方,而应成为主动的知识建构者。岭南文化拥有两千多年的深厚积淀,从粤剧粤曲到广彩广绣,从海上丝绸之路到改革开放前沿,这些独特的文化基因理应在人工智能时代获得新的表达方式和传播渠道。岭南文化大模型的一年实践,正是这一理念的具体回应。

文|记者 詹淑真
图|记者 梁喻 钟振彬

编辑:陈睿智
返回顶部
精彩推荐