何宝宏:从学习到创造,生成式AI取得突破性进展******
“2022年AI绘画和ChatGTP的重要性不亚于2016年AlphaGo战胜人类围棋冠军的价值,这是否会引发新一轮的内容科技的革命,是值得我们关注的问题。”在近日举行的“风向Talks 2023”思享会上,中国信息通信研究院云计算与大数据研究所所长何宝宏围绕技术转型、信息革命、数据资产、Web3、信任科技、元宇宙、技术周期律、经济学2.0、AI、数字原生等热门领域进行了分享。
何宝宏表示,生成式AI在2022年取得了突破性的进展,人工智能开始从学习走向创造。
近年来,随着技术的发展,内容创作的方式不断发生变革,经历了从PGC(专业生产内容)到UGC(用户生产内容),再到PUGC(专业用户生产内容)的发展历程。到了人工智能时代,可实现AIGC(人工智能创作内容) ,未来可能发展到P-AIGC(专业人员指导下的AIGC)。
AIGC背后是一个大的模型,何宝宏介绍,过去五年,由于大模型的参数指数级增长带来了大模型“智力”的指数级增长。2020年,机器基本只能完成文本生成,目前可以进行图像生成,未来能实现视频生成。2016年,机器视觉可以从图片中识别文字;2022年,机器实现了AI绘画,可以通过文字生成图像。
不仅如此,人工智能的进步还体现在科学方面,目前正在兴起的AI编程的软件2.0,可以实现以代码为中心到以数据为中心的编程思维,即程序员只需要设定超级参数,普通参数将通过数据训练实现。生命科学方面,2021年AI发现了蛋白质结构,2022年AI生成了蛋白质结构,由此AIGC入选了《Science》2022年度科学十大突破。
在谈到在2022年同样大火的“元宇宙”时,何宝宏表示,每隔7年左右,都会有名为“下一代互联网”的技术出现,每次还都不一样。目前,互联网发展正面临以元宇宙为代表的信息互联网以及以Web3.0为代表的价值互联网的“新岔道”。
不过,在他看来,现阶段,元宇宙依然是各种要素的“大杂烩”,还没有找到最佳实践。基于VR的元宇宙在未来3-5年内依然会是小众市场,实现“生态化反”还需要更多时间。
“VR现阶段的体验并不像数字孪生,而更像是‘数字植物人’,除了有视觉和听觉体验之外,还缺少嗅觉、味觉和触觉的感受。未来,仍需积极探索,将生产要素有机地组织起来。”何宝宏说。(宋雅娟)
古籍如何兼顾“藏”与“用”******
古籍如何兼顾“藏”与“用”
——来自古籍数字资源联合发布会的专家观点
光明日报记者 陈雪
“古籍具有特殊性,作为文物必须保护,作为文献必须为读者所用,二者存在矛盾。”——解决“藏”与“用”之间的矛盾一直是古籍工作的重点,山东大学文学院院长、教授杜泽逊说:“数字化是目前最好的办法”。
1月4日,国家图书馆(国家古籍保护中心)、天津图书馆、南京图书馆、云南省图书馆、苏州图书馆、中山大学图书馆等6家单位,在线召开了古籍数字资源联合发布会,发布了6786部(件)古籍资源,可在线免费阅览全文影像。会上,多位古籍专家学者围绕古籍数字资源建设进行了深入讨论。
古籍数字化有何迫切性?未来趋势是什么?专家学者展开了深入探讨。
数字化平衡“文物性”与“文献性”
20世纪90年代初,上海图书馆把内部使用的古籍目录卡片摆在图书馆的走廊里,为了完成“四库全书存目丛书”的版本调查,杜泽逊跑到上图,查阅了十几天卡片。夏天高温,他就到馆外买一根绿豆冰糕含在嘴里,再回到馆内查卡片——为查阅古籍文献,要出差到各地,克服各种困难,这是一代古籍研究者的集体记忆。
“从内部使用到目录卡片放在走廊,再到数字资源挂在网上,这个进步是非常快的。”杜泽逊说,国家图书馆为首的几十家图书馆把古籍数字资源放在网上,读者不必直接使用古籍原件,这是很重要的一条保护措施。此外,在线阅览不知道节省了多少人的时间、体力、财力,对推进新时代古籍工作有重大贡献。
兼顾“藏”与“用”,古籍数字化刻不容缓。“国家图书馆从2000年起开始有计划地将古籍进行数字化,并陆续建成数字方志、碑帖精华等专题库,面向社会公众发布。”国家古籍保护中心办公室负责人王红蕾介绍了古籍数字资源发布的整体情况。2016年,国家图书馆搭建“中华古籍资源库”平台,发布了国图馆藏善本和普通古籍、甲骨、敦煌文献、碑帖拓片、家谱、老照片等数字资源,以及天津图书馆、哈佛燕京图书馆等许多馆外古籍和海外征集古籍资源。2021年疫情期间,读者远程访问需求增长,为回应读者的“急难愁盼”,“中华古籍资源库”实现了免登录阅览。资源库上线、免登录阅览被学者称为惠及学林的两个重要节点。
2007年以来,随着“中华古籍保护计划”的深入开展,各地图书馆陆续投入人力物力,大力推进古籍数字化。苏州图书馆党委书记、馆长接晔介绍,截至目前,苏州图书馆已完成数字化古籍1496部,容量达16.12TB。
据了解,国家图书馆(国家古籍保护中心)先后联合39家单位发布古籍资源2.8万部(件),此次是第七次联合发布,6家收藏单位新增发布古籍资源6786部(件),不仅有明清版刻、稿抄本古籍,还有碑帖拓本等特色资源:新增国家图书馆藏古籍数字资源1075部19.2万叶,主要为年谱类、目录类古籍;天津图书馆发布馆藏稿抄本文献165种655册;南京图书馆发布了“清人文集数据库”,共收录清人文集399种,以全本彩色扫描的方式制作成数字影像;云南省图书馆发布馆藏善本63部381册,图像50604拍;苏州图书馆发布馆藏古籍数字资源888部;中山大学图书馆发布了一批颇具该馆特色的碑帖文献数字资源。
本次资源发布后,全国累计发布古籍及特藏文献影像资源达到13万部(件),其中,国图建设的“中华古籍资源库”发布超过10.2万部(件)。王红蕾说,“中华古籍资源库”已成为全国古籍资源类型和品种最多、体量最大的综合性资源共享发布平台。
北京大学中文系古典文献学教研室主任、教授杨海峥感叹,从2016年到现在,陆续推出了13万部(件)古籍数字资源,对于学者来说是非常重要的一件事情。在线查阅免去了往返奔波各家图书馆的时间,缓解了古籍“藏”和“用”之间的矛盾,平衡了古籍的文物性与文献性。
古籍资源既要“用得上”,还要“用得好”
2022年10月,全国古籍整理出版规划领导小组印发实施《2021—2035年国家古籍工作规划》,“国家古籍数字化工程”正是四项重点实施工程之一。近年来,全国古籍登记工作让3000万册件古籍有了“身份证”,未来,让更多古籍“上线”与读者见面,将是我国古籍工作的一大重点。
“古籍数字化资源的制作与发布,其实是回归到古籍作为书籍文献本来的性质。”清华大学科学技术史暨古文献研究所研究员刘蔷说,以往,人们说学术的繁荣与学术资料的新发现有关,这种说法是忽视了存世的大量古籍,存世古籍是一个巨大的资源库。可以预见,连续的古籍资源发布,将带来宏阔的学术气象。
古籍数字化平衡了“藏”与“用”的矛盾,让古籍资源“用得上”,未来,更要“用得好”。学者们对古籍数字资源的深度利用提出了许多有益建议。
浙江大学图书馆研究馆员黄晨认为,古籍数字资源联合发布可以更好地呈现资源的利用价值,接下来,可以进一步就已发布的资源进行深度揭示,进一步打通资源和发布平台,提供一站式检索,将资源聚合起来,这样的利用效果会更好。刘蔷也表示,期待能有一个与古籍数字化资源相匹配的古籍数字目录,以便实现一站式检索。
杨海峥认为,目前古籍数字化发展迅速,百花齐放,各类数据库和古籍数字化平台纷纷涌现,多样化的发展一方面带来了很大便利,另一方面也应进行协调统一,建立更加规范的数据规范标准,使得古籍数字化的资源有保证,达到方便使用的学术水准。杨海峥说,2022年中办、国办印发的《关于推进新时代古籍工作的意见》,专门强调要“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”,国图联合全国古籍存藏单位把古籍数字资源进行统一与整合,形成公益性平台,奠定了非常好的基础,是未来古籍数字化的发展趋势。
汇聚、开放、共享,古籍数字化的步伐不断加快。杜泽逊说,“期待发布更多的数字资源,最终达到除少数特殊情况外,全部数字化。”
《光明日报》( 2023年01月06日 09版)
(文图:赵筱尘 巫邓炎)