书目探勘

维基百科,自由的百科全书

书目探勘(bibliomining),就是将资料探勘技术运用于图书馆。它是资料探勘书目计量学统计学、报表工具的结合,以求从图书馆系统的大量资料中,粹取并了解读者的行为模式,进而支援决策、改进服务。

起源[编辑]

“书目探勘”(bibliomining)一词是由学者Scott Nicholson提出,最早见于2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中。“书目探勘”早期在英文中,是以“Data mining in library”统称,但Nicholson认为,多数包含“data mining” + “library”的文章, “library” 纯粹指在资料探勘中的工具库,而非讨论“资料探勘应用于图书馆”,因此另创词汇“bibliomining”予以区隔。

过程[编辑]

在2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中,介绍了书目探勘的过程如下:

  • 确定主题(determining areas of focus);
  • 决定图书馆内部与外部的资料来源(identifying internal and external data sources);
  • 建立资料仓储,并予以收集、清理、与匿名化资料(collecting, cleaning, and anonymizing the data into a data warehouse);
  • 选择适当的分析工具(selecting appropriate analysis tools);
  • 从探勘与分析的结果发掘资料样态(discovery of patterns through data mining and creation of reports with traditional analytical tools);
  • 分析与实做(analyzing and implementing the results.)

应用[编辑]

至于书目探勘在图书馆领域之应用,林涌顺在其硕士论文“以资料探勘技术探讨高中生使用图书馆之行为模式─以国立台湾师范大学附属高级中学为例”中,有做出如下的归纳:

资料探勘技术 技术应用
关联规则分析
  • 找出读者个人特性与图书之间的关联性
  • 利用读者特性的相似性推荐图书
  • 将同质性的图书推荐给适性的读者
  • 这是最多人使用的探勘技术
分类分析
  • 借由读者不同的特性与借阅纪录,判别读者间的相似性与相异性,找出各类特性的读者对图书的兴趣。
  • 以此模式推荐新书给读者。
群集分析
  • 找出图书与图书、读者与读者之间的关系,以探讨使用者的群集特性,并找出其借阅行为的倾向。
次序相关分析
  • 依据读者借阅的顺序,来推荐给其他未借阅之读者。

书目探勘的资料仓储[编辑]

要进行书目探勘,必须先建立资料仓储(data warehouse)。在2005年Nicholson的“The Basis for Bibliomining: Frameworks for Bringing Together Usage-Based Data Mining and Bibliometrics through Data Warehousing in Digital Library Services.”文章中,对图书馆的资料仓储所应包含的内容,分为三大类别:作品(work)、使用者(user)、服务(service),有以下分别简介:

  • 使用者(user)
    • 匿名化过后的使用者资料(Demographic Surrogate)。
    • 其他可用于了解使用者的资料:如IP位址邮递区号

整体的资料仓储概念图,可以下图表示:

参考资料[编辑]