User:FBI-MAN2/Sandbox

维基百科,自由的百科全书
美國國防高等研究計劃署Big Data計畫的識別圖
紐約證券交易所,
百貨公司與促銷標語

大數據(英語:Big data[1],或稱巨量資料海量資料。是資料量一定要達到相當規模才能做的事(例如得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、組織、公民與政府的關係。[註 1]

不論是每個人口袋裡的手機、背著到處走的電腦、又或是辦公室所使用的的伺服器系統,都是資訊化社會明顯而豐碩的果實。自從電腦進入主流社會以來,累積的資料已經到了一定程度,開始帶來全新特殊的改變。[註 2]

現在,世界上資訊成長的速度量前所未見,規模的改變導致從量變引發了質變。譬如天文學、基因組學之類的科學部門,在21世紀開始後的10年之間爆炸性成長,因而創造出「巨量資料」這個詞;至今已經又擴展到所有人類活動領域。[註 3]

巨量資料的核心重點在於「預測」,一般將巨量資料看做是資訊工程中「人工智慧」的一支,或者更具體的說是「機器學習」的一部份,但這其實會造成誤導。巨量資料並不是要「敎」電腦如何像人類一樣「思考」,而是要計算大量的資料,以此推斷機率。[註 4]

以金融領域為例,美國股市每天大約會成交七十億股,其中有三分之二,是由電腦用數學模型分析大量資料後自動交易。數學模型有雙重目標︰一方面預測獲利、一方面也試著降低風險。[註 5]

巨量資料也會為商業、市場和社會帶來變化。例如、萬事達卡顧問公司(MasterCard Advisors),有能力匯整分析來自210個國家、15億人口的650億筆交易紀錄,他們發現之一是︰如果民眾在下午4點左右加油,接下來的一個小時內,就可能在附近雜貨店或是餐廳,花掉35美元到50美元。行銷人員如果知道這種事,就能加以設計,只要差不多那個時候的加油站收據,就在背面印上附近雜貨店或是餐廳的折價卷。[註 6]


定義[编辑]

大數據由巨型數據集英语Data set組成,這些數據集大小常超出常用軟件在可接受時間下的收集英语data acquisition策展英语data curation、管理和處理能力。[2]決定大數據大小的指標永遠在變,截至2012年 (2012-Missing required parameter 1=month!),大數據中的數據集可以由幾十兆位元組至數拍位元組的數據組成。這指標不固定是因為傳統資料庫管理系統以至NoSQL等新型數據庫,它們的科技和處理大容量數據的能力不斷在改進。[3]在這前題下,新的平台正被開發去處理這些海量資料。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油

在一份2001年的研究[4]與相關的演講中,當時麦塔集团(英語:META Group,現被高德纳咨询公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真实性(Veracity)為第四特点[8]

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.


看到數據之變化[编辑]

IBM的視覺化程式Pearle,對維基百科使用者編輯之紀錄,其數據進行視覺化的呈現。

代表性人物與分析方法[编辑]

分析大數據本身,以及數據之間的交互關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。

  • 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟體」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。

科學界研究的分析方法[编辑]

應用範例[编辑]

  • 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]


  • 日本「N系統」(自動車ナンバー自動読取装置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]


  • 2009年Google工程師依據搜尋引擎的查詢數據,預測H1N1在美國冬天即將爆發流感,資訊速度比起聯邦政府疾病管制局(CDC)提前。並且在《自然》期刊上發表「Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)」的文章。[14][15]
    • 2009年10月起提供查詢服務,網站︰「Google 流感趨勢」提供全球每週流感疫情預測[16][17]


  • 依據《大數據》一書,第四章 相關性。案例「預測誰家的女兒未婚懷孕」P.83~85

首先就是零售商分析「懷孕的人會購買那些東西」、製作對照用的指標,其實就是購物清單。然後收集人們「信用卡、聯名卡」的資料計算出「懷孕預測分數」。這則故事提到有個人很生氣到零售商分店找經理出來,罵他們郵寄給讀高中的女兒嬰兒衣服&床優惠卷,難道是要鼓勵我女兒未婚懷孕嗎!!!過了幾天經理打電話給這個人道歉,但是這個男人卻反而對經理道歉,他說︰「我跟我女兒談了一下,結果發現,原來家裡頭有些事情瞞著我,她的預產期是八月份」。

工具[编辑]

進行大數據計算是需要電腦軟硬體配合,非自然人力可及,相關的工具如下︰

相關條目[编辑]


備註[编辑]

  1. ^ 《大數據》P.14/正體中文版/
  2. ^ 《大數據》P.13/正體中文版/
  3. ^ 《大數據》P.13~14/正體中文版/
  4. ^ 《大數據》P.21/正體中文版/
  5. ^ 《大數據》P.16/正體中文版/
  6. ^ 《大數據》P.26 P.179/正體中文版/


專書[编辑]

書籍或論文 概述
《大數據》
(英文:BIG DATA)
ISBN 978-986-320-191-5
出版國:中華民國
出版年份:2013年6月
作者「麥爾荀伯格Viktor Mayer-Schonberger」、「庫基耶Kenneth Cukier」,正體中文版由天下文化出版。[18][19][20][21]



參考文獻[编辑]

  1. ^ 天下文化出版社對於《大數據》該書的宣傳頁面
  2. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  3. ^ Hogan, M. Large Databases. 3 Jan 2013 [2013-07-05]. (原始内容存档于2013-05-14). 
  4. ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001]. 
  5. ^ Acquisitions. Gartner. [2013-06-29]. 
  6. ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始内容存档于2011-07-10). 
  7. ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012]. [永久失效連結]
  8. ^ What is Big Data?. Villanova University. 
  9. ^ 2013-03-29 八里雙屍案 雲端分析行車軌跡(中央社)
  10. ^ 2013-01-25 新北市警局與中華電信聯手發表「科技防衛城e化天眼計畫」
  11. ^ 2013-01-25 新北市警局與中華電信啟用「e化天眼」計劃(iThome/蘇文彬)
  12. ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(報告書全文)
  13. ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(HTML檔)
  14. ^ 《自然》期刊︰Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)
  15. ^ 文章全文(PDF):Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)
  16. ^ 「Google 流感趨勢」提供全球每週流感疫情預測
  17. ^ Google 歷史沿革/2009年10月/我們的流感監測工具流感趨勢目前增加提供16個國家、37種語文的資料。
  18. ^ http://www.vmsweb.net/ 原作者「麥爾荀伯格Viktor Mayer-Schonberger」的網站]
  19. ^ 原作者「麥爾荀伯格Viktor Mayer-Schonberger」在中央電視台財經頻道的訪談,2013-04-14 央視2套>《对话》谁在引爆大数据
  20. ^ 原作者「庫基耶Kenneth Cukier」演講,2013-04-18 GoogleTalks>BIG DATA: A Revolution That Will Transform...
  21. ^ 天下文化出版社對於《大數據》該書的宣傳頁面


延伸閱讀[编辑]

外部連結[编辑]