時間:2022年07月02日 分類:推薦論文 次數:
摘 要: [目的/意義] 顛覆性技術研發作為國家戰略,如何準確識別顛覆性技術,對于國家和企業把握技術先機,搶占技術制高點意義重大。 [方法/過程] 本文結合專利文獻數據,利用 LDA 主題模型實現數據降維,提取技術主題,從技術主題成長性、融合性、創新性、突破性 4 個特征識別候選顛覆性技術; 在此基礎上,結合網頁新聞數據,測算候選顛覆性技術主題與網頁新聞數據主題之間的匹配度,分析技術的市場屬性,準確識別顛覆性技術。[結果/結論] 本文以智能制造裝備領域為例,通過實證研究得到 “智能數字控制”及 “智能數據采集系統”是智能制造裝備領域的顛覆性技術。
關鍵詞: 異構數據; 文本挖掘; 顛覆性技術; 技術識別
技術創新是經濟發展第一動力,而顛覆性技術作為技術創新的重要內容,其對以往的技術和市場具有較強的破壞力。顛覆性技術是打破原有技術生命周期,構建新的技術軌道,以意想不到的方式取代現有主流技術的技術[1],它能夠實現社會技術體系的躍遷,改變技術產品性能,變革原有技術性能標準,對于軍事、科技、產業等具有變革性的意義。世界各國普遍重視顛覆性技術研發,并設計專門的組織或研發計劃,旨在促進顛覆性技術發展,例如: 美國國防高級研究技術局( DARPA) 、日本的顛覆性技術創新計劃( ImPACT) 。中國也高度關注顛覆性技術研發,中國的 《國家創新驅動發展戰略綱要》《科技部辦公廳關于開展顛覆性技術研發方向建議征集工作的通知》等文件明確提出發展顛覆性技術,將顛覆性技術擺在國家戰略位置。而顛覆性技術發展具有高度不確定性,研發過程漫長,如何在復雜的技術環境中及早準確識別顛覆性技術,對于加快顛覆性技術研發,掌握國際競爭發展先機具有重要意義。
1 相關工作概述
對于如何識別顛覆性技術,國內外學者已經取得豐富研究成果,其中專家經驗、專利數據、科技論文、市場用戶數據、政策法規是顛覆性技術識別常用的數據源。早期主要采用專家經驗及知識識別顛覆性技術,而依靠專家經驗的識別方法包含: 調查問卷法[2-3]、專家訪談[4]、理論分析[5]、技術路線圖[6]等。專家知識和經驗的利用,能夠準確識別特定領域顛覆性技術,但專家資源稀缺,且應用范圍較窄,難以滿足顛覆性技術識別需求。為解決該問題,學者采用專利文獻數據及科技論文識別顛覆性技術。
專利文獻包含大量技術信息,學者綜合專利申請數量[7]、專利引用量[8]、科學關聯度[9]、專利權利要求數[9]、IPC 數量[10]、專利發展路徑[11]、專利引用知識突變[12]、專利引文相似度[13]等專利外部屬性識別顛覆性技術,然而基于專利外部屬性的顛覆性技術識別方法,難以充分挖掘專利文獻信息,技術寬泛,細粒度不足,并且專利引用具有滯后性,無法及時識別顛覆性技術。為解決以上問題,學者深入專利內部,將文本挖掘及深度學習方法應用于顛覆性技術識別,以技術屬性集相似度[14]、技術主題突變[15-16]挖掘專利文獻內部信息,以此完成顛覆性技術識別。目前,基于專利內部信息識別顛覆性技術的研究還比較少。
科技論文同樣包含技術信息,部分學者將科技論文用于顛覆性技術識別,結合科技論文數量變化[11]、科技論文被引量[17]、科技論文關鍵詞網絡[18]、知識主題突變[19]等指標識別潛在顛覆性技術。除了從 “技術屬性”層面識別顛覆性技術,也有學者基于市場用戶需求數據、商業報告數據,分析技術功能變化[20]、技術發展軌跡[21]、技術成熟度[22]、技術市場潛力[23]、消費者偏好[24]、產品功能變化[21]、客戶滿意度[25],進而探究技術對于市場的顛覆程度,以此完成顛覆性技術識別。該類顛覆性技術識別方法,考慮了市場及用戶數據,更貼近市場需求,但該識別方法對技術本身挖掘不充分,忽視技術知識結構,識別結果較為片面。為了提升顛覆性技術識別準確性及全面性,本研究基于專利文獻,引入文本挖掘技術,獲取技術知識結構信息,結合顛覆性技術特征,從技術屬性層面識別候選顛覆性技術,并結合網頁新聞數據,探究候選顛覆性技術的市場影響,分析技術的市場屬性,進而確定顛覆性技術。顛覆性技術整個識別過程,綜合專利文獻及網頁新聞數據,從技術屬性及市場屬性兩個角度識別顛覆性技術,能夠提高識別結果的準確性及全面性。
2 顛覆性技術特征分析
顛覆性技術源于技術融合或創新活動中產生的重大技術范式變革,實現技術性能突破,帶來全新的功能屬性,滿足主流客戶需求,取代現有主流技術。本文將其特征歸納為 4 個方面。
1) 成長性: 顛覆性技術沿著 “利基市場—中間市場—主流市場”的路徑演進[26],顛覆性技術早期在主流市場需求的性能維度上比主流技術產品低劣[1],只能服務利基市場或邊緣市場,但通過后期的技術改進與創新,技術產品性能不斷提升,具備高性能、低成本優勢[27],最終成長為市場主流技術。因此,技術成長性是顛覆性技術的重要特征之一。2) 融合性: 顛覆性技術可以是技術融合的產物[28],未來大部分顛覆性技術將來源于不同領域的技術融合[29]。跨越不同知識結構或不相關領域的技術不斷交叉、嵌入,組合新穎的知識元素,打破以往知識結構對技術軌道的約束[30],為顛覆性技術的產生奠定基礎。因此,融合性是其重要特征[10]。
3) 創新性: 顛覆性技術不是對現有技術的進一步改進,而是更大程度的創新[31],該技術可以提供全新功能、不連續的技術標準以及新的所有制形式,同時可以改變市場標準和消費者期望[32],實現產品或服務技術特征以及功能屬性的革新。因此,創新性是顛覆性技術顯著特征之一。4) 突破性: 顛覆性技術可以由科學知識突變或科學原理變化產生,也可以由技術集成創新產生,該類技術具有重大的突破性[2],能夠替代原有的技術,實現技術性能突破,改變因技術研發局限性造成的產業市場落后狀況,滿足主流市場技術需求,實現市場突破[33]。因此,突破性是顛覆性技術所具有的特征之一。
3 顛覆性技術識別框架
3. 1 異構數據收集及預處理
異構數據是指來源和結構不同的數據,相對于單一數據集,異構數據使不同數據特征融合成為可能。顛覆性技術識別過程中,為提高顛覆性技術識別準確性及全面性,本文綜合使用專利文獻及網頁新聞兩種異構數據。專利文獻記錄技術創新、工藝優化,蘊含豐富的技術知識結構信息; 網絡新聞數據是市場不同主體對技術的客觀描述,反映市場主體對技術的態度、應用以及評述,可用于分析技術的市場屬性[34]。因此,本文將專利文獻及網頁新聞兩種異構數據作為顛覆性技術識別的數據源。
1) 專利數據收集及預處理德溫特數據庫作為世界知名專利數據庫,已經收集多個國家和地區的專利文獻,專利信息覆蓋全面,且數據庫不斷更新,為技術情報分析提供了可能。因此,本文選擇德溫特數據庫收集專利文獻數據。為全面檢索專利文獻,本文結合關鍵詞及 IPC分類號,制定檢索表達式,收集專利文獻數據。NLTK 術語庫是著名的自然語言處理庫,具有詞性分類、詞干提取、詞性標記等功能,為 50 多種語料庫和詞匯資源提供使用界面[35],為此,本文將其引入專利數據處理,實現詞干提取及詞性還原,并結合停用詞表,剔除無關詞語,保證數據的有效性。
2) 網頁新聞數據收集及預處理網頁新聞數據量龐大,人工收集數據工作量巨大,且難以全面獲取新聞數據。為此,本文采用網絡爬蟲技術實現網頁新聞數據收集。而 維 特 比( Viterbi) 算法通過尋找動態規劃最大概率路徑,找出詞頻的最大切分組合,具有良好的分詞效果[36],對此,本文將其應用于網頁新聞數據分詞。
3. 2 文本數據聚類模塊LDA( Latent Dirichlet Allocation)
主題模型作為典型無監督學習,能夠挖掘文檔隱藏語義信息,處理海量文本文檔,降低無效信息影響,實現專利文獻及網頁新聞數據的高效聚類,因此,LDA 模型作為本文主題聚類的首選。LDA 主題模型最早由Blei D M 等提出[37],其假設每篇文檔由特定概率的主題組成,而主題又由特定概率的特征詞組成,形成 “文檔—主題—特征詞”的三層貝葉斯概率模型。LDA 模型提取效果直接由主題數量決定,為精準確定主題參數,本文結合困惑度( perplexity) 及“肘形”理論確定模型參數。困惑度表示所訓練模型中特定文檔屬于哪個主題的不確定性[37],其中困惑度計算如式 ( 1) ~ ( 3) 所示; 而 “肘形”是困惑度曲線的拐點,該拐點與上一節點差值最大,而與后一節點的差值最小,而 “肘形”對應的主題數為模型的最優主題數[38]。
3. 3 顛覆性技術主題識別模塊
根據顛覆性技術的成長性、融合性、創新性以及突破性,本文采用專利申請量以及技術強度判斷技術成長性; 采用技術主題 IPC 分類號、接近中心性判斷技術融合性; 測度技術主題有效規模及約束度探究技術創新性; 基于技術異常檢測判斷技術的突破性,結合以上 4 個維度從技術屬性層面識別候選顛覆性技術,并結合網頁新聞數據,探究候選顛覆性技術主題的市場屬性,最終完成顛覆性技術識別。
1) 技術成長性及融合性測度“成長性”是指顛覆性技術能夠逐步替代原有技術,變革技術知識結構,最終成為市場主流技術。為體現技術成長性,本文采用專利申請數量以及技術主題強度變化測度技術成長性。技術主題強度能夠反映各時期內技術的熱門度,技術主題強度越高表示技術主題影響力越強。
“創新性”是顛覆性技術基本屬性之一。顛覆性技術能夠提供新的產品或技術功能,改變原有技術范式,具備較強創新性。技術主題共現網絡中結構洞占據者能夠獲取非重復異質信息,技術創新可能性較高,因此,本文采用結構洞指標測度技術主題的創新性。
4 智能制造裝備領域顛覆性技術識別案例
制造業是國民經濟的主體,是立國之本、興國之器。制造系統的智能化是制造業新的發展方向,制約國家競爭力的提升,是各國關注的焦點。智能制造裝備領域具有科技創新能力強、產業關聯度高等特征,極易產生顛覆性技術。因此,本文選擇智能制造裝備領域作為研究對象,利用專利文獻以及網頁新聞數據,識別智能制造裝備領域顛覆性技術。
LDA 模型的主題參數直接決定智能制造裝備領域技術主題提取的準確性,為保障智能制造裝備領域專利文獻及網頁新聞數據聚類效果,本研究綜合困惑度及肘形確定 LDA 模型主題參數。其中,專利文獻以及網頁新聞 LDA 主題模型困惑度及肘形。綜合不同主題數下模型困惑度及肘形,得到智能制造裝備領域專利文獻 LDA 模型最優主題數為 87,而智能制造裝備領域網頁新聞數據 LDA 模型最優主題數為 72。其中,專利文獻聚類結果中兩個主題由數字構成,本研究將其剔除,剩余 85 個技術主題; 由智能制造裝備領域網頁新聞數據 LDA 模型得到 72 個主題,其中與智能制造裝備領域相關的主題共 28 個,剩余 44 個主題與智能制造裝備領域關聯性不強,將其剔除。每篇文檔由一定概率的主題組成,為準確提取文檔信息,本文借鑒 Mann G S 等的研究[47],認為若主題分布概率大于 0. 1,則認為文檔屬于該主題,進而刪除文檔中主題分布概率低于 0. 1 的主題。
顛覆性技術實現技術性能突破,不斷發展,最終成為主流技術,該發展過程中技術創新主體逐漸多樣化,專利申請數量不斷增加。因此,本研究結合專利文獻的時間屬性,統計技術主題專利申請數量及技術主題強度,繪制不同時間段各技術主題專利申請數量及主題強度變化。
通過構建不同年份下技術主題共現網絡,得到技術主題接近中心性變化趨勢。由于 2000 年前各技術主題共現強度較弱,接近中心性不顯著,因此僅展示 2000 年后技術主題的接近中心性變化趨勢。為保持數據一致性,下文同樣僅展示2000 年后智能制造裝備領域的數據。此外,本文統計不同技術主題內部 IPC 分類號,多維度分析技術主題融合性。
通過智能制造裝備領域技術主題異常檢測可知,Topic21( 智能數字控制) 、Topic84( 智能數據采集系統) 兩個技術主題與其他類型技術主題距離較遠,屬于智能制造裝備領域異常點,具有實現技術突破的可能性。因此,本文認為 “智能數字控制”以及 “智能數據采集系統”兩項技術是智能制造裝備領域的候選顛覆性技術。 網頁新聞數據主題命名網頁新聞數據 LDA 主題模型共提取 72 個主題,刪除無關主題及低強度主題 44 個,剩余 28 個主題與智能制造裝備領域相關。根據智能制造裝備網頁新聞數據 LDA 主題模型特征詞及概率分布,對提取的智能制造裝備領域網頁新聞數據主題進行命名。
基于以上研究結果,本文認為 “智能數字控制”及 “智能數據采集系統”兩項技術是智能制造裝備領域的顛覆性技術。“智能數字控制”與傳統的控制技術不同,智能控制技術更強調設備的自動化和智能化,融合機械技術、計算機技術以及控制技術,改變了傳統機械制造模式,實現高效率制動控制; 此外,智能數字控制技術顯著提升產品質量及生產精度,彌補機械精細化加工領域傳統機械制造模式 “粗放”缺點。“智能數據采集系統”能夠完成海量規模數據的采集,有效處理智能制造各環節數據,將數據轉化為知識,有利于問題的分析,避免問題的重復發生。由于智能數據采集系統所具有的高效便捷特性以及良好的可擴展性,智能數據采集系統已經得到越來越多國內企業及客戶的支持,成為多個企業研究和開發的重點。
5 效果評估
為評估論文提出方法的有效性,本文采用基于離群專利的顛覆性技術識別方法[9],識別智能制造裝備領域顛覆性技術,并對比結果。由于篇幅限制,本文未展示識別過程。根據該方法,篩選得到智能制造裝備領域離群專利7 745條,涵蓋 15 種技術組合,并綜合科學關聯度、技術影響潛力等多個指標評估技術組合,運用孔多塞投票法識別顛覆性技術。最終得到智能數字控制、電機控制與連接技術、無線傳感器網絡芯片技術、智能信息存儲、智能數據采集系統屬于智能制造裝備領域的顛覆性技術。該方法最終的識別結果包含本研究的識別結果,識別結果相對寬泛,主要原因在于當技術組合得分相近時,該方法主觀性較強,且該方法尚未考慮技術的市場屬性,影響識別結果的準確性。而本文提出的方法,綜合專利文獻及網頁新聞兩種異構數據,識別過程客觀,考慮技術的市場屬性,能顯著提升顛覆性技術識別的準確性。
6 研究結論
本文利用專利文獻及網頁新聞數據,提取不同類型的主題,從成長性、突破性、創新性及融合性4 個維度識別候選顛覆性技術主題,并結合網頁新聞數據,探究候選顛覆性技術的市場屬性,最終完成顛覆性技術識別。本研究結合不同數據源,利用文本挖掘方法準確地識別顛覆性技術,對于加快顛覆性技術研發具有重要的參考價值。智能制造裝備領域顛覆性技術識別案例中,利用 LDA 模型從專利文獻中提取 87 個技術主題,其中 “智能數字控制”以及 “智能數據采集系統”兩個技術主題符合顛覆性技術成長性、融合性、創新性以及突破性特征; 結合網頁新聞數據主題,得到“智能數字控制” “智能數據采集系統”與多個網頁新聞主題匹配,兩種技術已被市場所接受,技術影響力較強,能夠改變原有生產方式,屬于智能制造裝備領域顛覆性技術。案例研究結合專利文獻及網頁新聞兩種異構數據識別顛覆性技術,研究結論清晰明確,說明綜合專利數據以及網頁新聞數據能夠有效識別顛覆性技術。但限于篇幅,本研究對智能制造裝備領域網頁新聞數據挖掘不充分,技術對市場的影響體現不足。未來研究將結合深度學習模型,深入分析技術與市場之間的關系,充分體現技術的市場屬性。
參 考 文 獻
[1] Bower J L,Christensen C M. Disruptive Technologies: Catchingthe Wave [J]. The Journal of Product Innovation Management,1995,28 ( 2) : 155.
[2] 孫永福,王禮恒,孫棕檀,等. 引發產業變革的顛覆性技術內涵與遴選研究 [J]. 中國工程科學,2017,19 ( 5) : 9-16.
[3] Collins R W,Hevner A R,Linger R C. Evaluating a DisruptiveInnovation: Function Extraction Technology in Software Development [C] / /2011 44th Hawaii International Conference on SystemSciences,2011.
[4] Hang C C,Chen J,Yu D. An Assessment Framework for Disruptive Innovation [J]. IEEE Engineering Management Review,2013,41 ( 4) : 109-118.
[5] Sainio L M,Puumalainen K. Evaluating Technology Disruptivenessin a Strategic Corporate Context: A Case Study [J]. Technological Forecasting and Social Change,2007,74 ( 8) : 1315-1333.
[6] Zhang Y,Robinson D,Porter A L,et al. Technology Roadmappingfor Competitive Technical Intelligence [J]. Technological Forecastingand Social Change,2016,110 ( 9) : 175-186.
[7] Buchanan B,Corken R. A Toolkit for the Systematic Analysis ofPatent Data to Assess a Potentially Disruptive Technology [J]. Intellectual Property Office United Kingdom,2010.
選自期刊《現代情報》2022 年 7 月
作者信息:馬永紅 孔令凱* 林超然 楊曉萌 倪惠莉( 哈爾濱工程大學經濟管理學院,黑龍江 哈爾濱 150001)