Blog
/
AI
3種打造 AutoML 自動化機器學習的方式(含平台推薦)
AI
DataRobot

3種打造 AutoML 自動化機器學習的方式(含平台推薦)

March 28, 2024

AutoML 概念最早在1990年代就被提出,這概念大幅改進機器學習的效率,自此不管是科技巨頭、新創界、學術界都提出了各種自動化機器學習的方法與工具,包含簡單的開源模型到可以產業級規模化的軟體產品。

從現在到 2024 年,AutoML 依舊是個重要趨勢,因為這不僅只是提升資料科學團隊的產出效率,更是讓機器學習技術更容易擴展到各營運單位的決策日常,企業進而得以從規模化應用中取得對營收與成本上的回報。

本文匯集所有您對 AutoML 的疑惑,包含: AutoML是什麼、 企業為何重視 AutoML、有哪些方式可以打造自動化機器學習的機制、哪些商業化的平台可以選擇、如何考量與選擇等面向。

一、AutoML 是什麼?自動化機器學習?

AutoML 是自動化機器學習的簡稱,全名 Automated Machine Learning,AutoML 是一種 AI 自動化建模的技術,目的是:做到快速又大規模的模型開發並選出最佳模型,讓非常耗時、非常仰賴資料科學家經驗值的機器學習模型開發週期,能夠簡化、系統化、自動化運行。

簡單一句就是:AutoML 可以讓機器學習模型開發週期內,最耗時費力的步驟(e.g. 資料預處理、處理特徵工程、演算法挑選、調校超參數、模型選擇等) 自動化運行。

當採用自動化機器學習 AutoML 技術,資料科學團隊有更多時間可花在定義商務問題、監控維運持續迭代、跟決策者解釋溝通、協助最終決策,等更直接影響商務結果的任務上

乍看之下,AutoML 好像就只是一個資料科學團隊應該知道的技術,一種提升他們生產力工具的技術,對整個企業而言,最大好處是什麼?

二、為何企業開始採用 AutoML 技術?

企業為什麼開始採用 AutoML?很簡單的3大原因:

  1. 資料科學家、機器學習工程師等專才嚴重短缺,這是中短期內無法解決的
  2. 資料科學領域的技術變化快速:當今熱門的框架,可能在一兩年後就替換成另一個技術或框架了,好不容易找到的人才,他的經驗可能幾年後就需要打掉重來或一直做培訓
  3. 組織可以採用機器學習的應用面向越來越廣:越來越多企業採用機器學習「強化內部營運效率」、「升級對外給客戶的服務體驗」,組織可以採用機器學習的應用面向越來越廣,意味著需要開發的模型數量越來越多,資料科學團隊便會開始追求如何提升產出效率,如何以同樣的人力做更多的事?

也因此,我們才會開始思考:

能不能設計一系列高級的控制系統去操作機器學習模型,讓模型可以自動的學習到合適的參數與配置,且過程中無需太多人工干預?

等於是機器學習過程 AI 化,自動建議出最佳模型與預測結果

三、AutoML 可以為企業帶來的5項好處

  1. 解決資料科學領域專才的短缺: AutoML 可以讓本身就對資料敏銳的人才,用最低門檻的方式,擁有資料科學家的能力,是利用工具變相的促成人才轉型,例如:商業分析師、IT人、行銷人等都會希望能在自己的工作範疇內的決策行動,納入機器學習的設計,以做出更好的決策。
  2. 能即時因應最新技術框架,縮短人才重新刷新知識的時間差
  3. 更多潛在的創新:可同時開發多項機器學習專案,因為我們讓每個部門都有機會應用機器學習,這意味有更多商業營運優化的可能性。就算只給資料科學家使用 AutoML 平台,也會像是一台法拉利與好油的組合,不僅每一個專案都可以更快速的迭代,還有更多時間去發展探索其他可能性,幫助資料科學家發揮他的最佳效能。
  4. 降低機器學習專案的開發成本:人力時間的運用成本,使用 AutoML 可以自動完成許多手動工作
  5. 更快的回答問題、解決問題,這才是終極目標:我們的目的不是要花很多時間寫code,公司跟公司間的競爭重點不在此,我們真正要的是:解決問題的過程縮得越短越好,且同時,要確保有足夠的時間釐清對的問題。

四、AutoML 可以自動化的任務有哪些?

現在,我們知道 AutoML 對於想要快速從取得 AI 應用成果的企業來說,是必備採用的 AI 自動化建模的技術,而這項技術可以透過自行打造或是直接採用軟體平台來取得。

再來,你可能會問, AutoML 到底自動化了哪些事?

從一個資料科學的工作流程來看,目前很多資料科學家花最多時間在資料取得、資料處理、模型開發,為了找出最佳的模型,需不斷來回的調整超參數

但實際上,我們會希望他們把寶貴時間花在更複雜、更根本性的任務上,例如:定義問題、重擬問題、評估是否正在做對的事情等,因為方向錯誤,再怎麼努力也達不到要去的地方。

下圖以首家提出 AutoML 商業解決方案的 DataRobot 為示意:

AutoML 平台可以自動化許多機器學習流程中的任務,包括:

  1. 特徵工程:特徵工程是機器學習流程中的一個重要步驟,涉及對輸入數據進行預處理、轉換和選擇,以便為機器學習模型提供最佳輸入。 AutoML 可以自動執行許多特徵工程步驟,如數據清洗、缺失值處理、離散特徵編碼、連續特徵縮放等。
  2. 模型選擇:AutoML 可以自動選擇最佳的機器學習模型,並對多個不同的模型進行評估,從而選擇最佳模型。
  3. 超參數調教優化:AutoML 可以自動調整機器學習模型的超參數,以便獲得最佳性能。
  4. 模型部署:AutoML 可以自動將機器學習模型部署到生產環境,使得企業能夠快速將模型應用到業務中。
  5. 模型監控
  6. 模型重新訓練

需要注意的是,資料科學家仍需要參與模型的構建和評估,並確保模型的解釋性和可解釋性,AutoML 的角色在於讓整個機器學習流程可以更加快速,是一個輔佐與驗證的角色。

下圖以 DataRobot 從 AutoML 到 MLOps 階段可協助資料科學家的內容為示意:

DataRobot 企業級AI平台全圖

 

五、打造自動化機器學習的3種方式

就如同自動駕駛有分五等級,完全的自動化駕駛可以將你從A點直接載你到B點,完全不需要任何的干預。而讓機器學習流程自動化,一樣也會依照設計方法的不同而達到不同程度的自動化

  • 方式一:從頭自己打造,用最入門的程式語言 like C++,但很難做到,因為需要非常高程度的軟體工程,同時也很難規模化,這已經是過去式的做法。
  • 方式二:運用演算法 APIs (以程式設計方式使用演算法建模功能的方法) like Sklearn, Keras, Pandas, H2O, XGBoost ,這可以讓有coding 能力的新手在短時間內實際打造簡單的模型,這也是很多人在 Kaggle 上操練的重點,這階段可以做到自動化的調教超參數、基本的模型組合與選擇。問題是,你很難管理這些日新月異的 APIs
  • 方式三:採用市面上 AutoML 解決方案,多數平台都可以做到自動化處理特徵工程,讓你即便不是非常完全了解資料欄位的意義,也可完成複雜的特徵工程處理與挑選。 當然,自動化處理特徵工程,一樣有很多的 libraries 可以做到,但一個 AutoML 平台解決方案,可以在後端運行這些 libraries,同時前台的 GUI 圖形化的使用者介面,能讓更多人參與進來、容易使用,這加速迭代與開發

簡單來說,設計一個框架讓機器學習流程可以自動化,一個 AI 自動化系統,有不同程度的自動化。

自動化程度等級一與等級二是透過很多開源框架,可以做到超參數調教、模型組合等

機器學習自動化等級三就是使用 AI 對你來說已是彈指之間的事,只要你在使用資料、想從資料看出原本分析做法看不到的模式,就可以很輕鬆的運用機器學習的技術

這階段也是很多市面上 AutoML 平台最主要的價值訴求:簡單、快速、不限於資料科學家可以使用。

六、AutoML 平台如何選擇? 5個要優先考量的評估點

透過以上,已經知道很多公司藉由採用 AutoML 平台來提升資料科學團隊的生產力(速度與規模),藉此能多次運轉不間斷的機器學習週期,當有更多次的優化迭代,在機器學習應用層面上,會有越來越精準的結果

在選擇 AutoML 平台時,可以優先考慮以下五個基本評估重點:

  1. 功能:是否支持自動化的特徵工程、模型選擇、超參數調教、模型部署、模型監控與再訓練等
  2. 可擴展性:例如,是否可以添加自定義模型或使用第三方工具、考慮 AutoML 平台是否支持你常用的機器學習框架,例如 PyTorch、TensorFlow 等
  3. 易用性與可維護性:例如,容易操作的介面、檢查 AutoML 平台是否易於維護和升級
  4. 性能:是否支持分佈式計算
  5. 服務支持:是否提供文件、技術支持、培訓課程等

另外,還可以考慮以下幾點:

  • AutoML 平台是否能與時俱進:使用 AutoML 平台很大一部分是因為,一個人不可能精通機器學習流程的所有環節,就算是在 Kaggle 上,也不是一個專家擅長所有項目,有些人是深度學習專家、有些是 GBM 專家,有些則是專注在特徵工程。因此,選擇採用一個平台而不是聘請所有領域專才,就是希望平台已經整合最新的、最厲害的技術在內。
  • AutoML 平台是否能提供足夠的數據隱私保護
  • AutoML 平台是否具有足夠的穩定性和可靠性
  • AutoML 平台是否具有足夠的模型解釋性透明、可信任的:如果你認為演算法本身就是黑盒子,那麼 AutoML 可能就是一個更巨大的黑盒子,畢竟中間的所有步驟是自動完成。你丟入資料,就會直接給你一個最佳模型與預測結果建議,然而,若你無法向利害關係人解釋這其中的原因,那將會帶給你更大的挑戰,因此,一個平台能否輔助你理解中間的過程,讓你可以有信心的向最終決策者說明,讓對方在做最終決定時能感到安心,也是越來越被關注討論的面向。

透過以上,根據自己的需求和偏好,確定這些要素的重要性比重,綜合考慮這些因素,選擇最合適的 AutoML 平台

七、可使用的 AutoML 工具有哪些?

可以分為兩大類:開源 AutoML 工具、商業化的 AutoML 平台(AutoMLaaS) AutoML as a Service

一些開源 AutoML 工具

商業化的 AutoML 平台(AutoMLaaS)

除了三大雲端大廠推出的 Google Cloud AutoML、Microsoft Azure AutoML、Amazon Web Services 上的 SageMaker 外,還有像是:DataRobot、H2O Driverless AI、SAS、IBM、Databricks 等(Gartner Peer Insights 可以點此

各大廠平台功能會不斷演進,在此製作比較表也不會是最實際的。

因此更重要的是知道除了功能以外,還要掌握哪些面向,再根據企業在當前、未來需要完成什麼事去思考,去選擇不但可滿足目前需求,且未來產品願景也能對標公司戰略目標的策略合作夥伴。

八、企業導入 AI 還有哪些模型開發以外的困難?

根據 2022 年 McKinsey Global Survey on AI 報告,他們解構那些在 AI 投入取得高績效的企業,分別在策略、資料、模型/工具/技術、人才與作業方式這四大面向,各做對了哪些事、哪些事拉開了與一般企業的差距。

也就是說,採用 AutoML 平台建構自動化系統只是解決 AI 導入挑戰的其中一件事,

  • 策略:有清楚的 AI 願景與策略、有清晰的 AI  專案發展路線並與各部門商業價值有直接相關、有明確的監管架構可涵蓋模型開發的所有步驟等
  • 資料:有能力將資料即時整合到 AI 模型中、有一個資料架構模組可以快速因應新的應用案例、當資料不夠充裕的時候依舊有能力合成資料去訓練模型等。可延伸參考:此篇的導入 AI 的基本條件與基本功 Data
  • 人才與作業方式:採用全生命週期的方式去開發與部署 AI 模型、有一個明確定義的能力升級計畫提升 AI 技術人員的技能、有協同合作的機制等
AI 高績效企業在模型工具技術最對的事

九、從 AI 投資取得高回報的2大要點

根據另一份麥肯錫的 AI 現狀調查報告中指出,那些從 AI 投資中成功獲得高收益率(主要是營收的增長)的企業需同時具備兩種特徵:強大的 AI 執行流程與架構,以及高質量的 AI 自動化系統

以我們 PGi 樺鼎代理的 DataRobot 平台為例,DataRobot 不只提供釣竿 (美國政府單位都買單的 AI 自動化系統),還建立知識體系、和你同進退的 Data Scientist 專案夥伴,目標要確保你知道「怎麼高效釣魚」

培訓課程與循序漸進的成功計畫 (Education):

目的是讓企業內不同角色能在共同認知下溝通,特別還針對 Executives 高階主管提供培訓,讓高階管理者跟專案團隊溝通時,能提出有實質意義、有挑戰性的問題或建議 ➜ 看 DataRobot University

此外,DataRobot 還包括一份精心策劃的 AI 成功計劃,幫助客戶增強 AI 成熟度與能力。對於不熟悉 AI 的客戶,AI 成功計劃通常會更側重於啟用與教育活動,並協助建立最適合客戶操作需求的 AI 框架與流程。

隨著客戶 AI 成熟度的提升,AI 成功計劃可與客戶的 AI 策略保持一致,將重點轉移到擴大 AI 在所有業務部門的應用,以及加強現有實踐、提高效率的能力。

專案服務 (Service):

已經做過 POC 的客戶應該都知道,DataRobot 的 POC 和一般軟體的 POC 很不一樣,這是一個很重視雙方都要投入的過程,很像立即開始一個小型專案。

DataRobot 在 POC 階段,就會指派一個面向客戶的 Data Scientist (Customer-facing Data Scientist,CFDS),DataRobot 在全球 10 個辦公室有超過100位這樣的角色,主要會和客戶一起評估要做 POC 的議題是否真的適合、還需要哪些資料、甚至協助客戶試用等。

而在正式進入三年期的專案期,這位 DataRobot 的 Data Scientist 除了會依照你的團隊成熟度去規劃各階段的訓練課程,確保團隊的基礎知識與共同語言外,也會帶入全球各地其他 DataRobot 客戶的實操經驗,注入更多思考事情的視角。

總的來說,DataRobot 的 Customer-facing Data Scientist(CFDS) 在公司團隊內的角色,像是辦公室外延伸的即戰力員工、全球應用案例的資訊情報員,最終在密切合作過程中,讓既有團隊的能力也同步升級。

PGi 樺鼎商業資訊自2018年成為 DataRobot 在台灣的在地合作夥伴以來,與 DataRobot 攜手導入過台灣的光電廠、零 售、人壽、傳產製造等各行業,以及政府單位的氣象局。無論是在產品介紹、評估階段、導入和支援上,都有相當的經驗。

我們負責提供客戶在地的即時服務,與 DataRobot 的海內外顧問與技術人員緊密合作,讓溝通和協助更有效率

十、關於 DataRobot

DataRobot 成立於 2012 年,由一群在 Kaggle 上的 Grandmaster 打造而成,團隊將業界公認的大師經驗內建在平台之內,並根據市場最新的開源機器學習框架,不斷新增與測試,以保持最優化的狀態,是全球第一個建立 AutoML 商業解決方案的公司。

在最新的 2022 第三季 The Forrester Wave 報告中,共有 15 家精選的 AI 與 ML 平台廠商,DataRobot 名列在前三大領導品牌,是目前市面上值得信賴的 AI 平台之一。

DataRobot 從一開始的 AutoML 出發,演變到現在成為更全面性的企業級AI 平台,能隨著台灣企業 AI 成熟度的逐步提升,搭配我們在地的顧問支持服務,滿足不同階段的需求,致力協助各產業與規模的企業都可快速採用 AI、落實持續性優化的 AI,並轉為實際商業價值。

DataRobot 全球客戶已遍及2千大企業,橫跨金融、保險、高科技製造,醫療、零售等產業的領先者,皆透過 DataRobot 自動並加速企業的數據變現之路。

➜ 也推薦閱讀:DataRobot AI 平台介紹|從 AutoML 到 MLOps 重點功能,此篇透過房價預測的應用案例,快速展示 DataRobot 在 AutoML 與 MLOps 上,有別於其他 AI 平台的獨創設計,你可以將相同概念應用在你的應用案例上,思考原本的預測方式,可以如何借力平台,更快實現企業數據變現。

DataRobot 在2022 Q3 The Forrester Wave 領導者
➜ 了解更多:下載 2022 企業取得 AI 成功的 10 個關鍵
➜ 了解更多:DataRobot 的 MLOps 詳細設計 或下載 MLOps 101 入門指南

Stay Informed with Our Newsletter

Get a summary of what we’ve shipped during the last month, behind the scenes updates, and team picks.

Thank you! Your subscription has been received!
Oops! Something went wrong. Please try again.
By submitting your email address, you agree to receive PGi’s monthly newsletter. You can always withdraw your consent.

Related Blog