Plant Phenomics | 分布式賬本能幫助克服農業機器學習對標記數據的需求嗎?
植物表型描述了基因型與環境相互作用的結果。高通量成像流程導致大量數據,這需要復雜的處理程序。表型相關數據的共享和重用并不常見,因為其獲取和處理需要耗費大量資源和技術。在MIAPPE(Minimum Information About a Plant Phenotyping Experiment)方法之后,存在數據采集的一般標準,甚至與表型相關的特定標準。此外,最近,資金組織已經將FAIR(可查找性、可訪問性、互操作性和可重用性)原則集成到數據管理中,并使其成為強制性的。
現如今,獲取數據總是伴隨著機器學習(ML),而監督學習尤其依賴于充分預處理的數據,如數據標記。特別是隨著深度學習程序的建立,對大量高質量、有標記的數據的需求增加,從而導致植物表型模型訓練的瓶頸。與底層數據集類似,標準化、可用性和質量要求也對訓練模型提出了挑戰。開放數據集展示了它們的可用性,例如,在計算機視覺和機器學習挑戰中,如葉片分割和計數。然而,更復雜的情景,如疾病和產量預測模型,需要詳細的土壤、土地特征和天氣信息。ML模型的質量隨著數據集的異質性而提高。對于數據共享和重用的有價值和稀缺信息問題,一個直觀的方法是數據市場。專注于數據和處理的協作方法允許共享生成的異構和普遍適用的ML模型,從而解決了所描述的需求。
2023年7月,Plant Phenomics在線發表了Institute for Software and Systems Engineering, TU Clausthal等單位題為Can Distributed Ledgers Help to Overcome the Need of Labeled Data for Agricultural Machine Learning Tasks ?的前沿觀點文章。
作者主張采用一種協作的方法來獲取和處理表型相關數據集,以及訓練隨后的人工智能(AI)模型。本文描述了最先進的數據處理和共享方法的局限性,以開發用于植物表型和精準農業的人工智能驅動應用程序。本文描述了一種方法,通過引入基于分布式賬本的數據跟蹤,使科學家和植物表型實體能夠改善科學數據的可用性,該數據跟蹤集成到更廣泛的生態系統中,為其利益相關者提供不同的激勵。它描述了一種可能的解決方案,通過將編輯過的數據集與來自不同參與者的元數據連接起來,克服數據存儲和共享的各種孤島解決方案。它有助于克服當前機器學習模型的瓶頸,通過使用大量標記的訓練數據可以極大地提高其準確性。因此,定義了數據收集器、建模器和模型最終用戶的角色。以農業疾病預測系統為例,來自無人機飛行或衛星圖像的現場數據被用來訓練一個模型來預測田間作物疾病的嚴重程度/發病率,說明了基于分布式賬本方法的工作流程。數據收集器使用標準、元信息和數據協調來準備數據集,并將它們發送到數據存儲。每當完全或部分使用ML模型時,數據收集器就會得到模型用戶的獎勵。模型用戶向付費的農民提供信息。農民也可以通過提供參考數據,如疾病參考數據 (位置、發病率和嚴重程度),成為數據收集者。此外,他們提供關于模型的準確性/質量的反饋。
圖1 一個市場生態系統的例子。用戶的參與包括數據提供者、應用程序/圖形用戶界面用戶、數據管理員和AI/ML培訓師。市場支持買/賣選項和訂閱者/提供者選項。可用的AI/ML模型涵蓋了訓練數據的不同子集。
圖2 現代農業中數據市場生態系統的一個用例。數據可以用于訓練機器學習模型,這些模型由模型用戶提供給農民。該示例通過基于遙感現場數據的疾病預測用例進行可視化。
論文鏈接:
https://doi.org/10.34133/plantphenomics.0070
——推薦閱讀——
Classification of Rice Yield Using UAV-Based Hyperspectral Imagery and Lodging Feature
https://doi.org/10.34133/2021/9765952
Plant Phenomics | 結合無人機高光譜圖像和倒伏特征構建水稻產量類別檢測模型
Using Machine Learning to Develop a Fully Automated Soybean Nodule Acquisition Pipeline (SNAP)
https://doi.org/10.34133/2021/9834746
Plant Phenomics | SNAP:基于機器學習的全自動大豆根瘤提取算法
加入作者交流群
掃碼添加小編微信,拉您進入《植物表型組學》作者交流群,群內不定期開展作者分享會、專刊發布會等高質量活動。
添加小編微信,備注姓名+單位+PP,加入作者交流群
About Plant Phenomics
《植物表型組學》(Plant Phenomics)是由南京農業大學和美國科學促進會(AAAS)合作創辦的英文學術期刊,于2019年1月正式上線發行。采用開放獲取形式,刊載植物表型組學交叉學科熱點領域具有突破性科研進展的原創性研究論文、綜述、數據集和觀點。具體范圍涵蓋高通量表型分析的最新技術,基于圖像分析和機器學習的表型分析研究,提取表型信息的新算法,作物栽培、植物育種和農業實踐中的表型組學新應用,與植物表型相結合的分子生物學、植物生理學、統計學、作物模型和其他組學研究,表型組學相關的植物生物學等。期刊已被DOAJ、Scopus、PMC、EI和SCIE等數據庫收錄。科睿唯安JCR2021影響因子為6.5,位于農藝學、植物科學、遙感一區。中科院農藝學、植物科學一區,遙感二區,生物大類一區(TOP期刊)。2020年入選中國科技期刊卓越行動計劃高起點新刊項目。
說明:本文由《植物表型組學》編輯部負責組稿。
中文內容僅供參考,一切內容以英文原版為準。
排版:趙慶澤(南京農業大學)
審核:孔敏、王平