來源: Cointelegraph原文: 《 去中心化的OORT AI數據在Google Kaggle上躋身前列 》由分散式AI解決方案提供商OORT開發的人工智能訓練圖像數據集在谷歌的Kaggle平台上取得了顯著成功。OORT的"Diverse Tools Kaggle"數據集清單於4月初發布;此後,它在多個類別中攀升至首頁。Kaggle是谷歌旗下的在線平台,用於數據科學和機器學習比賽、學習和協作。加密AI項目OpenLedger的核心貢獻者Ramkumar Subramaniam向Cointelegraph表示,"Kaggle首頁排名是一個強有力的社會信號,表明該數據集正在吸引數據科學家、機器學習工程師和從業者等關鍵社區的積極參與。"OORT創始人兼CEO Max Li 向Cointelegraph透露,該公司"觀察到了令人鼓舞的參與指標,這驗證了"其通過分散式模型收集的訓練數據"確實具有早期市場需求和相關性"。他補充道:"來自社區的自發興趣,包括積極使用和貢獻——清晰地展示了像OORT這樣的分散式、社區驅動的數據管道如何能夠在不依賴中心化中介機構的情況下實現快速分發和廣泛參與。"Li還表示,OORT計劃在未來幾個月發布多個數據集。其中包括車內語音命令數據集、智能家居語音命令數據集,以及旨在提升AI驅動的媒體真實性驗證能力的深度僞造視頻數據集。Cointelegraph獨立核實確認,上述數據集本月早些時候已在Kaggle的通用AI、零售和購物、制造業以及工程類別中成功登上首頁。截至發稿時,該數據集在5月6日的一次可能無關的數據集更新和5月14日的另一次更新後已不再保持這些排名位置。雖然認可這一成就,Subramaniam向Cointelegraph表示,"這並非實際落地應用或企業級質量的決定性指標。"他指出,OORT數據集的獨特之處"不僅體現在排名上,更在於數據集背後的來源渠道和激勵機制。"他進一步解釋:"與可能依賴不透明流程的中心化供應商不同,一個透明的、基於代幣激勵的系統能提供可追溯性、社區共同管理以及持續優化的可能性,前提是建立合適的治理結構。"人工智能風險投資機構Generative Ventures合夥人Lex Sokolin表示,盡管他認爲這些成果並非難以復制,"但這確實證明了加密項目能夠利用去中心化激勵機制組織具有經濟價值的活動。"人工智能研究機構Epoch AI發布的數據顯示,人類生成的文本AI訓練數據預計將在2028年耗盡。壓力已大到投資方目前正在促成交易,爲AI公司獲取受版權保護材料的使用權。關於AI訓練數據日益稀缺以及這可能如何制約該領域發展的研究報告已流傳多年。雖然合成(AI生成)數據正被越來越廣泛地應用並取得一定成效,但人類生成的數據仍被普遍視爲更優選擇,這類高質量數據能夠培養出性能更佳的AI模型。在AI訓練圖像領域,情況變得愈發復雜,藝術家們正有意識地破壞訓練工作。爲保護自己的作品不被未經授權用於AI訓練,Nightshade工具使創作者能夠"毒化"他們的圖像,從而嚴重影響模型性能表現。Subramaniam指出:"我們正步入一個高質量圖像數據日益稀缺的時代。"他同時強調,圖像投毒技術的廣泛應用使這一挑戰更爲嚴峻:"隨着圖像隱蔽技術和對抗性水印等AI訓練投毒方法的興起,開源數據集正面臨數量和可信度的雙重挑戰。"針對這一局勢,Subramaniam表示,可驗證且由社區貢獻的激勵數據集"較以往任何時候都更具價值"。他認爲,這類項目"不僅能作爲替代方案,更將成爲數據經濟中AI對齊和數據溯源的重要支柱。"相關推薦:Kima加入Mastercard沙盒以實現穩定幣卡片充值
去中心化的OORT AI數據在Google Kaggle上躋身前列
來源: Cointelegraph 原文: 《 去中心化的OORT AI數據在Google Kaggle上躋身前列 》
由分散式AI解決方案提供商OORT開發的人工智能訓練圖像數據集在谷歌的Kaggle平台上取得了顯著成功。
OORT的"Diverse Tools Kaggle"數據集清單於4月初發布;此後,它在多個類別中攀升至首頁。Kaggle是谷歌旗下的在線平台,用於數據科學和機器學習比賽、學習和協作。
加密AI項目OpenLedger的核心貢獻者Ramkumar Subramaniam向Cointelegraph表示,"Kaggle首頁排名是一個強有力的社會信號,表明該數據集正在吸引數據科學家、機器學習工程師和從業者等關鍵社區的積極參與。"
OORT創始人兼CEO Max Li 向Cointelegraph透露,該公司"觀察到了令人鼓舞的參與指標,這驗證了"其通過分散式模型收集的訓練數據"確實具有早期市場需求和相關性"。他補充道:
"來自社區的自發興趣,包括積極使用和貢獻——清晰地展示了像OORT這樣的分散式、社區驅動的數據管道如何能夠在不依賴中心化中介機構的情況下實現快速分發和廣泛參與。"
Li還表示,OORT計劃在未來幾個月發布多個數據集。其中包括車內語音命令數據集、智能家居語音命令數據集,以及旨在提升AI驅動的媒體真實性驗證能力的深度僞造視頻數據集。
Cointelegraph獨立核實確認,上述數據集本月早些時候已在Kaggle的通用AI、零售和購物、制造業以及工程類別中成功登上首頁。截至發稿時,該數據集在5月6日的一次可能無關的數據集更新和5月14日的另一次更新後已不再保持這些排名位置。
雖然認可這一成就,Subramaniam向Cointelegraph表示,"這並非實際落地應用或企業級質量的決定性指標。"他指出,OORT數據集的獨特之處"不僅體現在排名上,更在於數據集背後的來源渠道和激勵機制。"他進一步解釋:
"與可能依賴不透明流程的中心化供應商不同,一個透明的、基於代幣激勵的系統能提供可追溯性、社區共同管理以及持續優化的可能性,前提是建立合適的治理結構。"
人工智能風險投資機構Generative Ventures合夥人Lex Sokolin表示,盡管他認爲這些成果並非難以復制,"但這確實證明了加密項目能夠利用去中心化激勵機制組織具有經濟價值的活動。"
人工智能研究機構Epoch AI發布的數據顯示,人類生成的文本AI訓練數據預計將在2028年耗盡。壓力已大到投資方目前正在促成交易,爲AI公司獲取受版權保護材料的使用權。
關於AI訓練數據日益稀缺以及這可能如何制約該領域發展的研究報告已流傳多年。雖然合成(AI生成)數據正被越來越廣泛地應用並取得一定成效,但人類生成的數據仍被普遍視爲更優選擇,這類高質量數據能夠培養出性能更佳的AI模型。
在AI訓練圖像領域,情況變得愈發復雜,藝術家們正有意識地破壞訓練工作。爲保護自己的作品不被未經授權用於AI訓練,Nightshade工具使創作者能夠"毒化"他們的圖像,從而嚴重影響模型性能表現。
Subramaniam指出:"我們正步入一個高質量圖像數據日益稀缺的時代。"他同時強調,圖像投毒技術的廣泛應用使這一挑戰更爲嚴峻:
"隨着圖像隱蔽技術和對抗性水印等AI訓練投毒方法的興起,開源數據集正面臨數量和可信度的雙重挑戰。"
針對這一局勢,Subramaniam表示,可驗證且由社區貢獻的激勵數據集"較以往任何時候都更具價值"。他認爲,這類項目"不僅能作爲替代方案,更將成爲數據經濟中AI對齊和數據溯源的重要支柱。"
相關推薦:Kima加入Mastercard沙盒以實現穩定幣卡片充值