來源:IT之家
據 TechCrunch 12 日報道,哈佛大學與穀歌宣(xuān)布,聯合發布 100 萬本公共領域書籍作為(wéi) AI 訓練數據集(jí)。
AI 訓練所需的數據成本高昂(áng),但卻更適合(hé)資金充裕的科技公司。因此,哈佛大學(xué)計劃發布一個包含約 100 萬本公共領域書(shū)籍的數據集,這(zhè)些書籍覆蓋多種類型、語言和作者,包括已不再受版權保護的(de)經典作家如狄更斯、但丁和莎士比亞等,因這些作品的版權已隨(suí)時間過期。

雖然這個新數據集尚未(wèi)公開,也不清楚具體的發布方式和(hé)時間,但它來源於穀歌(gē)的長期項目(mù) —— 穀歌圖書(shū)(Google Books)。因此,穀歌將參與這次“寶貴財富”的廣泛發布。
據(jù)IT之家了解,早在(zài)今(jīn)年 3 月,哈佛大學就(jiù)曾(céng)透露其“機構數(shù)據計劃(IDI)”,並表示這一計劃旨在為 AI 提供“合法數據(jù)的可信通道”。直到正式(shì)啟動後(hòu),該計劃才確認(rèn)得到了微軟和 OpenAI 的資金支持(chí)。
IDI 的執行董事格雷格?萊佩特(Greg Leppert)表(biǎo)示,該數據集的目標是“讓競爭環境更加公平”,通過向包括研究機構和 AI 初(chū)創公司在內的各類機構開放這一龐大的數據集,以幫助他們訓練大型語言模(mó)型。





