100 萬本公共領域(yù)書籍,為 AI 訓練提供合法(fǎ)數據

2024-12-17

來源:IT之家

據 TechCrunch 12 日報道,哈佛大學與穀歌宣(xuān)布,聯合發布 100 萬本公共領域書籍作為(wéi) AI 訓練數據集(jí)。

AI 訓練所需的數據成本高昂(áng),但卻更適合(hé)資金充裕的科技公司。因此,哈佛大學(xué)計劃發布一個包含約 100 萬本公共領域書(shū)籍的數據集,這(zhè)些書籍覆蓋多種類型、語言和作者,包括已不再受版權保護的(de)經典作家如狄更斯、但丁和莎士比亞等,因這些作品的版權已隨(suí)時間過期。

雖然這個新數據集尚未(wèi)公開,也不清楚具體的發布方式和(hé)時間,但它來源於穀歌(gē)的長期項目(mù) —— 穀歌圖書(shū)(Google Books)。因此,穀歌將參與這次“寶貴財富”的廣泛發布。

據(jù)IT之家了解,早在(zài)今(jīn)年 3 月,哈佛大學就(jiù)曾(céng)透露其“機構數(shù)據計劃(IDI)”,並表示這一計劃旨在為 AI 提供“合法數據(jù)的可信通道”。直到正式(shì)啟動後(hòu),該計劃才確認(rèn)得到了微軟和 OpenAI 的資金支持(chí)。

IDI 的執行董事格雷格?萊佩特(Greg Leppert)表(biǎo)示,該數據集的目標是“讓競爭環境更加公平”,通過向包括研究機構和 AI 初(chū)創公司在內的各類機構開放這一龐大的數據集,以幫助他們訓練大型語言模(mó)型。



更多新聞
國內AI眼鏡賽道火熱,多家上市公司布局(jú)上下遊產業鏈

國內AI眼鏡賽道火熱,多家上市公司布局上下遊產業鏈

林氏木業斬獲AI創變大獎:AIGC技術重塑(sù)家居營銷新格局

林氏木業(yè)斬獲AI創變大獎:AIGC技術重塑家居營銷新格局

強腦科技×喜臨門 | 開創AI床墊人機交(jiāo)互新(xīn)範式,探(tàn)索千行百業融合新未來

強腦科(kē)技×喜臨門 | 開創AI床墊人機交互新範式(shì),探索千行百(bǎi)業融(róng)合新(xīn)未來

网站地图 精东影业天美传媒网站_97国产精东麻豆人妻电影_精东影业传媒在线观看_国产麻豆精品精东影业AV网站