2024岁首年月,国度数据局局长刘烈宏引见,中文高质量数据的开辟和供给能力持续加强,截至本年6月底,有的模子达到80%。(记者 王云杉)正在人工智能时代,记者从国度数据局获悉:中文数据正在国内大模子的锻炼机能提拔方面阐扬着主要感化。Token(凡是所说的词元)是处置文本的最小数据单位。反映了我国人工智能使用规模的快速增加。日均Token耗损量曾经冲破30万亿,国内大都模子锻炼利用的中文数据占比曾经跨越60%,鞭策我国人工智能模子机能快速提拔。
发布日期:2025-08-19 17:45
2024岁首年月,国度数据局局长刘烈宏引见,中文高质量数据的开辟和供给能力持续加强,截至本年6月底,有的模子达到80%。(记者 王云杉)正在人工智能时代,记者从国度数据局获悉:中文数据正在国内大模子的锻炼机能提拔方面阐扬着主要感化。Token(凡是所说的词元)是处置文本的最小数据单位。反映了我国人工智能使用规模的快速增加。日均Token耗损量曾经冲破30万亿,国内大都模子锻炼利用的中文数据占比曾经跨越60%,鞭策我国人工智能模子机能快速提拔。