资讯

词元(token)是大语言模型(LLMs,Large Language Models)处理文本语料的基本单元,然而最先进 ChatGPT 系列模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)的中文词表里却有高达 46.6% ...
该研究首先组建了包含 6 名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进 ChatGPT 模型的中文词表进行污染词标注,总结出中文污染词的定义和分类,为后续研究打下基础。 定义 : 中文污染词(Polluted ...
最新 ChatGPT 系列模型的《新华词典》里有 46.6% 都是「污言秽语」,并且输入这些「污言秽语」会让模型胡言乱语。基于这一现象,研究团队系统性给出了此类中文污染词的定义和分类,构建了中文污染词自动识别模型,并基于词表污染估计训练语料污染。综上所述,该研究期待 为 LLM 海量训练语料的治理提供轻量化的方案。
2.2我国成功发射卫星互联网低轨09组卫星。据C114通信网,8月17日22时15分,我国在太原卫星发射中心使用长征六号改运载火箭,成功将卫星互联网低轨09组卫星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。此次任务是长征系列运载火箭的第590次飞行。长征六号改运载火箭由中国 航天科技 ...