在大模型竞技场(Arena),Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 ...
Llama-4-Scout——总参数109B的模型——大概与Grok-2或Ernie 4.5类似。 他表示,Scout (109B) 和Maverick (402B)在针对编程任务的Kscores基准测试中表现不如4o、Gemini ...
最新研究发现,LLM在面对人格测试 时,会像人一样「塑造形象」,提升外向性和宜人性得分。AI的讨好倾向,可能导致错误的回复,需要引起警惕。 你是否想过,LLM也有着自己的小心思?
AI爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的「DDoS攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。
GenAI红队通过模拟真实世界的威胁来评估防御能力。在GenAI安全的背景下,红队涉及系统地测试系统对抗潜在的敌对行为。这是通过模拟特定的战术、技术和程序(TTPs)来实现的,恶意行为者可能会使用这些战术、技术和程序来利用人工智能系统。
这就好比在考试前给学生塞一张纸条,上面写着「答案是 A」。如果他们在考试中写道,他们选择 A 至少部分是因为纸条的缘故,这就是好消息:他们诚实守信。但如果他们写下了他们声称的推理过程,却丝毫没有提到纸条,可能就有问题了。
目前,自回归(AR)模型在文本生成领域占据主导地位,几乎所有领先的 LLM(如 GPT-4、DeepSeek、Claude)都依赖于这种从左到右生成的架构。虽然这些模型表现出了卓越的能力,但一个基本问题浮现出来:什么样的架构范式可能定义下一代 LLM ...
大模型已经在聚光灯下狂奔了28个月,时至今日,Agent已经被成为了包括黄仁勋、奥特曼、李彦宏、周鸿祎、吴泳铭等一众科技大佬在内备受期待的2025爆发品。
「大部分AI GPU都不是以芯片的形式进口的,它们通常是做成服务器。而这些产品会面临32%的关税税率。」Tufts University教授、《芯片战争》作者Chris Miller这样认为。
近日,比尔・盖茨亲自撰文回忆了微软的诞生和他们的第一笔业务,同时还通过一份 157 页的 PDF 文件分享了他们为这项业务编写的 Altair BASIC 源代码。
在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4 ...
现在,新加坡南洋理工大学 S-Lab 的研究者们提出了 GaussianCity,该工作重新定义了无界 3D 城市生成,让它变得 60 倍更快。过去,你需要数小时才能渲染一片城区,现在,仅需一次前向传播,一座完整的 3D ...