Google发布Gemma 2 2B和Gemini 1.5 Pro,FLUX开源图像的新标杆,这就是这周的AI大新闻。
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
周度AI大事件摘要 (7.30~8.04)
Google 发布模型:Google发布了Gemini 1.5 Pro和Gemma 2 2B模型。Gemini 1.5 Pro在LLM竞技场综合排名超过GPT-4o mini,成为第一。具备强大多模态能力,支持音频和视频。Gemma 2 2B是设备端运行模型,在LLM竞技场也有高分,内置安全分类器ShieldGemma,有效检测不当内容。
FLUX图像生成模型:FLUX系列模型由前Stability AI核心成员发布,包括FLUX.1[pro], FLUX.1[dev]和FLUX.1[schnell]。FLUX模型接近Midjourney质量,部分开源,支持非商业使用。还在训练可能开源的DiT视频生成模型。
Meta发布SAM 2分割模型:Meta推出Segment Anything Model 2 (SAM 2)图像分割模型,提供实时、可提示的对象分割,准确性和视频分割性能优于前代,使用SA-V:最大的视频分割数据集。
其他动态
- Meta推出AI功能测试Playground,包含四个工具。
- Stability AI推出Stable Fast 3D模型,快速生成3D资产。
- Figure即将发布新机器人。
- Hedra获1000万美元融资,打造故事讲述技术。
- Runway发布Gen3的Turbo版本,生成速度提升。
- Leonardo被Canva收购。
- Character AI被谷歌收购。
- Midjourney V6.1版本更新,图像细节清晰度提升。
- OpenAI推出GPT-40长输出版本。
- Vidu上线DiT视频生成模型。
- 苹果iOS Beta更新,15pro和Max支持AI功能。
- 快手开源LivePortrait,支持表情迁移。
- Cohere推出Prompt Tuner。
精选文章
讨论LLMs对在线知识社区的影响、Llama 3.1论文精读、LLM幻觉指数特别报告、量化的视觉指南、a16z关于AI改变销售技术的文章、AI制作数据视觉故事的可能性、AI功能货币化策略。
重点研究
包括Fotographer AI商品图拍摄项目、Apple Intelligence Foundation Language Models论文、HoloDreamer3D世界生成、HumanVid人体图像动画、Anthropic解释性研究挑战、Tora轨迹的DiT框架视频生成。
以上摘要基于原文内容,为作者歸藏所整理。有兴趣的读者可通过提供的链接深入了解每项内容。
想要了解更多内容?