扫码阅读

手机扫码阅读

Google发布Gemma 2 2B和Gemini 1.5 Pro，FLUX开源图像的新标杆，这就是这周的AI大新闻。

372 2024-10-11

模型 https 视频 AI 生成

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Google发布Gemma 2 2B和Gemini 1.5 Pro，FLUX开源图像的新标杆，这就是这周的AI大新闻。

文章来源：

数字生命卡兹克

扫码关注公众号

周度AI大事件摘要 (7.30~8.04)

Google 发布模型：Google发布了Gemini 1.5 Pro和Gemma 2 2B模型。Gemini 1.5 Pro在LLM竞技场综合排名超过GPT-4o mini，成为第一。具备强大多模态能力，支持音频和视频。Gemma 2 2B是设备端运行模型，在LLM竞技场也有高分，内置安全分类器ShieldGemma，有效检测不当内容。

FLUX图像生成模型：FLUX系列模型由前Stability AI核心成员发布，包括FLUX.1[pro], FLUX.1[dev]和FLUX.1[schnell]。FLUX模型接近Midjourney质量，部分开源，支持非商业使用。还在训练可能开源的DiT视频生成模型。

Meta发布SAM 2分割模型：Meta推出Segment Anything Model 2 (SAM 2)图像分割模型，提供实时、可提示的对象分割，准确性和视频分割性能优于前代，使用SA-V：最大的视频分割数据集。

其他动态

Meta推出AI功能测试Playground，包含四个工具。
Stability AI推出Stable Fast 3D模型，快速生成3D资产。
Figure即将发布新机器人。
Hedra获1000万美元融资，打造故事讲述技术。
Runway发布Gen3的Turbo版本，生成速度提升。
Leonardo被Canva收购。
Character AI被谷歌收购。
Midjourney V6.1版本更新，图像细节清晰度提升。
OpenAI推出GPT-40长输出版本。
Vidu上线DiT视频生成模型。
苹果iOS Beta更新，15pro和Max支持AI功能。
快手开源LivePortrait，支持表情迁移。
Cohere推出Prompt Tuner。

精选文章

讨论LLMs对在线知识社区的影响、Llama 3.1论文精读、LLM幻觉指数特别报告、量化的视觉指南、a16z关于AI改变销售技术的文章、AI制作数据视觉故事的可能性、AI功能货币化策略。

重点研究

包括Fotographer AI商品图拍摄项目、Apple Intelligence Foundation Language Models论文、HoloDreamer3D世界生成、HumanVid人体图像动画、Anthropic解释性研究挑战、Tora轨迹的DiT框架视频生成。

以上摘要基于原文内容，为作者歸藏所整理。有兴趣的读者可通过提供的链接深入了解每项内容。

想要了解更多内容？

查看原文：Google发布Gemma 2 2B和Gemini 1.5 Pro，FLUX开源图像的新标杆，这就是这周的AI大新闻。

文章来源：

数字生命卡兹克

扫码关注公众号

相关推荐

理解 DDD：编程中的模型思维

488

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

LLMOps快速入门，轻松开发部署大语言模型

555

模型 LLM LLMOps 提示

深入介绍LLMOps。

AIGC｜万字长文！带你了解AI大模型技术演进

2432

模型神经网络 AI

大模型时代来临，我们站上了风口浪尖→

大语言模型概述

420

模型语言生成文本

大语言模型是使用深度学习技术构建的自然语言处理模型，其目标是尽可能地模拟人类语言的处理和生成能力。

语言大模型

524

模型语言训练文本

语言大模型通常采用神经网络结构，使用大规模的文本数据进行训练，通过学习文本数据中的语法、语义和上下文信息，来生成各种形态内容的模型。

2024 年数据管理在人工智能中的四大趋势

574

数据模型人工智能数据集

在 2023 年即将结束之际，我们会发现随着 ChatGPT 的引

数字生命卡兹克

努力分享一些很新、很酷的AI干货。

185 篇文章

浏览 88.2K

数字生命卡兹克的其他文章

我跟12家大厂一起弄了个免费的AI大聚会 - 上海，我们来了

3.16号，上海见

仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

我的用词一直都挺克制的，基本不会用到“最强”这?

这群"斜杠青年"，正在成为AI巨头们背后的奠基人

一人能抵千军万马，这就是AI时代复合型人才的真实写照。

体验完腾讯元宝的深度阅读，我觉得我以后的论文和研报有救了。

阅读的救星。

首批艺术家创作的Sora视频放出 - OpenAI超大杯肌肉秀

当你不是复制旧的，而是将我们本来没有机会看到的新的、不可能的想法变为现实时，Sora 才是最强大的

随机阅读

《非暴力沟通》读书笔记

三个团队的站立会议旁观笔记

案例：工时数据分析

各阶段缺陷检出密度的统计分析案例

一表搞定最小可行产品（MVP）与最小可市场化特性（MMF）

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线