我心目中的2024十大AI产品/项目 1、OpenAI o1 从预训练的Scaling Law转移到了推理的Scaling Law,开启了LLM的下一个增长阶段,而且是有真正的推理能力,数学问题不再是难题。2025年OpenAI还会领先,但是还能领先多少就不好说了,我看好Anthropic和Google,其次是XAI和Meta。
2、Claude 3.5 Sonnet 第一个让人放心的LLM,在Sonnet 3.5刚问世的时候,可以把模型分为Sonnet 3.5和其他,Sonnet 3.5让基于LLM的应用变得可行、稳定。
3、GPT-4o OpenAI o1是LLM能力深度的发展,GPT-4o则是能力横向的发展,原生多模态,输入支持文本、图片、视频、语音,输出支持文本、语音,图片后续会支持,支持视频输出也不是没可能。使用GPT-4o高级语音模式的时候,你会觉得这是真正的AI应用,在5年前是完全不敢相信的。
4、Gemini 2 Flash 谷歌今年很扎实,Gemini 2 Flash很惊艳,也是原生多模态模型,而且OCR能力极其优秀。虽然目前只放出了部分的能力,也不支持中文语音输出,但是免费的策略和快速的响应,依旧获得了极大的好评。
5、LLaMA 3 Meta依旧是开源LLM的王者,8B、70B、405B各个层次的模型都有,405B让开源LLM达到了GPT-4的水平。
6、Kling Sora是最早宣布的DiT模型,但是年初宣布年底才开放使用,且实际效果完全弱于演示视频;Google的Veo 2目前放出的演示视频效果非常好,但是一来普通人目前还用不上,二来真正能用到的时候也不知道效果是否一致;Kling 1.6是目前普通人能用到的效果最好的视频模型,虽然也存在抽卡的情况,但成功率很高了。其他的DiT视频产品还包括PixVerse 3.5、Runway Gen3、LumaAI、海螺AI,效果和功能也各有千秋。值得一提的是,目前有可以比肩闭源模型的开源视频模型了,Mochi 1和混元。
7、Flux 开源的Flux Dev版本,在开源社区的努力下,结合LoRA使用,让开源图片模型接近了Midjourney的水准,而且功能更加丰富、可控性更高、LoRA更多。
8、AlphaFold 3 今年诺贝尔奖有2项是关于AI的,其中一项是AlphaFold 3,这只是AI影响学术的开端,未来学术、科技、生物医药,各个领域都会受到AI的加成。
9、Cursor 2024年AI辅助编程已经验证了商业可行性,Windsurf、Cursor、http://bolt.new、v0、Github Copilot几家产品打的火热,年度产品里应该有一款AI编程产品,至于是Cursor还是Windsurf,各有所爱。
10、Groq AI推理芯片的最早公司,类似的还有SambaNova和Cerebras,这些都是未来的AI基础算力平台,类似基建里的电力。
2025的预测: Agent大爆发; AI视频、AI音乐、AI 3D模型达到GPT-3.5的阶段; 具身智能展露头角;
Leave a Review