标签: 科技

  • 快手可灵大模型——AI视频生产

    快手可灵大模型——AI视频生产

    https://kling.kuaishou.com/
    近日,快手“可灵”视频生成大模型在人工智能领域引起广泛关注。该模型由快手 AI 团队自研,采用了与 Sora 相似的技术路线,并结合多项自研技术创新,效果对标 Sora。

     

    可灵大模型具备众多显著优势。它能够生成大幅度的合理运动,通过 3D 时空联合注意力机制,更好地建模视频中的复杂时空运动,使生成的运动更符合客观规律;可以模拟真实物理世界的特性,无论是光影反射、重力影响下的流体运动,还是与物理世界的交互,都能生成符合物理规律的视频;具备强大的概念组合能力和想象力,能够将用户丰富的想象力转化为具体的画面,例如让熊猫弹吉他唱歌等创意场景轻松实现。

     

    在视频生成方面,可灵大模型表现出色,其生成的视频分辨率高达 1080p,时长可达 2 分钟(帧率 30fps),还支持自由调整宽高比。目前,该模型已在快影 App 开放邀测体验,用户反馈热烈,申请内测人数众多。

     

    6 月 21 日,可灵大模型发布重磅更新,正式开放图生视频功能,支持将静态图像转化为 5 秒钟视频,且用户可通过提示词文本控制图像中物体的运动。同时推出的视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成约 3 分钟视频。

     

    快手可灵大模型的出现,不仅在国际大模型技术圈层展现了中国技术的领先可能,也加速了 AI 生成视频产品的竞争。它的成功研发,为创作者和行业从业者提供了强大的技术支持,有助于提升创作效率和质量。

     

    在未来的发展中,快手将继续推动可灵大模型的完善和应用场景的拓展。据悉,在 7 月举行的 2024 世界人工智能大会(WAIC)上,快手还将发布最新的大模型技术与应用战略,包括快手大模型技术矩阵全景、基座模型技术创新、应用和落地情况等,有望为用户带来更加丰富多彩的视频内容体验,进一步推动人工智能技术与短视频行业的深度融合与发展。

     

    可灵大模型的诞生,是快手在 AI 技术领域深入探索和创新的重要成果,也体现了中国人工智能在视频生成模型方面的实力和进步,为中国人工智能的发展路径提供了新的方向和启示。
  • 【AI前沿科技快报】

    1. Moshi大模型震撼发布,多模态能力挑战GPT-4O

    开源界迎来重磅消息,Kyutai实验室推出的Moshi大模型,以其卓越的多模态能力,成为GPT-4O的有力竞争者。Moshi不仅能够理解人类的语音提问并实时作出回应,其语音模式的开放速度更是领先于GPT-4O。这款模型具备听、说能力,未来或将展现视觉理解,其快速响应与人性化对话风格赢得了用户好评。Moshi的教育应用潜力巨大,有望为学生提供个性化学习辅导。Kyutai实验室计划不久后开源Moshi,共享代码、模型权重和论文,推动AI技术的普及与发展。

    2. Google Pixel 9:AI赋能,摄影新革命

    谷歌即将推出的Pixel 9系列智能手机,将搭载一系列AI创新功能,彻底改变摄影体验。Add Me功能能智能融合不同照片中的人物表情,确保每一张合照都尽善尽美;Studio功能则集成到截图编辑器中,让用户轻松创作和混搭贴纸,释放无限创意;Pixel Screenshots功能则着重于隐私保护,仅在手动截图时激活,确保用户信息安全。这些新功能彰显了谷歌在AI领域的深厚技术积累和创新实力。

    3. Perplexity AI Pro Search升级,智能搜索再进化

    Perplexity AI宣布其Pro Search服务完成重大升级,新版本不仅增强了复杂查询处理能力,还引入了多步推理功能,显著提升了问题解决和代码执行能力。通过整合Wolfram|Alpha引擎,Pro Search在数学和编程问题上的解答更加准确高效,为科研人员和工程师提供了强有力的辅助工具。

    4. Cloudflare创新防御,抵御AI爬虫威胁

    面对日益猖獗的AI爬虫,网络安全巨头Cloudflare推出了一键式防护方案,有效阻止AI机器人抓取网站内容,保护内容创作者免受侵权困扰。通过先进的机器学习模型,Cloudflare能够精准识别并拦截伪装的网络爬虫,为互联网安全环境筑起坚固防线。

    5. ElevenLabs VOICE ISOLATOR:音频制作的革命

    ElevenLabs最新发布的VOICE ISOLATOR,是一款革命性的音频处理工具,它能有效消除背景噪音,清晰提取人声,极大提升音频作品的专业水准。该工具的Extract vocals功能,使得音频后期制作更加高效便捷,为音频创作者提供了前所未有的创意空间。

    6. 商汤科技Vimi:视频生成技术新里程碑

    商汤科技近期推出的Vimi模型,在视频生成领域树立了新标杆。Vimi模型具备出色的可控性,能够精准操控人物表情与肢体动作,生成高质量的视频内容。其稳定输出长达1分钟的高清视频,保持了画面的一致性与连贯性,展现了商汤科技在视频生成技术上的深厚底蕴。

    7. MimicMotion:AI技术革新舞蹈与动作捕捉

    MimicMotion技术的发布,标志着AI在舞蹈视频生成与动作捕捉领域的重大突破。该技术采用置信度感知姿势引导,生成高质量的人体运动视频,同时通过手部精炼机制强化细节表现,能够灵活生成任意长度的视频,为视频制作与动作捕捉行业带来了无限可能。

    8. ChatGPT Mac客户端安全漏洞警示

    OpenAI的ChatGPT Mac客户端被发现存在安全漏洞,对话记录以明文形式存储,可能暴露于恶意攻击之下。OpenAI已迅速响应,发布更新加密对话记录,加强用户数据安全防护。这一事件再次提醒科技公司在软件开发过程中,需重视数据安全与隐私保护。

    以上信息来源权威渠道,展示了AI技术在各个领域的最新进展与应用,为科技爱好者与从业者提供了宝贵的洞察。敬请关注我们的持续报道,掌握AI世界的脉搏。


    注:上述新闻依据相关公告与报道整理而成,旨在提供AI科技领域的最新动态。

  • 给老人看电视直播的几个方案

    给老人看电视直播的几个方案

    方案三种,前题,稳定性随缘,个人认为只有官方的渠道才是稳定的保证,所以IPTV和有线电视是首选。

    方案一,现成的直播app,这个大家可以去网络搜索,还是有不少目前能用的,但是能坚持到什么时候那就没法说了。我的视频里有介绍几个,大家可以尝试

    方案二,自主维护直播源,这个方案有个条件,就是你要可以把维护的直播源文件上传到公网可以访问,有自己的服务器是可以直接解决,没有的话可以利用https://gitcode.net 这类代码网站存储和维护直播源文件。我以后会专门出一个视频来讲解一下。

    方案三,自主维护直播app前后台,这个麻烦点,要求你有虚拟主机或者服务器了,远程要对接后台的。前台修改apk客户端对接后台网址,后台添加点播源和直播源,还可以丰富前端显示内容。我整理好会详细给大家讲解一下。