网站地图官方微信:
网站首页 突泉镇 黄岭镇 谷营乡 惠阳区 隆兴乡 基只乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 两年融资22.4亿,获腾讯入股的谊品生鲜有哪些“绝技”? - * |

    其次,谊品生鲜下游实现公司化服务,称为全公司化,总共有 13 个公司,包括谊品的物流公司、装修公司以及尚未对外开放的商学院这些服务平台等,都需要与合伙人一起合作,最后同样是按照贡献来分配利润。...

    查看详情>>
  • | 从旷视到千里、再到阶跃,AI创业15年的印奇,如何破解商业化魔咒?_模型_上市_技术 |

  • | 华为神秘新机曝光:白绿橘蓝黑五色可选,或为全球首款折叠平板!_Pura_概率_屏幕 |

  • | 普通人用得着4k分辨率的显示器吗? |

  • | 中国航天的至暗时刻,一天两次发射失利,难道真和印度一样了?_运载火箭_谷神星_任务 |

  • | 如何评价张译、李光洁主演的电视剧《以法之名》? |

  • | 「香港四大才子」之一蔡澜去世,你对他有哪些了解?如何评价他的成就? |

  • | 苹果2026年战略转型:Siri将升级为“Campos”聊天机器人_模型_Gemini_芯片 |

  • | 苹果iPhone 18标准版前瞻:A20芯片、12GB内存_方面_传感器_成本 |

  • | 如何评价 Next.js? |

  • | 现在的年轻人为什么跟父母沟通不来了? |

  • 如果将这一幕置于中美科技博弈的棋盘上,就会发现,看似黄仁勋轻松的姿态背后,恰是英伟达在中国市场的现实写照。当黄仁勋的身影出现在菜场,人们讨论的不再是“H20芯片性能”,而是“原来大佬也吃茭白”“他买的青菜多少…...

    2026-01-27
  • 苹果最烧钱的 AI 部门,交给了一个连香蕉预算都要审的男人_费德里吉_Gemini_Siri...

    2026-01-23
  • 说实话,我很有发言权。 手上刚买一台13寸MacBook ...

    2025-06-29
  • TikTok美国合资公司新CEO揭秘_亚当·普雷瑟_汇报工作_字节...

    2026-01-27

关注我们

添加微信好友,关注最新动态