每日Github探索:MS-DOS、OpenVoice、CoreNet

1. microsoft/MS-DOS

微软的此仓库包含 MS-DOS 1.25、2.0 和 4.0 的原始源代码,供参考使用。这些代码源自计算机历史博物馆,现重新发布以方便查找、参考和探索,供有兴趣了解早期 PC 操作系统的用户使用。所有文件均根据 MIT 许可证发布,源文件仅供历史参考,请勿提出修改源文件的 Pull 请求。该项目已采用微软开源行为准则。此项目可能包含项目、产品或服务的商标或徽标,使用微软商标或徽标需遵守微软的商标和品牌准则。修改版本中使用微软商标或徽标不得造成混淆或暗示微软赞助,第三方商标或徽标的使用需遵守第三方政策。

2. myshell-ai/OpenVoice

OpenVoice是一个由MyShell开发的声音克隆技术。它具有三个主要优点

  1. **准确的音色克隆:**OpenVoice可以准确克隆参考音色,并生成多种语言和口音的语音。
  2. **灵活的语音风格控制:**OpenVoice允许对语音风格(如情绪、口音)和其他风格参数(如节奏、停顿和语调)进行细粒度控制。
  3. **零样本跨语言语音克隆:**生成语音和参考语音都不需要包含在海量多语言训练数据集中。

OpenVoice V2于2024年4月发布,增加了以下特性:

  1. **更好的音频质量:**V2采用不同的训练策略,提供了更高的音频质量。
  2. **原生多语言支持:**V2原生支持英语、西班牙语、法语、中文、日语和韩语。
  3. **免费商业用途:**V2和V1均在MIT许可证下发布,可免费用于商业用途。

OpenVoice已为myshell.ai的即时语音克隆功能提供支持,截至2023年11月,其语音克隆模型已在全球范围内被用户使用了数千万次。

主要贡献者:

  • 麻省理工学院和MyShell的曾毅清
  • 清华大学的赵文良
  • 清华大学的于旭敏
  • MyShell的Ethan Sun

使用说明、常见问题解答和加入社区信息请参考README文档。

3. apple/corenet

CoreNet是一个深度神经网络工具包,允许研究人员和工程师训练标准和新颖的小型和大规模模型,用于各种任务,包括基础模型(例如CLIP和LLM)、物体分类、物体检测和语义分割。

CoreNet提供以下功能:

  • **清晰的目录结构:**组织了入门示例、训练配方、MLX 示例、模型实现和数据集。
  • **广泛的模型:**覆盖音频分类、分类、检测、语言建模、多模态图像文本和分割任务。
  • **可扩展性:**支持在多节点集群上进行分布式训练。
  • **可定制性:**允许用户创建自定义模型、损失函数和指标。

CoreNet由Apple的研究部门开发和维护,用于其人工智能研究和产品开发。它已用于多项出版物和产品,包括OpenELM、CatLIP、MobileViT和FastViT。

该工具包受到广泛认可,在GitHub上获得超过5400颗星。它得到了Python和PyTorch的支持,并遵循《许可证》下提供的开源许可证。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容