{
  "_class_name": "AudioLDM2Pipeline",
  "_name_or_path": "cvssp/audioldm2",
  "_ppdiffusers_version": "0.24.0",
  "feature_extractor": [
    "ppdiffusers.transformers",
    "ClapFeatureExtractor"
  ],
  "language_model": [
    "ppdiffusers.transformers",
    "GPT2Model"
  ],
  "projection_model": [
    "audioldm2",
    "AudioLDM2ProjectionModel"
  ],
  "scheduler": [
    "ppdiffusers",
    "DDIMScheduler"
  ],
  "text_encoder": [
    "ppdiffusers.transformers",
    "ClapModel"
  ],
  "text_encoder_2": [
    "ppdiffusers.transformers",
    "T5EncoderModel"
  ],
  "tokenizer": [
    "ppdiffusers.transformers",
    "RobertaTokenizer"
  ],
  "tokenizer_2": [
    "ppdiffusers.transformers",
    "T5Tokenizer"
  ],
  "unet": [
    "audioldm2",
    "AudioLDM2UNet2DConditionModel"
  ],
  "vae": [
    "ppdiffusers",
    "AutoencoderKL"
  ],
  "vocoder": [
    "ppdiffusers.transformers",
    "SpeechT5HifiGan"
  ]
}