{
  "channels": 8,
  "cond_stage_config": {
    "crossattn_audiomae_generated": {
      "cond_stage_key": "all",
      "conditioning_key": "crossattn",
      "params": {
        "always_output_audiomae_gt": false,
        "base_learning_rate": 0.0002,
        "batchsize": 16,
        "cond_stage_config": {
          "crossattn_audiomae_pooled": {
            "cond_stage_key": "ta_kaldi_fbank",
            "conditioning_key": "crossattn",
            "params": {
              "eval_freq_pooling": 8,
              "eval_time_pooling": 8,
              "freq_pooling_factors": [
                8
              ],
              "mask_ratio": 0,
              "no_audiomae_mask": true,
              "regularization": false,
              "time_pooling_factors": [
                8
              ]
            },
            "target": ".encoders.audiomae_encoder.AudioMAEConditionCTPoolRand"
          },
          "crossattn_flan_t5": {
            "cond_stage_key": "text",
            "conditioning_key": "crossattn",
            "target": ".encoders.flant5_encoder.FlanT5HiddenState"
          },
          "film_clap_cond1": {
            "cond_stage_key": "text",
            "conditioning_key": "film",
            "params": {
              "amodel": "HTSAT-base",
              "embed_mode": "text",
              "sampling_rate": 48000
            },
            "target": ".encoders.clap_encoder.CLAPAudioEmbeddingClassifierFreev2"
          }
        },
        "learnable": true,
        "sequence_gen_length": 8,
        "sequence_input_embed_dim": [
          512,
          1024
        ],
        "sequence_input_key": [
          "film_clap_cond1",
          "crossattn_flan_t5"
        ],
        "use_gt_mae_output": true,
        "use_gt_mae_prob": 0.0,
        "use_warmup": true
      },
      "target": ".encoders.sequence2audiomae_encoder.SequenceGenAudioMAECond"
    },
    "crossattn_flan_t5": {
      "cond_stage_key": "text",
      "conditioning_key": "crossattn",
      "target": ".encoders.flant5_encoder.FlanT5HiddenState"
    }
  },
  "device": "gpu",
  "first_stage_config": {
    "params": {
      "batchsize": 4,
      "ddconfig": {
        "attn_resolutions": [],
        "ch": 128,
        "ch_mult": [
          1,
          2,
          4
        ],
        "double_z": true,
        "downsample_time": false,
        "dropout": 0.0,
        "in_channels": 1,
        "mel_bins": 64,
        "num_res_blocks": 2,
        "out_ch": 1,
        "resolution": 256,
        "z_channels": 8
      },
      "embed_dim": 8,
      "image_key": "fbank",
      "sampling_rate": 16000,
      "subband": 1,
      "time_shuffle": 1
    },
    "target": ".latent_encoder.autoencoder.AudioLDMAutoencoderKL"
  },
  "first_stage_key": "fbank",
  "latent_f_size": 16,
  "latent_t_size": 256,
  "linear_end": 0.0195,
  "linear_start": 0.0015,
  "log_every_t": 200,
  "model_type": "audioldm2",
  "num_timesteps_cond": 1,
  "paddlenlp_version": null,
  "parameterization": "eps",
  "return_dict": true,
  "sampling_rate": 16000,
  "timesteps": 1000,
  "unconditional_prob_cfg": 0.1,
  "unet_config": {
    "params": {
      "attention_resolutions": [
        8,
        4,
        2
      ],
      "channel_mult": [
        1,
        2,
        3,
        5
      ],
      "context_dim": [
        768,
        1024
      ],
      "image_size": 64,
      "in_channels": 8,
      "model_channels": 128,
      "num_head_channels": 32,
      "num_res_blocks": 2,
      "out_channels": 8,
      "transformer_depth": 1,
      "use_spatial_transformer": true
    },
    "target": ".unet.openaimodel.UNetModel"
  }
}