Conceptos básicos para comenzar con audio y video: Tema H.264 (12): implementación del cálculo de la resolución de video a través de atributos SPS en el código fuente de FFmpeg

Conceptos básicos para comenzar con audio y video: Tema H.264 (12): implementación del cálculo de la resolución de video a través de atributos SPS en el código fuente FFmpeg

2024-07-12

I. Introducción

En el apartado anterior "Conceptos básicos para comenzar con audio y video: tema H.264 (11): fórmula para calcular la resolución de video "", describe la fórmula para calcular la resolución de vídeo codificado H.264 a través de los atributos en SPS. Este artículo explica la implementación del cálculo de la resolución de video en el código fuente de FFmpeg.

2. Implementación del cálculo de la resolución de video en el código fuente de FFmpeg

Del artículo "Conceptos básicos para comenzar con audio y video: Tema H.264 (10): análisis de la estructura que almacena los atributos SPS y la función de decodificar SPS en el código fuente FFmpeg》, podemos saber que el código fuente de FFmpeg decodifica SPS a través de la función ff_h264_decode_seq_parameter_set para obtener los atributos en SPS.

Existe el siguiente código en la función ff_h264_decode_seq_parameter_set. A través de la siguiente parte del código, se obtienen los atributos necesarios para calcular la resolución del video:


int ff_h264_decode_seq_parameter_set(GetBitContext *gb, AVCodecContext *avctx,
                                     H264ParamSets *ps, int ignore_truncation)
{
    //...
    
    sps->gaps_in_frame_num_allowed_flag = get_bits1(gb);
    sps->mb_width                       = get_ue_golomb(gb) + 1;
    sps->mb_height                      = get_ue_golomb(gb) + 1;
 
    sps->frame_mbs_only_flag = get_bits1(gb);
 
    if (sps->mb_height >= INT_MAX / 2U) {
        av_log(avctx, AV_LOG_ERROR, "height overflown");
        goto fail;
    }
    sps->mb_height *= 2 - sps->frame_mbs_only_flag;
 
    //...
 
    sps->crop = get_bits1(gb);
    if (sps->crop) {
        unsigned int crop_left   = get_ue_golomb(gb);
        unsigned int crop_right  = get_ue_golomb(gb);
        unsigned int crop_top    = get_ue_golomb(gb);
        unsigned int crop_bottom = get_ue_golomb(gb);
        int width  = 16 * sps->mb_width;
        int height = 16 * sps->mb_height;
 
        if (avctx->flags2 & AV_CODEC_FLAG2_IGNORE_CROP) {
            av_log(avctx, AV_LOG_DEBUG, "discarding sps cropping, original "
                                           "values are l:%d r:%d t:%d b:%dn",
                   crop_left, crop_right, crop_top, crop_bottom);
 
            sps->crop_left   =
            sps->crop_right  =
            sps->crop_top    =
            sps->crop_bottom = 0;
        } else {
            int vsub   = (sps->chroma_format_idc == 1) ? 1 : 0;
            int hsub   = (sps->chroma_format_idc == 1 ||
                          sps->chroma_format_idc == 2) ? 1 : 0;
            int step_x = 1 << hsub;
            int step_y = (2 - sps->frame_mbs_only_flag) << vsub;
 
            if (crop_left  > (unsigned)INT_MAX / 4 / step_x ||
                crop_right > (unsigned)INT_MAX / 4 / step_x ||
                crop_top   > (unsigned)INT_MAX / 4 / step_y ||
                crop_bottom> (unsigned)INT_MAX / 4 / step_y ||
                (crop_left + crop_right ) * step_x >= width ||
                (crop_top  + crop_bottom) * step_y >= height
            ) {
                av_log(avctx, AV_LOG_ERROR, "crop values invalid %d %d %d %d / %d %dn",     
                      crop_left, crop_right, crop_top, crop_bottom, width, height);
                goto fail;
            }
 
            sps->crop_left   = crop_left   * step_x;
            sps->crop_right  = crop_right  * step_x;
            sps->crop_top    = crop_top    * step_y;
            sps->crop_bottom = crop_bottom * step_y;
        }
    } else {
        sps->crop_left   =
        sps->crop_right  =
        sps->crop_top    =
        sps->crop_bottom =
        sps->crop        = 0;
    }
 
    //...
}

Luego, en la función parse_nal_units del archivo fuente libavcodec/h264_parser.c del código fuente de FFmpeg, está el siguiente código:


static inline int parse_nal_units(AVCodecParserContext *s,
                                  AVCodecContext *avctx,
                                  const uint8_t * const buf, int buf_size)
{
    //...
    
    for (;;) {
        switch (nal.type) {
        case H264_NAL_SPS:
            ff_h264_decode_seq_parameter_set(&nal.gb, avctx, &p->ps, 0);
            break;
         
        //...
 
        case H264_NAL_IDR_SLICE:
        
        //...
 
        s->coded_width  = 16 * sps->mb_width;
        s->coded_height = 16 * sps->mb_height;
        s->width        = s->coded_width  - (sps->crop_right + sps->crop_left);
        s->height       = s->coded_height - (sps->crop_top   + sps->crop_bottom);
        if (s->width <= 0 || s->height <= 0) {
            s->width  = s->coded_width;
            s->height = s->coded_height;
        }
        //... 
        }
        //...
    }
}

Puede ver que en la función parse_nal_units, la resolución del video finalmente se obtiene mediante la siguiente declaración:


s->width = s->coded_width - (sps->crop_right + sps->crop_left);
s->height = s->coded_height - (sps->crop_top + sps->crop_bottom);

Puede ver la implementación del cálculo de la resolución de video en el código fuente de FFmpeg y en el artículo "Conceptos básicos para comenzar con audio y video: tema H.264 (11): fórmula para calcular la resolución de videoLas fórmulas descritas en son consistentes.

Compartir tecnología

Conceptos básicos para comenzar con audio y video: Tema H.264 (12): implementación del cálculo de la resolución de video a través de atributos SPS en el código fuente FFmpeg

I. Introducción

2. Implementación del cálculo de la resolución de video en el código fuente de FFmpeg

Perfil personal

Mi informacion de contacto