Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization

Jaiswal, Sushma; Pallthadka, Harikumar; Chinhewadi, Rajesh P.; Jaiswal, Tarun

Acta graphica : znanstveni časopis za tiskarstvo i grafičke komunikacije, Vol. 32 No. 3, 2024.

Izvorni znanstveni članak

Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization

Sushma Jaiswal ; Guru Ghasidas Central University, Bilaspur (C.G.) *
Harikumar Pallthadka ; Manipur International University, Imphal, Manipur
Rajesh P. Chinhewadi ; Manipur International University, Imphal, Manipur
Tarun Jaiswal ; National Institute of Technology, Raipur (C.G.)

* Dopisni autor.

Puni tekst: engleski pdf 689 Kb

str. 130-138

preuzimanja: 0

citiraj

APA 6th Edition

Jaiswal, S., Pallthadka, H., Chinhewadi, R.P. i Jaiswal, T. (2024). Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization. Acta graphica, 32 (3), 130-138. Preuzeto s https://hrcak.srce.hr/index.php/324933

MLA 8th Edition

Jaiswal, Sushma, et al. "Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization." Acta graphica, vol. 32, br. 3, 2024, str. 130-138. https://hrcak.srce.hr/index.php/324933. Citirano 23.12.2024.

Chicago 17th Edition

Jaiswal, Sushma, Harikumar Pallthadka, Rajesh P. Chinhewadi i Tarun Jaiswal. "Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization." Acta graphica 32, br. 3 (2024): 130-138. https://hrcak.srce.hr/index.php/324933

Harvard

Jaiswal, S., et al. (2024). 'Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization', Acta graphica, 32(3), str. 130-138. Preuzeto s: https://hrcak.srce.hr/index.php/324933 (Datum pristupa: 23.12.2024.)

Vancouver

Jaiswal S, Pallthadka H, Chinhewadi RP, Jaiswal T. Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization. Acta graphica [Internet]. 2024 [pristupljeno 23.12.2024.];32(3):130-138. Dostupno na: https://hrcak.srce.hr/index.php/324933

IEEE

S. Jaiswal, H. Pallthadka, R.P. Chinhewadi i T. Jaiswal, "Hybrid Vision Transformers and CNNs for Enhanced Image Captioning with Beam Search Optimization", Acta graphica, vol.32, br. 3, str. 130-138, 2024. [Online]. Dostupno na: https://hrcak.srce.hr/index.php/324933. [Citirano: 23.12.2024.]

Sažetak

Deep learning has significantly advanced image captioning, with the Transformer, a neural network originally designed for natural language processing, excelling in this task and other computer vision applications. This paper provides a detailed review of Transformer-based image captioning methods. Traditional approaches relied on convolutional neural networks (CNNs) to extract image features and RNNs or LSTM networks to generate captions, but these methods often face information bottlenecks and difficulty capturing long-range dependencies. The Transformer architecture brought groundbreaking improvements to natural language processing with its attention mechanism and parallel processing, and researchers have successfully adapted this architecture to image captioning tasks.
Transformer-based image captioning systems now outperform previous methods in both accuracy and efficiency by integrating visual and textual data into a unified model. This paper explores how self-attention mechanisms and positional encodings in Transformers have been adapted for image captioning, and discusses the use of Vision Transformers (ViTs) and hybrid CNN-Transformer models. Additionally, it highlights the importance of pre-training, fine-tuning, and reinforcement learning for improving caption quality. The paper examines challenges such as multimodal fusion, aligning visual and textual information, and ensuring caption interpretability. Finally, it emphasizes how future research may expand the application of Transformer-based methods to areas like medical imaging and remote sensing, unlocking new possibilities for multimodal understanding and generation, and enhancing human-computer interaction.

Ključne riječi

CNN, LSTM, Image Caption, BLSTM, CNN.

Hrčak ID:

324933

URI

https://hrcak.srce.hr/324933

Datum izdavanja:

23.12.2024.

Posjeta: 0 *

Prijava i registracija

Acta graphica : znanstveni časopis za tiskarstvo i grafičke komunikacije, Vol. 32 No. 3, 2024.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja: