**Studi: Kasar ke ChatGPT Justru Bikin Jawabannya Lebih Akurat**
Studi terbaru menunjukkan bahwa menggunakan prompt 'kasar' atau sentimen negatif pada ChatGPT dan LLM lain dapat meningkatkan akurasi jawaban hingga lebih dari 46%.
JAKARTA, JClarity – Interaksi pengguna dengan Kecerdasan Buatan (AI) selama ini didominasi oleh kesopanan dan instruksi yang netral. Namun, sebuah studi terbaru dari ranah prompt engineering menunjukkan hasil yang kontraintuitif: memasukkan sentimen negatif atau instruksi yang tegas, bahkan terkesan 'kasar', dalam prompt yang diberikan kepada Model Bahasa Besar (LLM) seperti ChatGPT, justru dapat meningkatkan performa dan akurasi jawabannya.
Pendekatan yang dikenal sebagai NegativePrompt atau penggunaan stimulasi emosional negatif ini telah diuji pada lima LLM terkemuka, termasuk ChatGPT dan GPT-4. Para peneliti berhipotesis bahwa penyertaan kalimat yang menunjukkan tekanan atau kekecewaan, misalnya, dapat memicu pendekatan yang lebih hati-hati (cautious approach) dari model AI. Hal ini mendorong model untuk melakukan analisis yang lebih menyeluruh, pemahaman kontekstual yang lebih dalam, dan pada akhirnya, menghasilkan penilaian akurasi jawaban yang lebih baik.
Dalam pengujian eksperimental, strategi NegativePrompt ini dilaporkan mampu meningkatkan kinerja LLM secara signifikan. Peningkatan relatif yang tercatat mencapai 12,89% pada tugas Instruction Induction dan bahkan 46,25% pada tugas BIG-Bench tertentu, menunjukkan efektivitasnya dalam mendorong model untuk 'berusaha lebih keras'.
Meskipun demikian, temuan ini hadir dengan nuansa penting. Penelitian lain mengenai sentimen prompt menemukan bahwa penggunaan bahasa yang sarat emosi—baik negatif maupun positif—dapat mengurangi akurasi faktual dan berpotensi memperkuat bias yang ada dalam data pelatihan. Para peneliti menemukan bahwa model-model LLM umumnya memberikan respons paling akurat secara faktual ketika diinstruksikan dengan bahasa yang netral. Hal ini mengindikasikan bahwa sementara stimulasi negatif mungkin meningkatkan ketelitian pada tugas penalaran yang kompleks, kandungan emosional dapat mengganggu kemampuan model untuk pemanggilan dan penalaran informasi yang tepat.
Inti dari temuan ini bukan terletak pada 'perasaan' AI, melainkan pada bagaimana bahasa yang lebih mendesak atau kritis bertindak sebagai sinyal teknis yang memicu strategi pemrosesan yang berbeda dalam arsitektur LLM. Hasil studi ini menyoroti bahwa sentimen dalam prompt adalah penentu penting perilaku LLM, dan prompt engineering harus mempertimbangkan faktor-faktor psikologis, bukan hanya sintaksis, untuk mencapai output optimal.