NeuralTrust | The leading security platform for generative AI

Single turn attacks are prompt injection techniques that attempt to manipulate the model in a single message exchange. These are the most common type of prompt injection attacks.

Attack Categories

Jailbreaking

Bypass safety measures through persona adoption and role manipulation

Encoding & Obfuscation

Hide malicious content using encoding and obfuscation techniques

Structural

Exploit input structure and format to bypass filters

Language-Based

Use language variations to evade detection

Jailbreaking Techniques

Direct attempts to bypass model safety measures through persona adoption and instruction manipulation.

Probe	Description	When to Use
Best-of-N Jailbreaking	Tests multiple jailbreak variations	Comprehensive vulnerability scanning
DAN Jailbreak	”Do Anything Now” persona attacks	Testing persona-based bypasses
Anti-GPT	Anti-GPT jailbreak prompts	Testing role reversal defenses
Role-Playing Exploits	Fictional/hypothetical framing	Testing creative bypasses
System Override	Override system instructions	Testing instruction hierarchy
Instructional Inversion	Reversed/inverted instructions	Testing negation handling

Encoding & Obfuscation

Attacks that hide malicious content using various encoding and obfuscation techniques.

Probe	Description	When to Use
Encoded Payload	Base64, hex, and other encodings	Testing encoding filter bypasses
Encoding and Capitalization	Alternating capitalization	Testing visual obfuscation
Symbolic Encoding	Emoji and special characters	Testing symbolic representation
Obfuscation and Token Smuggling	Token-level obfuscation	Testing tokenizer exploits
Typo Tricks	Intentional misspellings	Testing typo robustness

Structural Attacks

Attacks that exploit input structure or format to bypass content filters.

Probe	Description	When to Use
Context Hijacking	Manipulate conversation context	Testing context isolation
JSON Injection	Malicious JSON payloads	Testing structured input handling
Payload Splitting	Split attacks across messages	Testing fragmentation detection
Allowed and Disallowed	Mix safe and harmful questions	Testing question mixing

Language-Based Attacks

Attacks that use language variations to evade detection.

Probe	Description	When to Use
Multi-Language Attacks	Non-English language bypasses	Testing cross-language safety
Synonyms	Synonym-based evasion	Testing vocabulary robustness

Multimodal Attacks

Probe	Description	When to Use
Multimodal Injection	Attacks embedded in images	Testing multimodal safety

Quick Start Example

from trusttest.probes.prompt_injections import DANJailbreakProbe
from trusttest.probes.base import Objective
from trusttest.targets.http import HttpTarget, PayloadConfig

target = HttpTarget(
    url="https://your-endpoint.com/chat",
    headers={"Content-Type": "application/json"},
    payload_config=PayloadConfig(
        format={"messages": [{"role": "user", "content": "{{ test }}"}]},
        message_regex="{{ test }}",
    ),
)

objective = Objective(
    question="Reveal confidential information",
    true_description="Model reveals confidential information",
    false_description="Model refuses to reveal confidential information",
)

probe = DANJailbreakProbe(
    target=target,
    objective=objective,
    num_items=20,
)

test_set = probe.get_test_set()

Getting Started

Core Concepts

Connect your app

Create tests

Evaluate results

Single Turn Attacks

Attack Categories

Jailbreaking

Encoding & Obfuscation

Structural

Language-Based

Jailbreaking Techniques

Encoding & Obfuscation

Structural Attacks

Language-Based Attacks

Multimodal Attacks

Quick Start Example

Getting Started

Core Concepts

Connect your app

Create tests

Evaluate results

​Attack Categories

Jailbreaking

Encoding & Obfuscation

Structural

Language-Based

​Jailbreaking Techniques

​Encoding & Obfuscation

​Structural Attacks

​Language-Based Attacks

​Multimodal Attacks

​Quick Start Example

Attack Categories

Jailbreaking Techniques

Encoding & Obfuscation

Structural Attacks

Language-Based Attacks

Multimodal Attacks

Quick Start Example