8 years ago · 7560070dcd
--- a/src/libespeak-ng/tokenizer.c
+++ b/src/libespeak-ng/tokenizer.c
@@ -95,9 +95,10 @@ typedef enum {
 	ESPEAKNG_CTYPE_FULL_STOP,
 	ESPEAKNG_CTYPE_QUESTION_MARK,
 	ESPEAKNG_CTYPE_EXCLAMATION_MARK,
 	ESPEAKNG_CTYPE_COMMA,
 } espeakng_CTYPE;

 #define ESPEAKNG_CTYPE_PROPERTY_MASK 0xE00000000000C001ull
 #define ESPEAKNG_CTYPE_PROPERTY_MASK 0xF00000000000C001ull

 // Reference: http://www.unicode.org/reports/tr14/tr14-32.html -- Unicode Line Breaking Algorithm
 static espeakng_CTYPE codepoint_type(uint32_t c)
@@ -142,6 +143,8 @@ static espeakng_CTYPE codepoint_type(uint32_t c)
 		return ESPEAKNG_CTYPE_QUESTION_MARK;
 	case ESPEAKNG_PROPERTY_EXCLAMATION_MARK:
 		return ESPEAKNG_CTYPE_EXCLAMATION_MARK;
 	case ESPEAKNG_PROPERTY_COMMA:
 		return ESPEAKNG_CTYPE_COMMA;
 	}

 	// 4. Classify the remaining codepoints.
@@ -285,6 +288,10 @@ tokenizer_state_default(espeak_ng_TOKENIZER *tokenizer)
 		current += utf8_out(c, current);
 		*current = '\0';
 		return ESPEAKNG_TOKEN_EXCLAMATION_MARK;
 	case ESPEAKNG_CTYPE_COMMA:
 		current += utf8_out(c, current);
 		*current = '\0';
 		return ESPEAKNG_TOKEN_COMMA;
 	default:
 		current += utf8_out(c, current);
 		*current = '\0';
--- a/src/libespeak-ng/tokenizer.h
+++ b/src/libespeak-ng/tokenizer.h
@@ -54,6 +54,7 @@ typedef enum
 	ESPEAKNG_TOKEN_FULL_STOP,
 	ESPEAKNG_TOKEN_QUESTION_MARK,
 	ESPEAKNG_TOKEN_EXCLAMATION_MARK,
 	ESPEAKNG_TOKEN_COMMA,
 } espeak_ng_TOKEN_TYPE;

 espeak_ng_TOKEN_TYPE
--- a/tests/tokenizer.c
+++ b/tests/tokenizer.c
@@ -465,7 +465,7 @@ test_Latn_punctuation_tokens()
 	espeak_ng_TOKENIZER *tokenizer = create_tokenizer();
 	espeak_ng_TEXT_DECODER *decoder = create_text_decoder();

 	assert(text_decoder_decode_string(decoder, ". ? !", -1, ESPEAKNG_ENCODING_US_ASCII) == ENS_OK);
 	assert(text_decoder_decode_string(decoder, ". ? ! ,", -1, ESPEAKNG_ENCODING_US_ASCII) == ENS_OK);
 	assert(tokenizer_reset(tokenizer, decoder, ESPEAKNG_TOKENIZER_OPTION_TEXT) == 1);

 	assert(tokenizer_read_next_token(tokenizer) == ESPEAKNG_TOKEN_FULL_STOP);
@@ -488,6 +488,14 @@ test_Latn_punctuation_tokens()
 	assert(tokenizer_get_token_text(tokenizer) != NULL);
 	assert(strcmp(tokenizer_get_token_text(tokenizer), "!") == 0);

 	assert(tokenizer_read_next_token(tokenizer) == ESPEAKNG_TOKEN_WHITESPACE);
 	assert(tokenizer_get_token_text(tokenizer) != NULL);
 	assert(strcmp(tokenizer_get_token_text(tokenizer), " ") == 0);

 	assert(tokenizer_read_next_token(tokenizer) == ESPEAKNG_TOKEN_COMMA);
 	assert(tokenizer_get_token_text(tokenizer) != NULL);
 	assert(strcmp(tokenizer_get_token_text(tokenizer), ",") == 0);

 	assert(tokenizer_read_next_token(tokenizer) == ESPEAKNG_TOKEN_END_OF_BUFFER);
 	assert(tokenizer_get_token_text(tokenizer) != NULL);
 	assert(*tokenizer_get_token_text(tokenizer) == '\0');
@@ -586,6 +594,9 @@ print_tokens(espeak_ng_TEXT_DECODER *decoder)
 	case ESPEAKNG_TOKEN_EXCLAMATION_MARK:
 		printf("exclamation mark   : %s\n", tokenizer_get_token_text(tokenizer));
 		break;
 	case ESPEAKNG_TOKEN_COMMA:
 		printf("comma              : %s\n", tokenizer_get_token_text(tokenizer));
 		break;
 	}
 }