0000: 2f 2a 0a 2a 2a 20 32 30 31 32 20 4d 61 79 20 32 /*.** 2012 May 2
0010: 34 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74 68 4.**.** The auth
0020: 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f 70 or disclaims cop
0030: 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20 73 yright to this s
0040: 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e 20 ource code. In
0050: 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c 65 place of.** a le
0060: 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72 65 gal notice, here
0070: 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a 0a is a blessing:.
0080: 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f 75 **.** May you
0090: 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f 74 do good and not
00a0: 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61 79 evil..** May
00b0: 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69 76 you find forgiv
00c0: 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73 65 eness for yourse
00d0: 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20 6f lf and forgive o
00e0: 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61 79 thers..** May
00f0: 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65 6c you share freel
0100: 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67 20 y, never taking
0110: 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67 69 more than you gi
0120: 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a ve..**.*********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a ****************
0170: 2a 2a 2a 2a 2a 0a 2a 2a 0a 2a 2a 20 49 6d 70 6c *****.**.** Impl
0180: 65 6d 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 ementation of th
0190: 65 20 22 75 6e 69 63 6f 64 65 22 20 66 75 6c 6c e "unicode" full
01a0: 2d 74 65 78 74 2d 73 65 61 72 63 68 20 74 6f 6b -text-search tok
01b0: 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 0a 23 69 66 64 enizer..*/..#ifd
01c0: 65 66 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 ef SQLITE_ENABLE
01d0: 5f 46 54 53 34 5f 55 4e 49 43 4f 44 45 36 31 0a _FTS4_UNICODE61.
01e0: 0a 23 69 6e 63 6c 75 64 65 20 22 66 74 73 33 49 .#include "fts3I
01f0: 6e 74 2e 68 22 0a 23 69 66 20 21 64 65 66 69 6e nt.h".#if !defin
0200: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20 ed(SQLITE_CORE)
0210: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54 || defined(SQLIT
0220: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 29 0a 0a E_ENABLE_FTS3)..
0230: 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72 74 #include <assert
0240: 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73 74 .h>.#include <st
0250: 64 6c 69 62 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 dlib.h>.#include
0260: 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e 63 6c <stdio.h>.#incl
0270: 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e 0a 0a ude <string.h>..
0280: 23 69 6e 63 6c 75 64 65 20 22 66 74 73 33 5f 74 #include "fts3_t
0290: 6f 6b 65 6e 69 7a 65 72 2e 68 22 0a 0a 2f 2a 0a okenizer.h"../*.
02a0: 2a 2a 20 54 68 65 20 66 6f 6c 6c 6f 77 69 6e 67 ** The following
02b0: 20 74 77 6f 20 6d 61 63 72 6f 73 20 2d 20 52 45 two macros - RE
02c0: 41 44 5f 55 54 46 38 20 61 6e 64 20 57 52 49 54 AD_UTF8 and WRIT
02d0: 45 5f 55 54 46 38 20 2d 20 68 61 76 65 20 62 65 E_UTF8 - have be
02e0: 65 6e 20 63 6f 70 69 65 64 0a 2a 2a 20 66 72 6f en copied.** fro
02f0: 6d 20 74 68 65 20 73 71 6c 69 74 65 33 20 73 6f m the sqlite3 so
0300: 75 72 63 65 20 66 69 6c 65 20 75 74 66 2e 63 2e urce file utf.c.
0310: 20 49 66 20 74 68 69 73 20 66 69 6c 65 20 69 73 If this file is
0320: 20 63 6f 6d 70 69 6c 65 64 20 61 73 20 70 61 72 compiled as par
0330: 74 0a 2a 2a 20 6f 66 20 74 68 65 20 61 6d 61 6c t.** of the amal
0340: 67 61 6d 61 74 69 6f 6e 2c 20 74 68 65 79 20 61 gamation, they a
0350: 72 65 20 6e 6f 74 20 72 65 71 75 69 72 65 64 2e re not required.
0360: 0a 2a 2f 0a 23 69 66 6e 64 65 66 20 53 51 4c 49 .*/.#ifndef SQLI
0370: 54 45 5f 41 4d 41 4c 47 41 4d 41 54 49 4f 4e 0a TE_AMALGAMATION.
0380: 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 75 6e .static const un
0390: 73 69 67 6e 65 64 20 63 68 61 72 20 73 71 6c 69 signed char sqli
03a0: 74 65 33 55 74 66 38 54 72 61 6e 73 31 5b 5d 20 te3Utf8Trans1[]
03b0: 3d 20 7b 0a 20 20 30 78 30 30 2c 20 30 78 30 31 = {. 0x00, 0x01
03c0: 2c 20 30 78 30 32 2c 20 30 78 30 33 2c 20 30 78 , 0x02, 0x03, 0x
03d0: 30 34 2c 20 30 78 30 35 2c 20 30 78 30 36 2c 20 04, 0x05, 0x06,
03e0: 30 78 30 37 2c 0a 20 20 30 78 30 38 2c 20 30 78 0x07,. 0x08, 0x
03f0: 30 39 2c 20 30 78 30 61 2c 20 30 78 30 62 2c 20 09, 0x0a, 0x0b,
0400: 30 78 30 63 2c 20 30 78 30 64 2c 20 30 78 30 65 0x0c, 0x0d, 0x0e
0410: 2c 20 30 78 30 66 2c 0a 20 20 30 78 31 30 2c 20 , 0x0f,. 0x10,
0420: 30 78 31 31 2c 20 30 78 31 32 2c 20 30 78 31 33 0x11, 0x12, 0x13
0430: 2c 20 30 78 31 34 2c 20 30 78 31 35 2c 20 30 78 , 0x14, 0x15, 0x
0440: 31 36 2c 20 30 78 31 37 2c 0a 20 20 30 78 31 38 16, 0x17,. 0x18
0450: 2c 20 30 78 31 39 2c 20 30 78 31 61 2c 20 30 78 , 0x19, 0x1a, 0x
0460: 31 62 2c 20 30 78 31 63 2c 20 30 78 31 64 2c 20 1b, 0x1c, 0x1d,
0470: 30 78 31 65 2c 20 30 78 31 66 2c 0a 20 20 30 78 0x1e, 0x1f,. 0x
0480: 30 30 2c 20 30 78 30 31 2c 20 30 78 30 32 2c 20 00, 0x01, 0x02,
0490: 30 78 30 33 2c 20 30 78 30 34 2c 20 30 78 30 35 0x03, 0x04, 0x05
04a0: 2c 20 30 78 30 36 2c 20 30 78 30 37 2c 0a 20 20 , 0x06, 0x07,.
04b0: 30 78 30 38 2c 20 30 78 30 39 2c 20 30 78 30 61 0x08, 0x09, 0x0a
04c0: 2c 20 30 78 30 62 2c 20 30 78 30 63 2c 20 30 78 , 0x0b, 0x0c, 0x
04d0: 30 64 2c 20 30 78 30 65 2c 20 30 78 30 66 2c 0a 0d, 0x0e, 0x0f,.
04e0: 20 20 30 78 30 30 2c 20 30 78 30 31 2c 20 30 78 0x00, 0x01, 0x
04f0: 30 32 2c 20 30 78 30 33 2c 20 30 78 30 34 2c 20 02, 0x03, 0x04,
0500: 30 78 30 35 2c 20 30 78 30 36 2c 20 30 78 30 37 0x05, 0x06, 0x07
0510: 2c 0a 20 20 30 78 30 30 2c 20 30 78 30 31 2c 20 ,. 0x00, 0x01,
0520: 30 78 30 32 2c 20 30 78 30 33 2c 20 30 78 30 30 0x02, 0x03, 0x00
0530: 2c 20 30 78 30 31 2c 20 30 78 30 30 2c 20 30 78 , 0x01, 0x00, 0x
0540: 30 30 2c 0a 7d 3b 0a 0a 23 64 65 66 69 6e 65 20 00,.};..#define
0550: 52 45 41 44 5f 55 54 46 38 28 7a 49 6e 2c 20 7a READ_UTF8(zIn, z
0560: 54 65 72 6d 2c 20 63 29 20 20 20 20 20 20 20 20 Term, c)
0570: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0580: 20 20 20 5c 0a 20 20 63 20 3d 20 2a 28 7a 49 6e \. c = *(zIn
0590: 2b 2b 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 ++);
05a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
05b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
05c0: 5c 0a 20 20 69 66 28 20 63 3e 3d 30 78 63 30 20 \. if( c>=0xc0
05d0: 29 7b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 ){
05e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
05f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 \.
0600: 20 20 20 63 20 3d 20 73 71 6c 69 74 65 33 55 74 c = sqlite3Ut
0610: 66 38 54 72 61 6e 73 31 5b 63 2d 30 78 63 30 5d f8Trans1[c-0xc0]
0620: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 ;
0630: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20 \.
0640: 77 68 69 6c 65 28 20 7a 49 6e 21 3d 7a 54 65 72 while( zIn!=zTer
0650: 6d 20 26 26 20 28 2a 7a 49 6e 20 26 20 30 78 63 m && (*zIn & 0xc
0660: 30 29 3d 3d 30 78 38 30 20 29 7b 20 20 20 20 20 0)==0x80 ){
0670: 20 20 20 20 20 20 20 5c 0a 20 20 20 20 20 20 63 \. c
0680: 20 3d 20 28 63 3c 3c 36 29 20 2b 20 28 30 78 33 = (c<<6) + (0x3
0690: 66 20 26 20 2a 28 7a 49 6e 2b 2b 29 29 3b 20 20 f & *(zIn++));
06a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
06b0: 20 20 20 20 5c 0a 20 20 20 20 7d 20 20 20 20 20 \. }
06c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
06d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
06e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
06f0: 20 5c 0a 20 20 20 20 69 66 28 20 63 3c 30 78 38 \. if( c<0x8
0700: 30 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 0
0710: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0720: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a \.
0730: 20 20 20 20 20 20 20 20 7c 7c 20 28 63 26 30 78 || (c&0x
0740: 46 46 46 46 46 38 30 30 29 3d 3d 30 78 44 38 30 FFFFF800)==0xD80
0750: 30 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 0
0760: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 \.
0770: 20 20 20 20 20 7c 7c 20 28 63 26 30 78 46 46 46 || (c&0xFFF
0780: 46 46 46 46 45 29 3d 3d 30 78 46 46 46 45 20 29 FFFFE)==0xFFFE )
0790: 7b 20 20 63 20 3d 20 30 78 46 46 46 44 3b 20 7d { c = 0xFFFD; }
07a0: 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 0a 0a 23 \. }..#
07b0: 64 65 66 69 6e 65 20 57 52 49 54 45 5f 55 54 46 define WRITE_UTF
07c0: 38 28 7a 4f 75 74 2c 20 63 29 20 7b 20 20 20 20 8(zOut, c) {
07d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
07e0: 20 20 20 20 20 20 5c 0a 20 20 69 66 28 20 63 3c \. if( c<
07f0: 30 78 30 30 30 38 30 20 29 7b 20 20 20 20 20 20 0x00080 ){
0800: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c \
0820: 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 28 . *zOut++ = (
0830: 75 38 29 28 63 26 30 78 46 46 29 3b 20 20 20 20 u8)(c&0xFF);
0840: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0850: 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 20 20 20 \. }
0860: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0870: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0880: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0890: 20 5c 0a 20 20 65 6c 73 65 20 69 66 28 20 63 3c \. else if( c<
08a0: 30 78 30 30 38 30 30 20 29 7b 20 20 20 20 20 20 0x00800 ){
08b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
08c0: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20 \.
08d0: 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 43 30 20 2b *zOut++ = 0xC0 +
08e0: 20 28 75 38 29 28 28 63 3e 3e 36 29 26 30 78 31 (u8)((c>>6)&0x1
08f0: 46 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 F);
0900: 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b \. *zOut++
0910: 20 3d 20 30 78 38 30 20 2b 20 28 75 38 29 28 63 = 0x80 + (u8)(c
0920: 20 26 20 30 78 33 46 29 3b 20 20 20 20 20 20 20 & 0x3F);
0930: 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 \.
0940: 7d 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 }
0950: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0960: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0970: 20 20 20 20 20 5c 0a 20 20 65 6c 73 65 20 69 66 \. else if
0980: 28 20 63 3c 30 78 31 30 30 30 30 20 29 7b 20 20 ( c<0x10000 ){
0990: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
09a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a \.
09b0: 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 *zOut++ = 0x
09c0: 45 30 20 2b 20 28 75 38 29 28 28 63 3e 3e 31 32 E0 + (u8)((c>>12
09d0: 29 26 30 78 30 46 29 3b 20 20 20 20 20 20 20 20 )&0x0F);
09e0: 20 20 20 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f \. *zO
09f0: 75 74 2b 2b 20 3d 20 30 78 38 30 20 2b 20 28 75 ut++ = 0x80 + (u
0a00: 38 29 28 28 63 3e 3e 36 29 20 26 20 30 78 33 46 8)((c>>6) & 0x3F
0a10: 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 );
0a20: 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 \. *zOut++ =
0a30: 30 78 38 30 20 2b 20 28 75 38 29 28 63 20 26 20 0x80 + (u8)(c &
0a40: 30 78 33 46 29 3b 20 20 20 20 20 20 20 20 20 20 0x3F);
0a50: 20 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 65 6c \. }el
0a60: 73 65 7b 20 20 20 20 20 20 20 20 20 20 20 20 20 se{
0a70: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0a80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0a90: 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 \. *zOut++
0aa0: 3d 20 30 78 46 30 20 2b 20 28 75 38 29 28 28 63 = 0xF0 + (u8)((c
0ab0: 3e 3e 31 38 29 20 26 20 30 78 30 37 29 3b 20 20 >>18) & 0x07);
0ac0: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 \.
0ad0: 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38 30 20 *zOut++ = 0x80
0ae0: 2b 20 28 75 38 29 28 28 63 3e 3e 31 32 29 20 26 + (u8)((c>>12) &
0af0: 20 30 78 33 46 29 3b 20 20 20 20 20 20 20 20 20 0x3F);
0b00: 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b \. *zOut+
0b10: 2b 20 3d 20 30 78 38 30 20 2b 20 28 75 38 29 28 + = 0x80 + (u8)(
0b20: 28 63 3e 3e 36 29 20 26 20 30 78 33 46 29 3b 20 (c>>6) & 0x3F);
0b30: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 \.
0b40: 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38 *zOut++ = 0x8
0b50: 30 20 2b 20 28 75 38 29 28 63 20 26 20 30 78 33 0 + (u8)(c & 0x3
0b60: 46 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 F);
0b70: 20 20 20 20 20 20 5c 0a 20 20 7d 20 20 20 20 20 \. }
0b80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0b90: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0ba0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c \
0bb0: 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 69 66 .}..#endif /* if
0bc0: 6e 64 65 66 20 53 51 4c 49 54 45 5f 41 4d 41 4c ndef SQLITE_AMAL
0bd0: 47 41 4d 41 54 49 4f 4e 20 2a 2f 0a 0a 74 79 70 GAMATION */..typ
0be0: 65 64 65 66 20 73 74 72 75 63 74 20 75 6e 69 63 edef struct unic
0bf0: 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 75 6e ode_tokenizer un
0c00: 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 3b icode_tokenizer;
0c10: 0a 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 .typedef struct
0c20: 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 75 unicode_cursor u
0c30: 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 3b 0a 0a nicode_cursor;..
0c40: 73 74 72 75 63 74 20 75 6e 69 63 6f 64 65 5f 74 struct unicode_t
0c50: 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c okenizer {. sql
0c60: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62 ite3_tokenizer b
0c70: 61 73 65 3b 0a 20 20 69 6e 74 20 62 52 65 6d 6f ase;. int bRemo
0c80: 76 65 44 69 61 63 72 69 74 69 63 3b 0a 20 20 69 veDiacritic;. i
0c90: 6e 74 20 6e 45 78 63 65 70 74 69 6f 6e 3b 0a 20 nt nException;.
0ca0: 20 69 6e 74 20 2a 61 69 45 78 63 65 70 74 69 6f int *aiExceptio
0cb0: 6e 3b 0a 7d 3b 0a 0a 73 74 72 75 63 74 20 75 6e n;.};..struct un
0cc0: 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 7b 0a 20 icode_cursor {.
0cd0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a sqlite3_tokeniz
0ce0: 65 72 5f 63 75 72 73 6f 72 20 62 61 73 65 3b 0a er_cursor base;.
0cf0: 20 20 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 const unsigned
0d00: 20 63 68 61 72 20 2a 61 49 6e 70 75 74 3b 20 20 char *aInput;
0d10: 20 20 2f 2a 20 49 6e 70 75 74 20 74 65 78 74 20 /* Input text
0d20: 62 65 69 6e 67 20 74 6f 6b 65 6e 69 7a 65 64 20 being tokenized
0d30: 2a 2f 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 3b */. int nInput;
0d40: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0d50: 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 6f 66 20 /* Size of
0d60: 61 49 6e 70 75 74 5b 5d 20 69 6e 20 62 79 74 65 aInput[] in byte
0d70: 73 20 2a 2f 0a 20 20 69 6e 74 20 69 4f 66 66 3b s */. int iOff;
0d80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
0d90: 20 20 20 20 20 20 20 2f 2a 20 43 75 72 72 65 6e /* Curren
0da0: 74 20 6f 66 66 73 65 74 20 77 69 74 68 69 6e 20 t offset within
0db0: 61 49 6e 70 75 74 5b 5d 20 2a 2f 0a 20 20 69 6e aInput[] */. in
0dc0: 74 20 69 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 t iToken;
0dd0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a /*
0de0: 20 49 6e 64 65 78 20 6f 66 20 6e 65 78 74 20 74 Index of next t
0df0: 6f 6b 65 6e 20 74 6f 20 62 65 20 72 65 74 75 72 oken to be retur
0e00: 6e 65 64 20 2a 2f 0a 20 20 63 68 61 72 20 2a 7a ned */. char *z
0e10: 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20 20 20 Token;
0e20: 20 20 20 20 20 20 20 20 20 2f 2a 20 73 74 6f 72 /* stor
0e30: 61 67 65 20 66 6f 72 20 63 75 72 72 65 6e 74 20 age for current
0e40: 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 6e token */. int n
0e50: 41 6c 6c 6f 63 3b 20 20 20 20 20 20 20 20 20 20 Alloc;
0e60: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 73 70 /* sp
0e70: 61 63 65 20 61 6c 6c 6f 63 61 74 65 64 20 61 74 ace allocated at
0e80: 20 7a 54 6f 6b 65 6e 20 2a 2f 0a 7d 3b 0a 0a 0a zToken */.};...
0e90: 2f 2a 0a 2a 2a 20 44 65 73 74 72 6f 79 20 61 20 /*.** Destroy a
0ea0: 74 6f 6b 65 6e 69 7a 65 72 20 61 6c 6c 6f 63 61 tokenizer alloca
0eb0: 74 65 64 20 62 79 20 75 6e 69 63 6f 64 65 43 72 ted by unicodeCr
0ec0: 65 61 74 65 28 29 2e 0a 2a 2f 0a 73 74 61 74 69 eate()..*/.stati
0ed0: 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 44 65 73 c int unicodeDes
0ee0: 74 72 6f 79 28 73 71 6c 69 74 65 33 5f 74 6f 6b troy(sqlite3_tok
0ef0: 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65 6e 69 7a enizer *pTokeniz
0f00: 65 72 29 7b 0a 20 20 69 66 28 20 70 54 6f 6b 65 er){. if( pToke
0f10: 6e 69 7a 65 72 20 29 7b 0a 20 20 20 20 75 6e 69 nizer ){. uni
0f20: 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a code_tokenizer *
0f30: 70 20 3d 20 28 75 6e 69 63 6f 64 65 5f 74 6f 6b p = (unicode_tok
0f40: 65 6e 69 7a 65 72 20 2a 29 70 54 6f 6b 65 6e 69 enizer *)pTokeni
0f50: 7a 65 72 3b 0a 20 20 20 20 73 71 6c 69 74 65 33 zer;. sqlite3
0f60: 5f 66 72 65 65 28 70 2d 3e 61 69 45 78 63 65 70 _free(p->aiExcep
0f70: 74 69 6f 6e 29 3b 0a 20 20 20 20 73 71 6c 69 74 tion);. sqlit
0f80: 65 33 5f 66 72 65 65 28 70 29 3b 0a 20 20 7d 0a e3_free(p);. }.
0f90: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f return SQLITE_
0fa0: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 41 73 20 OK;.}../*.** As
0fb0: 70 61 72 74 20 6f 66 20 61 20 74 6f 6b 65 6e 63 part of a tokenc
0fc0: 68 61 72 73 3d 20 6f 72 20 73 65 70 61 72 61 74 hars= or separat
0fd0: 6f 72 73 3d 20 6f 70 74 69 6f 6e 2c 20 74 68 65 ors= option, the
0fe0: 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 CREATE VIRTUAL
0ff0: 54 41 42 4c 45 0a 2a 2a 20 73 74 61 74 65 6d 65 TABLE.** stateme
1000: 6e 74 20 68 61 73 20 73 70 65 63 69 66 69 65 64 nt has specified
1010: 20 74 68 61 74 20 74 68 65 20 74 6f 6b 65 6e 69 that the tokeni
1020: 7a 65 72 20 66 6f 72 20 74 68 69 73 20 74 61 62 zer for this tab
1030: 6c 65 20 73 68 61 6c 6c 20 63 6f 6e 73 69 64 65 le shall conside
1040: 72 0a 2a 2a 20 61 6c 6c 20 63 68 61 72 61 63 74 r.** all charact
1050: 65 72 73 20 69 6e 20 73 74 72 69 6e 67 20 7a 49 ers in string zI
1060: 6e 2f 6e 49 6e 20 74 6f 20 62 65 20 73 65 70 61 n/nIn to be sepa
1070: 72 61 74 6f 72 73 20 28 69 66 20 62 41 6c 6e 75 rators (if bAlnu
1080: 6d 3d 3d 30 29 20 6f 72 0a 2a 2a 20 74 6f 6b 65 m==0) or.** toke
1090: 6e 20 63 68 61 72 61 63 74 65 72 73 20 28 69 66 n characters (if
10a0: 20 62 41 6c 6e 75 6d 3d 3d 31 29 2e 0a 2a 2a 0a bAlnum==1)..**.
10b0: 2a 2a 20 46 6f 72 20 65 61 63 68 20 63 6f 64 65 ** For each code
10c0: 70 6f 69 6e 74 20 69 6e 20 74 68 65 20 7a 49 6e point in the zIn
10d0: 2f 6e 49 6e 20 73 74 72 69 6e 67 2c 20 74 68 69 /nIn string, thi
10e0: 73 20 66 75 6e 63 74 69 6f 6e 20 63 68 65 63 6b s function check
10f0: 73 20 69 66 20 74 68 65 0a 2a 2a 20 73 71 6c 69 s if the.** sqli
1100: 74 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73 61 te3FtsUnicodeIsa
1110: 6c 6e 75 6d 28 29 20 66 75 6e 63 74 69 6f 6e 20 lnum() function
1120: 61 6c 72 65 61 64 79 20 72 65 74 75 72 6e 73 20 already returns
1130: 74 68 65 20 64 65 73 69 72 65 64 20 72 65 73 75 the desired resu
1140: 6c 74 2e 0a 2a 2a 20 49 66 20 73 6f 2c 20 6e 6f lt..** If so, no
1150: 20 61 63 74 69 6f 6e 20 69 73 20 74 61 6b 65 6e action is taken
1160: 2e 20 4f 74 68 65 72 77 69 73 65 2c 20 74 68 65 . Otherwise, the
1170: 20 63 6f 64 65 70 6f 69 6e 74 20 69 73 20 61 64 codepoint is ad
1180: 64 65 64 20 74 6f 20 74 68 65 20 0a 2a 2a 20 75 ded to the .** u
1190: 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 nicode_tokenizer
11a0: 2e 61 69 45 78 63 65 70 74 69 6f 6e 5b 5d 20 61 .aiException[] a
11b0: 72 72 61 79 2e 20 46 6f 72 20 74 68 65 20 70 75 rray. For the pu
11c0: 72 70 6f 73 65 73 20 6f 66 20 74 6f 6b 65 6e 69 rposes of tokeni
11d0: 7a 61 74 69 6f 6e 2c 0a 2a 2a 20 74 68 65 20 72 zation,.** the r
11e0: 65 74 75 72 6e 20 76 61 6c 75 65 20 6f 66 20 73 eturn value of s
11f0: 71 6c 69 74 65 33 46 74 73 55 6e 69 63 6f 64 65 qlite3FtsUnicode
1200: 49 73 61 6c 6e 75 6d 28 29 20 69 73 20 69 6e 76 Isalnum() is inv
1210: 65 72 74 65 64 20 66 6f 72 20 61 6c 6c 0a 2a 2a erted for all.**
1220: 20 63 6f 64 65 70 6f 69 6e 74 73 20 69 6e 20 74 codepoints in t
1230: 68 65 20 61 69 45 78 63 65 70 74 69 6f 6e 5b 5d he aiException[]
1240: 20 61 72 72 61 79 2e 0a 2a 2a 0a 2a 2a 20 49 66 array..**.** If
1250: 20 61 20 73 74 61 6e 64 61 6c 6f 6e 65 20 64 69 a standalone di
1260: 61 63 72 69 74 69 63 20 6d 61 72 6b 20 28 6f 6e acritic mark (on
1270: 65 20 74 68 61 74 20 73 71 6c 69 74 65 33 46 74 e that sqlite3Ft
1280: 73 55 6e 69 63 6f 64 65 49 73 64 69 61 63 72 69 sUnicodeIsdiacri
1290: 74 69 63 28 29 0a 2a 2a 20 69 64 65 6e 74 69 66 tic().** identif
12a0: 69 65 73 20 61 73 20 61 20 64 69 61 63 72 69 74 ies as a diacrit
12b0: 69 63 29 20 6f 63 63 75 72 73 20 69 6e 20 74 68 ic) occurs in th
12c0: 65 20 7a 49 6e 2f 6e 49 6e 20 73 74 72 69 6e 67 e zIn/nIn string
12d0: 20 69 74 20 69 73 20 69 67 6e 6f 72 65 64 2e 0a it is ignored..
12e0: 2a 2a 20 49 74 20 69 73 20 6e 6f 74 20 70 6f 73 ** It is not pos
12f0: 73 69 62 6c 65 20 74 6f 20 63 68 61 6e 67 65 20 sible to change
1300: 74 68 65 20 62 65 68 61 76 69 6f 75 72 20 6f 66 the behaviour of
1310: 20 74 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 77 the tokenizer w
1320: 69 74 68 20 72 65 73 70 65 63 74 0a 2a 2a 20 74 ith respect.** t
1330: 6f 20 74 68 65 73 65 20 63 6f 64 65 70 6f 69 6e o these codepoin
1340: 74 73 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e ts..*/.static in
1350: 74 20 75 6e 69 63 6f 64 65 41 64 64 45 78 63 65 t unicodeAddExce
1360: 70 74 69 6f 6e 73 28 0a 20 20 75 6e 69 63 6f 64 ptions(. unicod
1370: 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c 20 e_tokenizer *p,
1380: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 54 6f 6b /* Tok
1390: 65 6e 69 7a 65 72 20 74 6f 20 61 64 64 20 65 78 enizer to add ex
13a0: 63 65 70 74 69 6f 6e 73 20 74 6f 20 2a 2f 0a 20 ceptions to */.
13b0: 20 69 6e 74 20 62 41 6c 6e 75 6d 2c 20 20 20 20 int bAlnum,
13c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
13d0: 20 2f 2a 20 52 65 70 6c 61 63 65 20 49 73 61 6c /* Replace Isal
13e0: 6e 75 6d 28 29 20 72 65 74 75 72 6e 20 76 61 6c num() return val
13f0: 75 65 20 77 69 74 68 20 74 68 69 73 20 2a 2f 0a ue with this */.
1400: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 49 const char *zI
1410: 6e 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 n,
1420: 20 20 2f 2a 20 41 72 72 61 79 20 6f 66 20 63 68 /* Array of ch
1430: 61 72 61 63 74 65 72 73 20 74 6f 20 6d 61 6b 65 aracters to make
1440: 20 65 78 63 65 70 74 69 6f 6e 73 20 2a 2f 0a 20 exceptions */.
1450: 20 69 6e 74 20 6e 49 6e 20 20 20 20 20 20 20 20 int nIn
1460: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
1470: 20 2f 2a 20 4c 65 6e 67 74 68 20 6f 66 20 7a 20 /* Length of z
1480: 69 6e 20 62 79 74 65 73 20 2a 2f 0a 29 7b 0a 20 in bytes */.){.
1490: 20 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 const unsigned
14a0: 63 68 61 72 20 2a 7a 20 3d 20 28 63 6f 6e 73 74 char *z = (const
14b0: 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a unsigned char *
14c0: 29 7a 49 6e 3b 0a 20 20 63 6f 6e 73 74 20 75 6e )zIn;. const un
14d0: 73 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 54 65 signed char *zTe
14e0: 72 6d 20 3d 20 26 7a 5b 6e 49 6e 5d 3b 0a 20 20 rm = &z[nIn];.
14f0: 69 6e 74 20 69 43 6f 64 65 3b 0a 20 20 69 6e 74 int iCode;. int
1500: 20 6e 45 6e 74 72 79 20 3d 20 30 3b 0a 0a 20 20 nEntry = 0;..
1510: 61 73 73 65 72 74 28 20 62 41 6c 6e 75 6d 3d 3d assert( bAlnum==
1520: 30 20 7c 7c 20 62 41 6c 6e 75 6d 3d 3d 31 20 29 0 || bAlnum==1 )
1530: 3b 0a 0a 20 20 77 68 69 6c 65 28 20 7a 3c 7a 54 ;.. while( z<zT
1540: 65 72 6d 20 29 7b 0a 20 20 20 20 52 45 41 44 5f erm ){. READ_
1550: 55 54 46 38 28 7a 2c 20 7a 54 65 72 6d 2c 20 69 UTF8(z, zTerm, i
1560: 43 6f 64 65 29 3b 0a 20 20 20 20 61 73 73 65 72 Code);. asser
1570: 74 28 20 28 73 71 6c 69 74 65 33 46 74 73 55 6e t( (sqlite3FtsUn
1580: 69 63 6f 64 65 49 73 61 6c 6e 75 6d 28 69 43 6f icodeIsalnum(iCo
1590: 64 65 29 20 26 20 30 78 46 46 46 46 46 46 46 45 de) & 0xFFFFFFFE
15a0: 29 3d 3d 30 20 29 3b 0a 20 20 20 20 69 66 28 20 )==0 );. if(
15b0: 73 71 6c 69 74 65 33 46 74 73 55 6e 69 63 6f 64 sqlite3FtsUnicod
15c0: 65 49 73 61 6c 6e 75 6d 28 69 43 6f 64 65 29 21 eIsalnum(iCode)!
15d0: 3d 62 41 6c 6e 75 6d 20 0a 20 20 20 20 20 26 26 =bAlnum . &&
15e0: 20 73 71 6c 69 74 65 33 46 74 73 55 6e 69 63 6f sqlite3FtsUnico
15f0: 64 65 49 73 64 69 61 63 72 69 74 69 63 28 69 43 deIsdiacritic(iC
1600: 6f 64 65 29 3d 3d 30 20 0a 20 20 20 20 29 7b 0a ode)==0 . ){.
1610: 20 20 20 20 20 20 6e 45 6e 74 72 79 2b 2b 3b 0a nEntry++;.
1620: 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 69 66 28 }. }.. if(
1630: 20 6e 45 6e 74 72 79 20 29 7b 0a 20 20 20 20 69 nEntry ){. i
1640: 6e 74 20 2a 61 4e 65 77 3b 20 20 20 20 20 20 20 nt *aNew;
1650: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 /*
1660: 4e 65 77 20 61 69 45 78 63 65 70 74 69 6f 6e 5b New aiException[
1670: 5d 20 61 72 72 61 79 20 2a 2f 0a 20 20 20 20 69 ] array */. i
1680: 6e 74 20 6e 4e 65 77 3b 20 20 20 20 20 20 20 20 nt nNew;
1690: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 /*
16a0: 4e 75 6d 62 65 72 20 6f 66 20 76 61 6c 69 64 20 Number of valid
16b0: 65 6e 74 72 69 65 73 20 69 6e 20 61 72 72 61 79 entries in array
16c0: 20 61 4e 65 77 5b 5d 20 2a 2f 0a 0a 20 20 20 20 aNew[] */..
16d0: 61 4e 65 77 20 3d 20 73 71 6c 69 74 65 33 5f 72 aNew = sqlite3_r
16e0: 65 61 6c 6c 6f 63 28 70 2d 3e 61 69 45 78 63 65 ealloc(p->aiExce
16f0: 70 74 69 6f 6e 2c 20 28 70 2d 3e 6e 45 78 63 65 ption, (p->nExce
1700: 70 74 69 6f 6e 2b 6e 45 6e 74 72 79 29 2a 73 69 ption+nEntry)*si
1710: 7a 65 6f 66 28 69 6e 74 29 29 3b 0a 20 20 20 20 zeof(int));.
1720: 69 66 28 20 61 4e 65 77 3d 3d 30 20 29 20 72 65 if( aNew==0 ) re
1730: 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 turn SQLITE_NOME
1740: 4d 3b 0a 20 20 20 20 6e 4e 65 77 20 3d 20 70 2d M;. nNew = p-
1750: 3e 6e 45 78 63 65 70 74 69 6f 6e 3b 0a 0a 20 20 >nException;..
1760: 20 20 7a 20 3d 20 28 63 6f 6e 73 74 20 75 6e 73 z = (const uns
1770: 69 67 6e 65 64 20 63 68 61 72 20 2a 29 7a 49 6e igned char *)zIn
1780: 3b 0a 20 20 20 20 77 68 69 6c 65 28 20 7a 3c 7a ;. while( z<z
1790: 54 65 72 6d 20 29 7b 0a 20 20 20 20 20 20 52 45 Term ){. RE
17a0: 41 44 5f 55 54 46 38 28 7a 2c 20 7a 54 65 72 6d AD_UTF8(z, zTerm
17b0: 2c 20 69 43 6f 64 65 29 3b 0a 20 20 20 20 20 20 , iCode);.
17c0: 69 66 28 20 73 71 6c 69 74 65 33 46 74 73 55 6e if( sqlite3FtsUn
17d0: 69 63 6f 64 65 49 73 61 6c 6e 75 6d 28 69 43 6f icodeIsalnum(iCo
17e0: 64 65 29 21 3d 62 41 6c 6e 75 6d 20 0a 20 20 20 de)!=bAlnum .
17f0: 20 20 20 20 26 26 20 73 71 6c 69 74 65 33 46 74 && sqlite3Ft
1800: 73 55 6e 69 63 6f 64 65 49 73 64 69 61 63 72 69 sUnicodeIsdiacri
1810: 74 69 63 28 69 43 6f 64 65 29 3d 3d 30 0a 20 20 tic(iCode)==0.
1820: 20 20 20 20 29 7b 0a 20 20 20 20 20 20 20 20 69 ){. i
1830: 6e 74 20 69 2c 20 6a 3b 0a 20 20 20 20 20 20 20 nt i, j;.
1840: 20 66 6f 72 28 69 3d 30 3b 20 69 3c 6e 4e 65 77 for(i=0; i<nNew
1850: 20 26 26 20 61 4e 65 77 5b 69 5d 3c 69 43 6f 64 && aNew[i]<iCod
1860: 65 3b 20 69 2b 2b 29 3b 0a 20 20 20 20 20 20 20 e; i++);.
1870: 20 66 6f 72 28 6a 3d 6e 4e 65 77 3b 20 6a 3e 69 for(j=nNew; j>i
1880: 3b 20 6a 2d 2d 29 20 61 4e 65 77 5b 6a 5d 20 3d ; j--) aNew[j] =
1890: 20 61 4e 65 77 5b 6a 2d 31 5d 3b 0a 20 20 20 20 aNew[j-1];.
18a0: 20 20 20 20 61 4e 65 77 5b 69 5d 20 3d 20 69 43 aNew[i] = iC
18b0: 6f 64 65 3b 0a 20 20 20 20 20 20 20 20 6e 4e 65 ode;. nNe
18c0: 77 2b 2b 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 w++;. }.
18d0: 20 7d 0a 20 20 20 20 70 2d 3e 61 69 45 78 63 65 }. p->aiExce
18e0: 70 74 69 6f 6e 20 3d 20 61 4e 65 77 3b 0a 20 20 ption = aNew;.
18f0: 20 20 70 2d 3e 6e 45 78 63 65 70 74 69 6f 6e 20 p->nException
1900: 3d 20 6e 4e 65 77 3b 0a 20 20 7d 0a 0a 20 20 72 = nNew;. }.. r
1910: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b eturn SQLITE_OK;
1920: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e .}../*.** Return
1930: 20 74 72 75 65 20 69 66 20 74 68 65 20 70 2d 3e true if the p->
1940: 61 69 45 78 63 65 70 74 69 6f 6e 5b 5d 20 61 72 aiException[] ar
1950: 72 61 79 20 63 6f 6e 74 61 69 6e 73 20 74 68 65 ray contains the
1960: 20 76 61 6c 75 65 20 69 43 6f 64 65 2e 0a 2a 2f value iCode..*/
1970: 0a 73 74 61 74 69 63 20 69 6e 74 20 75 6e 69 63 .static int unic
1980: 6f 64 65 49 73 45 78 63 65 70 74 69 6f 6e 28 75 odeIsException(u
1990: 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 nicode_tokenizer
19a0: 20 2a 70 2c 20 69 6e 74 20 69 43 6f 64 65 29 7b *p, int iCode){
19b0: 0a 20 20 69 66 28 20 70 2d 3e 6e 45 78 63 65 70 . if( p->nExcep
19c0: 74 69 6f 6e 3e 30 20 29 7b 0a 20 20 20 20 69 6e tion>0 ){. in
19d0: 74 20 2a 61 20 3d 20 70 2d 3e 61 69 45 78 63 65 t *a = p->aiExce
19e0: 70 74 69 6f 6e 3b 0a 20 20 20 20 69 6e 74 20 69 ption;. int i
19f0: 4c 6f 20 3d 20 30 3b 0a 20 20 20 20 69 6e 74 20 Lo = 0;. int
1a00: 69 48 69 20 3d 20 70 2d 3e 6e 45 78 63 65 70 74 iHi = p->nExcept
1a10: 69 6f 6e 2d 31 3b 0a 0a 20 20 20 20 77 68 69 6c ion-1;.. whil
1a20: 65 28 20 69 48 69 3e 3d 69 4c 6f 20 29 7b 0a 20 e( iHi>=iLo ){.
1a30: 20 20 20 20 20 69 6e 74 20 69 54 65 73 74 20 3d int iTest =
1a40: 20 28 69 48 69 20 2b 20 69 4c 6f 29 20 2f 20 32 (iHi + iLo) / 2
1a50: 3b 0a 20 20 20 20 20 20 69 66 28 20 69 43 6f 64 ;. if( iCod
1a60: 65 3d 3d 61 5b 69 54 65 73 74 5d 20 29 7b 0a 20 e==a[iTest] ){.
1a70: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 31 3b return 1;
1a80: 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 . }else if(
1a90: 20 69 43 6f 64 65 3e 61 5b 69 54 65 73 74 5d 20 iCode>a[iTest]
1aa0: 29 7b 0a 20 20 20 20 20 20 20 20 69 4c 6f 20 3d ){. iLo =
1ab0: 20 69 54 65 73 74 2b 31 3b 0a 20 20 20 20 20 20 iTest+1;.
1ac0: 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20 20 20 69 }else{. i
1ad0: 48 69 20 3d 20 69 54 65 73 74 2d 31 3b 0a 20 20 Hi = iTest-1;.
1ae0: 20 20 20 20 7d 0a 20 20 20 20 7d 0a 20 20 7d 0a }. }. }.
1af0: 0a 20 20 72 65 74 75 72 6e 20 30 3b 0a 7d 0a 0a . return 0;.}..
1b00: 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 74 72 75 /*.** Return tru
1b10: 65 20 69 66 2c 20 66 6f 72 20 74 68 65 20 70 75 e if, for the pu
1b20: 72 70 6f 73 65 73 20 6f 66 20 74 6f 6b 65 6e 69 rposes of tokeni
1b30: 7a 61 74 69 6f 6e 2c 20 63 6f 64 65 70 6f 69 6e zation, codepoin
1b40: 74 20 69 43 6f 64 65 20 69 73 0a 2a 2a 20 63 6f t iCode is.** co
1b50: 6e 73 69 64 65 72 65 64 20 61 20 74 6f 6b 65 6e nsidered a token
1b60: 20 63 68 61 72 61 63 74 65 72 20 28 6e 6f 74 20 character (not
1b70: 61 20 73 65 70 61 72 61 74 6f 72 29 2e 0a 2a 2f a separator)..*/
1b80: 0a 73 74 61 74 69 63 20 69 6e 74 20 75 6e 69 63 .static int unic
1b90: 6f 64 65 49 73 41 6c 6e 75 6d 28 75 6e 69 63 6f odeIsAlnum(unico
1ba0: 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c de_tokenizer *p,
1bb0: 20 69 6e 74 20 69 43 6f 64 65 29 7b 0a 20 20 61 int iCode){. a
1bc0: 73 73 65 72 74 28 20 28 73 71 6c 69 74 65 33 46 ssert( (sqlite3F
1bd0: 74 73 55 6e 69 63 6f 64 65 49 73 61 6c 6e 75 6d tsUnicodeIsalnum
1be0: 28 69 43 6f 64 65 29 20 26 20 30 78 46 46 46 46 (iCode) & 0xFFFF
1bf0: 46 46 46 45 29 3d 3d 30 20 29 3b 0a 20 20 72 65 FFFE)==0 );. re
1c00: 74 75 72 6e 20 73 71 6c 69 74 65 33 46 74 73 55 turn sqlite3FtsU
1c10: 6e 69 63 6f 64 65 49 73 61 6c 6e 75 6d 28 69 43 nicodeIsalnum(iC
1c20: 6f 64 65 29 20 5e 20 75 6e 69 63 6f 64 65 49 73 ode) ^ unicodeIs
1c30: 45 78 63 65 70 74 69 6f 6e 28 70 2c 20 69 43 6f Exception(p, iCo
1c40: 64 65 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 72 de);.}../*.** Cr
1c50: 65 61 74 65 20 61 20 6e 65 77 20 74 6f 6b 65 6e eate a new token
1c60: 69 7a 65 72 20 69 6e 73 74 61 6e 63 65 2e 0a 2a izer instance..*
1c70: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 75 6e 69 /.static int uni
1c80: 63 6f 64 65 43 72 65 61 74 65 28 0a 20 20 69 6e codeCreate(. in
1c90: 74 20 6e 41 72 67 2c 20 20 20 20 20 20 20 20 20 t nArg,
1ca0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a /*
1cb0: 20 53 69 7a 65 20 6f 66 20 61 72 72 61 79 20 61 Size of array a
1cc0: 72 67 76 5b 5d 20 2a 2f 0a 20 20 63 6f 6e 73 74 rgv[] */. const
1cd0: 20 63 68 61 72 20 2a 20 63 6f 6e 73 74 20 2a 61 char * const *a
1ce0: 7a 41 72 67 2c 20 20 20 20 20 20 2f 2a 20 54 6f zArg, /* To
1cf0: 6b 65 6e 69 7a 65 72 20 63 72 65 61 74 69 6f 6e kenizer creation
1d00: 20 61 72 67 75 6d 65 6e 74 73 20 2a 2f 0a 20 20 arguments */.
1d10: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 sqlite3_tokenize
1d20: 72 20 2a 2a 70 70 20 20 20 20 20 20 20 20 20 20 r **pp
1d30: 2f 2a 20 4f 55 54 3a 20 4e 65 77 20 74 6f 6b 65 /* OUT: New toke
1d40: 6e 69 7a 65 72 20 68 61 6e 64 6c 65 20 2a 2f 0a nizer handle */.
1d50: 29 7b 0a 20 20 75 6e 69 63 6f 64 65 5f 74 6f 6b ){. unicode_tok
1d60: 65 6e 69 7a 65 72 20 2a 70 4e 65 77 3b 20 20 20 enizer *pNew;
1d70: 20 20 20 20 20 2f 2a 20 4e 65 77 20 74 6f 6b 65 /* New toke
1d80: 6e 69 7a 65 72 20 6f 62 6a 65 63 74 20 2a 2f 0a nizer object */.
1d90: 20 20 69 6e 74 20 69 3b 0a 20 20 69 6e 74 20 72 int i;. int r
1da0: 63 20 3d 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 0a c = SQLITE_OK;..
1db0: 20 20 70 4e 65 77 20 3d 20 28 75 6e 69 63 6f 64 pNew = (unicod
1dc0: 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 20 73 e_tokenizer *) s
1dd0: 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 qlite3_malloc(si
1de0: 7a 65 6f 66 28 75 6e 69 63 6f 64 65 5f 74 6f 6b zeof(unicode_tok
1df0: 65 6e 69 7a 65 72 29 29 3b 0a 20 20 69 66 28 20 enizer));. if(
1e00: 70 4e 65 77 3d 3d 4e 55 4c 4c 20 29 20 72 65 74 pNew==NULL ) ret
1e10: 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d urn SQLITE_NOMEM
1e20: 3b 0a 20 20 6d 65 6d 73 65 74 28 70 4e 65 77 2c ;. memset(pNew,
1e30: 20 30 2c 20 73 69 7a 65 6f 66 28 75 6e 69 63 6f 0, sizeof(unico
1e40: 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 29 29 3b 0a de_tokenizer));.
1e50: 20 20 70 4e 65 77 2d 3e 62 52 65 6d 6f 76 65 44 pNew->bRemoveD
1e60: 69 61 63 72 69 74 69 63 20 3d 20 31 3b 0a 0a 20 iacritic = 1;..
1e70: 20 66 6f 72 28 69 3d 30 3b 20 72 63 3d 3d 53 51 for(i=0; rc==SQ
1e80: 4c 49 54 45 5f 4f 4b 20 26 26 20 69 3c 6e 41 72 LITE_OK && i<nAr
1e90: 67 3b 20 69 2b 2b 29 7b 0a 20 20 20 20 63 6f 6e g; i++){. con
1ea0: 73 74 20 63 68 61 72 20 2a 7a 20 3d 20 61 7a 41 st char *z = azA
1eb0: 72 67 5b 69 5d 3b 0a 20 20 20 20 69 6e 74 20 6e rg[i];. int n
1ec0: 20 3d 20 73 74 72 6c 65 6e 28 7a 29 3b 0a 0a 20 = strlen(z);..
1ed0: 20 20 20 69 66 28 20 6e 3d 3d 31 39 20 26 26 20 if( n==19 &&
1ee0: 6d 65 6d 63 6d 70 28 22 72 65 6d 6f 76 65 5f 64 memcmp("remove_d
1ef0: 69 61 63 72 69 74 69 63 73 3d 31 22 2c 20 7a 2c iacritics=1", z,
1f00: 20 31 39 29 3d 3d 30 20 29 7b 0a 20 20 20 20 20 19)==0 ){.
1f10: 20 70 4e 65 77 2d 3e 62 52 65 6d 6f 76 65 44 69 pNew->bRemoveDi
1f20: 61 63 72 69 74 69 63 20 3d 20 31 3b 0a 20 20 20 acritic = 1;.
1f30: 20 7d 0a 20 20 20 20 65 6c 73 65 20 69 66 28 20 }. else if(
1f40: 6e 3d 3d 31 39 20 26 26 20 6d 65 6d 63 6d 70 28 n==19 && memcmp(
1f50: 22 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69 "remove_diacriti
1f60: 63 73 3d 30 22 2c 20 7a 2c 20 31 39 29 3d 3d 30 cs=0", z, 19)==0
1f70: 20 29 7b 0a 20 20 20 20 20 20 70 4e 65 77 2d 3e ){. pNew->
1f80: 62 52 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63 bRemoveDiacritic
1f90: 20 3d 20 30 3b 0a 20 20 20 20 7d 0a 20 20 20 20 = 0;. }.
1fa0: 65 6c 73 65 20 69 66 28 20 6e 3e 3d 31 31 20 26 else if( n>=11 &
1fb0: 26 20 6d 65 6d 63 6d 70 28 22 74 6f 6b 65 6e 63 & memcmp("tokenc
1fc0: 68 61 72 73 3d 22 2c 20 7a 2c 20 31 31 29 3d 3d hars=", z, 11)==
1fd0: 30 20 29 7b 0a 20 20 20 20 20 20 72 63 20 3d 20 0 ){. rc =
1fe0: 75 6e 69 63 6f 64 65 41 64 64 45 78 63 65 70 74 unicodeAddExcept
1ff0: 69 6f 6e 73 28 70 4e 65 77 2c 20 31 2c 20 26 7a ions(pNew, 1, &z
2000: 5b 31 31 5d 2c 20 6e 2d 31 31 29 3b 0a 20 20 20 [11], n-11);.
2010: 20 7d 0a 20 20 20 20 65 6c 73 65 20 69 66 28 20 }. else if(
2020: 6e 3e 3d 31 31 20 26 26 20 6d 65 6d 63 6d 70 28 n>=11 && memcmp(
2030: 22 73 65 70 61 72 61 74 6f 72 73 3d 22 2c 20 7a "separators=", z
2040: 2c 20 31 31 29 3d 3d 30 20 29 7b 0a 20 20 20 20 , 11)==0 ){.
2050: 20 20 72 63 20 3d 20 75 6e 69 63 6f 64 65 41 64 rc = unicodeAd
2060: 64 45 78 63 65 70 74 69 6f 6e 73 28 70 4e 65 77 dExceptions(pNew
2070: 2c 20 30 2c 20 26 7a 5b 31 31 5d 2c 20 6e 2d 31 , 0, &z[11], n-1
2080: 31 29 3b 0a 20 20 20 20 7d 0a 20 20 20 20 65 6c 1);. }. el
2090: 73 65 7b 0a 20 20 20 20 20 20 2f 2a 20 55 6e 72 se{. /* Unr
20a0: 65 63 6f 67 6e 69 7a 65 64 20 61 72 67 75 6d 65 ecognized argume
20b0: 6e 74 20 2a 2f 0a 20 20 20 20 20 20 72 63 20 20 nt */. rc
20c0: 3d 20 53 51 4c 49 54 45 5f 45 52 52 4f 52 3b 0a = SQLITE_ERROR;.
20d0: 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 69 66 28 }. }.. if(
20e0: 20 72 63 21 3d 53 51 4c 49 54 45 5f 4f 4b 20 29 rc!=SQLITE_OK )
20f0: 7b 0a 20 20 20 20 75 6e 69 63 6f 64 65 44 65 73 {. unicodeDes
2100: 74 72 6f 79 28 28 73 71 6c 69 74 65 33 5f 74 6f troy((sqlite3_to
2110: 6b 65 6e 69 7a 65 72 20 2a 29 70 4e 65 77 29 3b kenizer *)pNew);
2120: 0a 20 20 20 20 70 4e 65 77 20 3d 20 30 3b 0a 20 . pNew = 0;.
2130: 20 7d 0a 20 20 2a 70 70 20 3d 20 28 73 71 6c 69 }. *pp = (sqli
2140: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 te3_tokenizer *)
2150: 70 4e 65 77 3b 0a 20 20 72 65 74 75 72 6e 20 72 pNew;. return r
2160: 63 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65 70 c;.}../*.** Prep
2170: 61 72 65 20 74 6f 20 62 65 67 69 6e 20 74 6f 6b are to begin tok
2180: 65 6e 69 7a 69 6e 67 20 61 20 70 61 72 74 69 63 enizing a partic
2190: 75 6c 61 72 20 73 74 72 69 6e 67 2e 20 20 54 68 ular string. Th
21a0: 65 20 69 6e 70 75 74 0a 2a 2a 20 73 74 72 69 6e e input.** strin
21b0: 67 20 74 6f 20 62 65 20 74 6f 6b 65 6e 69 7a 65 g to be tokenize
21c0: 64 20 69 73 20 70 49 6e 70 75 74 5b 30 2e 2e 6e d is pInput[0..n
21d0: 42 79 74 65 73 2d 31 5d 2e 20 20 41 20 63 75 72 Bytes-1]. A cur
21e0: 73 6f 72 0a 2a 2a 20 75 73 65 64 20 74 6f 20 69 sor.** used to i
21f0: 6e 63 72 65 6d 65 6e 74 61 6c 6c 79 20 74 6f 6b ncrementally tok
2200: 65 6e 69 7a 65 20 74 68 69 73 20 73 74 72 69 6e enize this strin
2210: 67 20 69 73 20 72 65 74 75 72 6e 65 64 20 69 6e g is returned in
2220: 20 0a 2a 2a 20 2a 70 70 43 75 72 73 6f 72 2e 0a .** *ppCursor..
2230: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 75 6e */.static int un
2240: 69 63 6f 64 65 4f 70 65 6e 28 0a 20 20 73 71 6c icodeOpen(. sql
2250: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a ite3_tokenizer *
2260: 70 2c 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 p, /*
2270: 54 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 2a 2f The tokenizer */
2280: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 61 . const char *a
2290: 49 6e 70 75 74 2c 20 20 20 20 20 20 20 20 20 20 Input,
22a0: 20 20 20 2f 2a 20 49 6e 70 75 74 20 73 74 72 69 /* Input stri
22b0: 6e 67 20 2a 2f 0a 20 20 69 6e 74 20 6e 49 6e 70 ng */. int nInp
22c0: 75 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 ut,
22d0: 20 20 20 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 /* Size
22e0: 6f 66 20 73 74 72 69 6e 67 20 61 49 6e 70 75 74 of string aInput
22f0: 20 69 6e 20 62 79 74 65 73 20 2a 2f 0a 20 20 73 in bytes */. s
2300: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 qlite3_tokenizer
2310: 5f 63 75 72 73 6f 72 20 2a 2a 70 70 20 20 20 2f _cursor **pp /
2320: 2a 20 4f 55 54 3a 20 4e 65 77 20 63 75 72 73 6f * OUT: New curso
2330: 72 20 6f 62 6a 65 63 74 20 2a 2f 0a 29 7b 0a 20 r object */.){.
2340: 20 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 unicode_cursor
2350: 2a 70 43 73 72 3b 0a 0a 20 20 70 43 73 72 20 3d *pCsr;.. pCsr =
2360: 20 28 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 (unicode_cursor
2370: 20 2a 29 73 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f *)sqlite3_mallo
2380: 63 28 73 69 7a 65 6f 66 28 75 6e 69 63 6f 64 65 c(sizeof(unicode
2390: 5f 63 75 72 73 6f 72 29 29 3b 0a 20 20 69 66 28 _cursor));. if(
23a0: 20 70 43 73 72 3d 3d 30 20 29 7b 0a 20 20 20 20 pCsr==0 ){.
23b0: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f return SQLITE_NO
23c0: 4d 45 4d 3b 0a 20 20 7d 0a 20 20 6d 65 6d 73 65 MEM;. }. memse
23d0: 74 28 70 43 73 72 2c 20 30 2c 20 73 69 7a 65 6f t(pCsr, 0, sizeo
23e0: 66 28 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 f(unicode_cursor
23f0: 29 29 3b 0a 0a 20 20 70 43 73 72 2d 3e 61 49 6e ));.. pCsr->aIn
2400: 70 75 74 20 3d 20 28 63 6f 6e 73 74 20 75 6e 73 put = (const uns
2410: 69 67 6e 65 64 20 63 68 61 72 20 2a 29 61 49 6e igned char *)aIn
2420: 70 75 74 3b 0a 20 20 69 66 28 20 61 49 6e 70 75 put;. if( aInpu
2430: 74 3d 3d 30 20 29 7b 0a 20 20 20 20 70 43 73 72 t==0 ){. pCsr
2440: 2d 3e 6e 49 6e 70 75 74 20 3d 20 30 3b 0a 20 20 ->nInput = 0;.
2450: 7d 65 6c 73 65 20 69 66 28 20 6e 49 6e 70 75 74 }else if( nInput
2460: 3c 30 20 29 7b 0a 20 20 20 20 70 43 73 72 2d 3e <0 ){. pCsr->
2470: 6e 49 6e 70 75 74 20 3d 20 28 69 6e 74 29 73 74 nInput = (int)st
2480: 72 6c 65 6e 28 61 49 6e 70 75 74 29 3b 0a 20 20 rlen(aInput);.
2490: 7d 65 6c 73 65 7b 0a 20 20 20 20 70 43 73 72 2d }else{. pCsr-
24a0: 3e 6e 49 6e 70 75 74 20 3d 20 6e 49 6e 70 75 74 >nInput = nInput
24b0: 3b 0a 20 20 7d 0a 0a 20 20 2a 70 70 20 3d 20 26 ;. }.. *pp = &
24c0: 70 43 73 72 2d 3e 62 61 73 65 3b 0a 20 20 55 4e pCsr->base;. UN
24d0: 55 53 45 44 5f 50 41 52 41 4d 45 54 45 52 28 70 USED_PARAMETER(p
24e0: 29 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 );. return SQLI
24f0: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 TE_OK;.}../*.**
2500: 43 6c 6f 73 65 20 61 20 74 6f 6b 65 6e 69 7a 61 Close a tokeniza
2510: 74 69 6f 6e 20 63 75 72 73 6f 72 20 70 72 65 76 tion cursor prev
2520: 69 6f 75 73 6c 79 20 6f 70 65 6e 65 64 20 62 79 iously opened by
2530: 20 61 20 63 61 6c 6c 20 74 6f 0a 2a 2a 20 73 69 a call to.** si
2540: 6d 70 6c 65 4f 70 65 6e 28 29 20 61 62 6f 76 65 mpleOpen() above
2550: 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 ..*/.static int
2560: 75 6e 69 63 6f 64 65 43 6c 6f 73 65 28 73 71 6c unicodeClose(sql
2570: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 ite3_tokenizer_c
2580: 75 72 73 6f 72 20 2a 70 43 75 72 73 6f 72 29 7b ursor *pCursor){
2590: 0a 20 20 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f . unicode_curso
25a0: 72 20 2a 70 43 73 72 20 3d 20 28 75 6e 69 63 6f r *pCsr = (unico
25b0: 64 65 5f 63 75 72 73 6f 72 20 2a 29 20 70 43 75 de_cursor *) pCu
25c0: 72 73 6f 72 3b 0a 20 20 73 71 6c 69 74 65 33 5f rsor;. sqlite3_
25d0: 66 72 65 65 28 70 43 73 72 2d 3e 7a 54 6f 6b 65 free(pCsr->zToke
25e0: 6e 29 3b 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 n);. sqlite3_fr
25f0: 65 65 28 70 43 73 72 29 3b 0a 20 20 72 65 74 75 ee(pCsr);. retu
2600: 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a rn SQLITE_OK;.}.
2610: 0a 2f 2a 0a 2a 2a 20 45 78 74 72 61 63 74 20 74 ./*.** Extract t
2620: 68 65 20 6e 65 78 74 20 74 6f 6b 65 6e 20 66 72 he next token fr
2630: 6f 6d 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f om a tokenizatio
2640: 6e 20 63 75 72 73 6f 72 2e 20 20 54 68 65 20 63 n cursor. The c
2650: 75 72 73 6f 72 20 6d 75 73 74 0a 2a 2a 20 68 61 ursor must.** ha
2660: 76 65 20 62 65 65 6e 20 6f 70 65 6e 65 64 20 62 ve been opened b
2670: 79 20 61 20 70 72 69 6f 72 20 63 61 6c 6c 20 74 y a prior call t
2680: 6f 20 73 69 6d 70 6c 65 4f 70 65 6e 28 29 2e 0a o simpleOpen()..
2690: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 75 6e */.static int un
26a0: 69 63 6f 64 65 4e 65 78 74 28 0a 20 20 73 71 6c icodeNext(. sql
26b0: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 ite3_tokenizer_c
26c0: 75 72 73 6f 72 20 2a 70 43 2c 20 20 20 2f 2a 20 ursor *pC, /*
26d0: 43 75 72 73 6f 72 20 72 65 74 75 72 6e 65 64 20 Cursor returned
26e0: 62 79 20 73 69 6d 70 6c 65 4f 70 65 6e 20 2a 2f by simpleOpen */
26f0: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a . const char **
2700: 70 61 54 6f 6b 65 6e 2c 20 20 20 20 20 20 20 20 paToken,
2710: 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e /* OUT: Token
2720: 20 74 65 78 74 20 2a 2f 0a 20 20 69 6e 74 20 2a text */. int *
2730: 70 6e 54 6f 6b 65 6e 2c 20 20 20 20 20 20 20 20 pnToken,
2740: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 /* OU
2750: 54 3a 20 4e 75 6d 62 65 72 20 6f 66 20 62 79 74 T: Number of byt
2760: 65 73 20 61 74 20 2a 70 61 54 6f 6b 65 6e 20 2a es at *paToken *
2770: 2f 0a 20 20 69 6e 74 20 2a 70 69 53 74 61 72 74 /. int *piStart
2780: 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 ,
2790: 20 20 20 20 2f 2a 20 4f 55 54 3a 20 53 74 61 72 /* OUT: Star
27a0: 74 69 6e 67 20 6f 66 66 73 65 74 20 6f 66 20 74 ting offset of t
27b0: 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 oken */. int *p
27c0: 69 45 6e 64 2c 20 20 20 20 20 20 20 20 20 20 20 iEnd,
27d0: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 /* OUT
27e0: 3a 20 45 6e 64 69 6e 67 20 6f 66 66 73 65 74 20 : Ending offset
27f0: 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e of token */. in
2800: 74 20 2a 70 69 50 6f 73 20 20 20 20 20 20 20 20 t *piPos
2810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a /*
2820: 20 4f 55 54 3a 20 50 6f 73 69 74 69 6f 6e 20 69 OUT: Position i
2830: 6e 74 65 67 65 72 20 6f 66 20 74 6f 6b 65 6e 20 nteger of token
2840: 2a 2f 0a 29 7b 0a 20 20 75 6e 69 63 6f 64 65 5f */.){. unicode_
2850: 63 75 72 73 6f 72 20 2a 70 43 73 72 20 3d 20 28 cursor *pCsr = (
2860: 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 2a unicode_cursor *
2870: 29 70 43 3b 0a 20 20 75 6e 69 63 6f 64 65 5f 74 )pC;. unicode_t
2880: 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d 20 28 28 okenizer *p = ((
2890: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 unicode_tokenize
28a0: 72 20 2a 29 70 43 73 72 2d 3e 62 61 73 65 2e 70 r *)pCsr->base.p
28b0: 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 69 6e Tokenizer);. in
28c0: 74 20 69 43 6f 64 65 3b 0a 20 20 63 68 61 72 20 t iCode;. char
28d0: 2a 7a 4f 75 74 3b 0a 20 20 63 6f 6e 73 74 20 75 *zOut;. const u
28e0: 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 20 nsigned char *z
28f0: 3d 20 26 70 43 73 72 2d 3e 61 49 6e 70 75 74 5b = &pCsr->aInput[
2900: 70 43 73 72 2d 3e 69 4f 66 66 5d 3b 0a 20 20 63 pCsr->iOff];. c
2910: 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 onst unsigned ch
2920: 61 72 20 2a 7a 53 74 61 72 74 20 3d 20 7a 3b 0a ar *zStart = z;.
2930: 20 20 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 const unsigned
2940: 20 63 68 61 72 20 2a 7a 45 6e 64 3b 0a 20 20 63 char *zEnd;. c
2950: 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 onst unsigned ch
2960: 61 72 20 2a 7a 54 65 72 6d 20 3d 20 26 70 43 73 ar *zTerm = &pCs
2970: 72 2d 3e 61 49 6e 70 75 74 5b 70 43 73 72 2d 3e r->aInput[pCsr->
2980: 6e 49 6e 70 75 74 5d 3b 0a 0a 20 20 2f 2a 20 53 nInput];.. /* S
2990: 63 61 6e 20 70 61 73 74 20 61 6e 79 20 64 65 6c can past any del
29a0: 69 6d 69 74 65 72 20 63 68 61 72 61 63 74 65 72 imiter character
29b0: 73 20 62 65 66 6f 72 65 20 74 68 65 20 73 74 61 s before the sta
29c0: 72 74 20 6f 66 20 74 68 65 20 6e 65 78 74 20 74 rt of the next t
29d0: 6f 6b 65 6e 2e 0a 20 20 2a 2a 20 52 65 74 75 72 oken.. ** Retur
29e0: 6e 20 53 51 4c 49 54 45 5f 44 4f 4e 45 20 65 61 n SQLITE_DONE ea
29f0: 72 6c 79 20 69 66 20 74 68 69 73 20 74 61 6b 65 rly if this take
2a00: 73 20 75 73 20 61 6c 6c 20 74 68 65 20 77 61 79 s us all the way
2a10: 20 74 6f 20 74 68 65 20 65 6e 64 20 6f 66 20 0a to the end of .
2a20: 20 20 2a 2a 20 74 68 65 20 69 6e 70 75 74 2e 20 ** the input.
2a30: 20 2a 2f 0a 20 20 77 68 69 6c 65 28 20 7a 3c 7a */. while( z<z
2a40: 54 65 72 6d 20 29 7b 0a 20 20 20 20 52 45 41 44 Term ){. READ
2a50: 5f 55 54 46 38 28 7a 2c 20 7a 54 65 72 6d 2c 20 _UTF8(z, zTerm,
2a60: 69 43 6f 64 65 29 3b 0a 20 20 20 20 69 66 28 20 iCode);. if(
2a70: 75 6e 69 63 6f 64 65 49 73 41 6c 6e 75 6d 28 70 unicodeIsAlnum(p
2a80: 2c 20 69 43 6f 64 65 29 20 29 20 62 72 65 61 6b , iCode) ) break
2a90: 3b 0a 20 20 20 20 7a 53 74 61 72 74 20 3d 20 7a ;. zStart = z
2aa0: 3b 0a 20 20 7d 0a 20 20 69 66 28 20 7a 53 74 61 ;. }. if( zSta
2ab0: 72 74 3e 3d 7a 54 65 72 6d 20 29 20 72 65 74 75 rt>=zTerm ) retu
2ac0: 72 6e 20 53 51 4c 49 54 45 5f 44 4f 4e 45 3b 0a rn SQLITE_DONE;.
2ad0: 0a 20 20 7a 4f 75 74 20 3d 20 70 43 73 72 2d 3e . zOut = pCsr->
2ae0: 7a 54 6f 6b 65 6e 3b 0a 20 20 64 6f 20 7b 0a 20 zToken;. do {.
2af0: 20 20 20 69 6e 74 20 69 4f 75 74 3b 0a 0a 20 20 int iOut;..
2b00: 20 20 2f 2a 20 47 72 6f 77 20 74 68 65 20 6f 75 /* Grow the ou
2b10: 74 70 75 74 20 62 75 66 66 65 72 20 69 66 20 72 tput buffer if r
2b20: 65 71 75 69 72 65 64 2e 20 2a 2f 0a 20 20 20 20 equired. */.
2b30: 69 66 28 20 28 7a 4f 75 74 2d 70 43 73 72 2d 3e if( (zOut-pCsr->
2b40: 7a 54 6f 6b 65 6e 29 3e 3d 28 70 43 73 72 2d 3e zToken)>=(pCsr->
2b50: 6e 41 6c 6c 6f 63 2d 34 29 20 29 7b 0a 20 20 20 nAlloc-4) ){.
2b60: 20 20 20 63 68 61 72 20 2a 7a 4e 65 77 20 3d 20 char *zNew =
2b70: 73 71 6c 69 74 65 33 5f 72 65 61 6c 6c 6f 63 28 sqlite3_realloc(
2b80: 70 43 73 72 2d 3e 7a 54 6f 6b 65 6e 2c 20 70 43 pCsr->zToken, pC
2b90: 73 72 2d 3e 6e 41 6c 6c 6f 63 2b 36 34 29 3b 0a sr->nAlloc+64);.
2ba0: 20 20 20 20 20 20 69 66 28 20 21 7a 4e 65 77 20 if( !zNew
2bb0: 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f ) return SQLITE_
2bc0: 4e 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 7a 4f 75 NOMEM;. zOu
2bd0: 74 20 3d 20 26 7a 4e 65 77 5b 7a 4f 75 74 20 2d t = &zNew[zOut -
2be0: 20 70 43 73 72 2d 3e 7a 54 6f 6b 65 6e 5d 3b 0a pCsr->zToken];.
2bf0: 20 20 20 20 20 20 70 43 73 72 2d 3e 7a 54 6f 6b pCsr->zTok
2c00: 65 6e 20 3d 20 7a 4e 65 77 3b 0a 20 20 20 20 20 en = zNew;.
2c10: 20 70 43 73 72 2d 3e 6e 41 6c 6c 6f 63 20 2b 3d pCsr->nAlloc +=
2c20: 20 36 34 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20 64;. }..
2c30: 2f 2a 20 57 72 69 74 65 20 74 68 65 20 66 6f 6c /* Write the fol
2c40: 64 65 64 20 63 61 73 65 20 6f 66 20 74 68 65 20 ded case of the
2c50: 6c 61 73 74 20 63 68 61 72 61 63 74 65 72 20 72 last character r
2c60: 65 61 64 20 74 6f 20 74 68 65 20 6f 75 74 70 75 ead to the outpu
2c70: 74 20 2a 2f 0a 20 20 20 20 7a 45 6e 64 20 3d 20 t */. zEnd =
2c80: 7a 3b 0a 20 20 20 20 69 4f 75 74 20 3d 20 73 71 z;. iOut = sq
2c90: 6c 69 74 65 33 46 74 73 55 6e 69 63 6f 64 65 46 lite3FtsUnicodeF
2ca0: 6f 6c 64 28 69 43 6f 64 65 2c 20 70 2d 3e 62 52 old(iCode, p->bR
2cb0: 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63 29 3b emoveDiacritic);
2cc0: 0a 20 20 20 20 69 66 28 20 69 4f 75 74 20 29 7b . if( iOut ){
2cd0: 0a 20 20 20 20 20 20 57 52 49 54 45 5f 55 54 46 . WRITE_UTF
2ce0: 38 28 7a 4f 75 74 2c 20 69 4f 75 74 29 3b 0a 20 8(zOut, iOut);.
2cf0: 20 20 20 7d 0a 0a 20 20 20 20 2f 2a 20 49 66 20 }.. /* If
2d00: 74 68 65 20 63 75 72 73 6f 72 20 69 73 20 6e 6f the cursor is no
2d10: 74 20 61 74 20 45 4f 46 2c 20 72 65 61 64 20 74 t at EOF, read t
2d20: 68 65 20 6e 65 78 74 20 63 68 61 72 61 63 74 65 he next characte
2d30: 72 20 2a 2f 0a 20 20 20 20 69 66 28 20 7a 3e 3d r */. if( z>=
2d40: 7a 54 65 72 6d 20 29 20 62 72 65 61 6b 3b 0a 20 zTerm ) break;.
2d50: 20 20 20 52 45 41 44 5f 55 54 46 38 28 7a 2c 20 READ_UTF8(z,
2d60: 7a 54 65 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20 zTerm, iCode);.
2d70: 20 7d 77 68 69 6c 65 28 20 75 6e 69 63 6f 64 65 }while( unicode
2d80: 49 73 41 6c 6e 75 6d 28 70 2c 20 69 43 6f 64 65 IsAlnum(p, iCode
2d90: 29 20 0a 20 20 20 20 20 20 20 7c 7c 20 73 71 6c ) . || sql
2da0: 69 74 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73 ite3FtsUnicodeIs
2db0: 64 69 61 63 72 69 74 69 63 28 69 43 6f 64 65 29 diacritic(iCode)
2dc0: 0a 20 20 29 3b 0a 0a 20 20 2f 2a 20 53 65 74 20 . );.. /* Set
2dd0: 74 68 65 20 6f 75 74 70 75 74 20 76 61 72 69 61 the output varia
2de0: 62 6c 65 73 20 61 6e 64 20 72 65 74 75 72 6e 2e bles and return.
2df0: 20 2a 2f 0a 20 20 70 43 73 72 2d 3e 69 4f 66 66 */. pCsr->iOff
2e00: 20 3d 20 28 7a 20 2d 20 70 43 73 72 2d 3e 61 49 = (z - pCsr->aI
2e10: 6e 70 75 74 29 3b 0a 20 20 2a 70 61 54 6f 6b 65 nput);. *paToke
2e20: 6e 20 3d 20 70 43 73 72 2d 3e 7a 54 6f 6b 65 6e n = pCsr->zToken
2e30: 3b 0a 20 20 2a 70 6e 54 6f 6b 65 6e 20 3d 20 7a ;. *pnToken = z
2e40: 4f 75 74 20 2d 20 70 43 73 72 2d 3e 7a 54 6f 6b Out - pCsr->zTok
2e50: 65 6e 3b 0a 20 20 2a 70 69 53 74 61 72 74 20 3d en;. *piStart =
2e60: 20 28 7a 53 74 61 72 74 20 2d 20 70 43 73 72 2d (zStart - pCsr-
2e70: 3e 61 49 6e 70 75 74 29 3b 0a 20 20 2a 70 69 45 >aInput);. *piE
2e80: 6e 64 20 3d 20 28 7a 45 6e 64 20 2d 20 70 43 73 nd = (zEnd - pCs
2e90: 72 2d 3e 61 49 6e 70 75 74 29 3b 0a 20 20 2a 70 r->aInput);. *p
2ea0: 69 50 6f 73 20 3d 20 70 43 73 72 2d 3e 69 54 6f iPos = pCsr->iTo
2eb0: 6b 65 6e 2b 2b 3b 0a 20 20 72 65 74 75 72 6e 20 ken++;. return
2ec0: 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a SQLITE_OK;.}../*
2ed0: 0a 2a 2a 20 53 65 74 20 2a 70 70 4d 6f 64 75 6c .** Set *ppModul
2ee0: 65 20 74 6f 20 61 20 70 6f 69 6e 74 65 72 20 74 e to a pointer t
2ef0: 6f 20 74 68 65 20 73 71 6c 69 74 65 33 5f 74 6f o the sqlite3_to
2f00: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 0a kenizer_module .
2f10: 2a 2a 20 73 74 72 75 63 74 75 72 65 20 66 6f 72 ** structure for
2f20: 20 74 68 65 20 75 6e 69 63 6f 64 65 20 74 6f 6b the unicode tok
2f30: 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 76 6f 69 64 20 enizer..*/.void
2f40: 73 71 6c 69 74 65 33 46 74 73 33 55 6e 69 63 6f sqlite3Fts3Unico
2f50: 64 65 54 6f 6b 65 6e 69 7a 65 72 28 73 71 6c 69 deTokenizer(sqli
2f60: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f te3_tokenizer_mo
2f70: 64 75 6c 65 20 63 6f 6e 73 74 20 2a 2a 70 70 4d dule const **ppM
2f80: 6f 64 75 6c 65 29 7b 0a 20 20 73 74 61 74 69 63 odule){. static
2f90: 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f 74 const sqlite3_t
2fa0: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 okenizer_module
2fb0: 6d 6f 64 75 6c 65 20 3d 20 7b 0a 20 20 20 20 30 module = {. 0
2fc0: 2c 0a 20 20 20 20 75 6e 69 63 6f 64 65 43 72 65 ,. unicodeCre
2fd0: 61 74 65 2c 0a 20 20 20 20 75 6e 69 63 6f 64 65 ate,. unicode
2fe0: 44 65 73 74 72 6f 79 2c 0a 20 20 20 20 75 6e 69 Destroy,. uni
2ff0: 63 6f 64 65 4f 70 65 6e 2c 0a 20 20 20 20 75 6e codeOpen,. un
3000: 69 63 6f 64 65 43 6c 6f 73 65 2c 0a 20 20 20 20 icodeClose,.
3010: 75 6e 69 63 6f 64 65 4e 65 78 74 2c 0a 20 20 20 unicodeNext,.
3020: 20 30 2c 0a 20 20 7d 3b 0a 20 20 2a 70 70 4d 6f 0,. };. *ppMo
3030: 64 75 6c 65 20 3d 20 26 6d 6f 64 75 6c 65 3b 0a dule = &module;.
3040: 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 21 64 65 }..#endif /* !de
3050: 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 fined(SQLITE_COR
3060: 45 29 20 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 E) || defined(SQ
3070: 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 LITE_ENABLE_FTS3
3080: 29 20 2a 2f 0a 23 65 6e 64 69 66 20 2f 2a 20 69 ) */.#endif /* i
3090: 66 6e 64 65 66 20 53 51 4c 49 54 45 5f 45 4e 41 fndef SQLITE_ENA
30a0: 42 4c 45 5f 46 54 53 34 5f 55 4e 49 43 4f 44 45 BLE_FTS4_UNICODE
30b0: 36 31 20 2a 2f 0a 61 */.