לאחרונה, יצרני סמארטפונים מטיחים את תג הבינה המלאכותית כמעט לכל תכונה שיש להם. ממצלמות ועד ניהול זיכרון RAM, הכל כביכול משתמש בבינה מלאכותית ולמידת מכונה לביצועים טובים יותר ותוצאות מותאמות אישית. עם רוב ההטמעות האלה אתה לא באמת יכול לקיים אינטראקציה, אבל יש אחד שאתה יכול לראות עובד לנגד עיניך.
אנחנו מדברים על זיהוי אובייקטים בעולם האמיתי - היכולת של טלפון לזהות למה מכוונת המצלמה שלו. הדרך שבה זה עובד אינה עתידנית כפי שאתה עשוי לחשוב, אם כי התוצאות עדיין יכולות להיות מרשימות. במילים פשוטות, שירותים המשתמשים בטכנולוגיה משווים את התמונה מהטלפון שלך למסד נתונים של תמונות מתויגות - או במילים אחרות, מזוהות ומתוארות באמצעות תוויות (בדרך כלל על ידי בני אדם). ההתאמות הטובות ביותר מוצגות לך כתוצאות. מכיוון שמסדי הנתונים גדולים מכדי להתאים לטלפון שלך, שירותים אלה צריכים חיבור לאינטרנט כדי לעבוד.
השחקנים העיקריים בתחום זה הם גוגל עם Google Lens שלה, סמסונג עם Bixby Vision ו-Huawei עם HiVision שלה. השלושה מסתמכים על מסדי נתונים שונים: גוגל פיתחה משלה, סמסונג מסתמכת במידה רבה על Pinterest עבור פונקציונליות זיהוי האובייקטים, ו-Huawei שיתפה פעולה עם מיקרוסופט לצורך זיהוי משלה. ישנן כמה וריאציות במה שכל אפליקציה יכולה לעשות וזו הסיבה שאנו מתמקדים בשתי התכונות העיקריות: זיהוי סוגים שונים של אובייקטים ותרגום טקסט.
אתגר 1: הכרה באוכל
משימה 1: פרי עגול ערמומי
כל אחד יכול לזהות בננה, אבל מה עם פרי בעל צורה נפוצה יותר, כמו שזיף למשל? הנה מה שקיבלנו:

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
Google Lens קצר וקולע. Bixby Vision, לעומת זאת, היה בכל מקום עם זה. בעוד בצילום המסך זה מרמז שהפריט הוא אבן חן, הצעות אחרות שלא תפסנו כללו כדור קריקט וצנונית. לא משנה כמה פעמים ניסינו, מעולם לא הגיע למסקנה שאתה מסתכל על שזיף. בכל הנוגע לאוכל, במכשיר ה-Huawei שלך עדיף להשתמש במצב האוכל הייעודי, המופעל על ידי חברה אחרת ומספק תוצאות מדויקות יותר. במקרה זה, שזיף לא היה מתאים ל-HiVision.
משימה 2: ארוחת בוקר צרפתית
זה צריך להיות קל יחסית מכיוון שלנושא (קרואסון) יש צורה ברורה. בוא נראה את התוצאות:

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
הצגה מכובדת מכל שלושת המתמודדים אבל Bixby Vision נראה קצת לא בטוח. המילים בתוך העיגול השתנו מסוג מאפה אחד למשנהו במהירות, וזו הסיבה שהיה קשה לתפוס כראוי את הרגע בו נאמר: "קרואסון" (תוכלו לזהות אותו אם תגדילו את צילום המסך האמצעי). הקרואסון המדובר לא היה עם מילוי שוקולד אבל מכיוון שלסמארטפונים אין צילומי רנטגן (עדיין?) נעצום עין מהטעות של Huawei.
משימה 3: פצצת קלוריות
זוהי משימה מאתגרת יותר מכיוון שלעתים קרובות יש לחטיפי ממתקים צורות ומרקמים דומים, וזו הסיבה שהחלטנו לפצל את נושא המבחן שלנו ולתת לטלפונים קצת יותר לעבוד איתם. והם לא אכזבו:

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
בסיבוב הזה היה תורו של Google Lens להחליק. נראה שגוגל לא השקיעה זמן רב בתיוג תמונות של קינוחים ולכן התוכנה הניחה שהבר של Snickers הוא סוג אחר של ממתק רב-שכבתי. בינתיים, Bixby Vision ו- HiVision מיהרו לציין שזה סניקרס שאנחנו מסתכלים עליו.
אתגר 2: בעלי חיים... סוג של
משימה 1: נחשו את הציפור
נכון, מה שמוצג להלן אינו ציפור אמיתית, אבל נראה שהוא קרוב מספיק כדי לשטות באלגוריתמים התואמים של עוזרי הבינה המלאכותית שלנו. הנה מה שהם הראו כשהם מתמודדים עם קישוט גן חסידות:

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
כרגיל, ביקסבי קצת יותר מעורפלת, אבל אם תסתכל דרך תוצאות התמונה שהיא מציעה, תגלה מהר מספיק שהציפור היא למעשה חסידה.
משימה 2: איזה גזע זה הכלב הזה?
כאן הדברים נעשים מאתגרים מכיוון שגזעי כלבים נראים לעתים קרובות דומים, מה שיקשה במיוחד על הבינה המלאכותית לתת התאמה נכונה. זה נכון במיוחד עם הכלב ששימש כמודל שלנו והוא גזע שהוא לא ממש פופולרי בעולם. אבל קודם כל, בואו נראה מה היו הניחושים הטובים ביותר של הטלפונים.

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
כאן, התוצאות ממש הפתיעו אותנו. לא ציפינו שאף טלפון יעשה את זה נכון, אבל Google Lens מבסס את זה שוב. Karakachan, הידוע גם בשם רועה בולגרי, הוא הגזע האמיתי של הכלב. זה אפילו יותר מרשים בהתחשב בעובדה שהצבע אינו אופייני לגזע המורכב בעיקר מכלבים עם פרווה שחורה ולבן. השניים האחרים הצליחו למדי בהתחשב במשימה המאתגרת, התוצאות שלהם היו מקובלות גם אם לא נכונות מבחינה טכנית.
משימה 3: איזו חיה היא הקטיפה הזו?
הגיע הזמן למשהו יותר מופשט. ראינו את קטיפה הכבשה המטופשת הזו והחלטנו לבדוק אם התוכנה תצליח לזהות באיזו חיה מדובר למרות הפרופורציות המוזרות. התוצאות היו פגע ופספוס.

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
בסגנון האופייני לה, התוצאה של גוגל נראית כאילו התוכנה משועממת מהשאלות הקבועות שלך ופשוט יורקת "כבשים", וזה אכן נכון. עם זאת, אנחנו לא יכולים להאשים את שתי האפליקציות האחרות בהצעת "צעצוע" מכיוון שהקטיפה היא יותר צעצוע מאשר כבשה אמיתית, כמובן. ובכל זאת, Bixby Vision התקשתה להבין שיש רק אובייקט אחד שהוא צריך לזהות והציעה תמונות דומות של פשטידות ומאפים אחרים מעוטרים בקצפת. לפחות זה משעשע אם לא מאוד עוזר.
אתגר 3: מוצרים
חלק גדול מהשיווק של אפליקציות אלו מתמקד באופן שבו הם יכולים לזהות מוצרים שונים כך שתוכל לקנות אותם או פשוט לקבל מידע נוסף עליהם בזמן שאתה בדרכים. אז, החלטנו לבדוק אותם עם מוצרים של פופולריות שונים.
משימה 1: אובייקט לבן מסתורי
בעוד שעבור רוב האנשים ניתן לזהות בקלות את מקרה ה-AirPods, הצורה שלו יכולה להיות מסובכת לאלגוריתמים לזהות נכון. או שכן?

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
תוצאות כמעט מושלמות! אנחנו אומרים כמעט בגלל שההצעות הראשונות של HiVision היו של AirPods lookalikes/knockoffs, וזה לא אידיאלי. Bixby Vision חשב לשנייה שהמארז הוא חפיסת סבון אבל הגיע מהר למוצר הנכון. נראה ששפע התמונות של נרתיק הטעינה של AirPods עוזר לא מעט בזיהוי.
משימה 2: אדון אופל זעיר
משימה זו קלה וקשה כאחד. מצד אחד, הקסדה של דארת' ויידר היא אחד האובייקטים המוכרים ביותר בתרבות הפופ. מצד שני, ישנם אלפי מוצרים שמשתמשים בו. אז עד כמה האפליקציות יכולות להיות מדויקות?

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
נו, מה אתה יודע? שלושה מתוך שלושה! מחזיק המפתחות המדויק עם עיני LED מוארות היה בתוצאות המובילות של כל אפליקציה. מרשים למדי. הגיע הזמן לסיבוב האחרון!
משימה 3: גוונים מגניבים
כעת, לרוב משקפי השמש יש צורה דומה מה שיקשה מדי על המשימה, ולכן בחרנו בזוג עם מראה מובחן יותר וממותג פופולרי.

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
Google Lens ו-HiVision חולקים את המקום הראשון בזה, שניהם מציעים את משקפי השמש המדויקים של Dolce & Gabbana שהיו לפניהם. הזוג המוצע של סמסונג היה קרוב מספיק אבל עדיין לא זה המדובר.
אתגר 4: תרגום טקסט
תרגום טקסט בזמן אמת הוא כנראה התכונה השימושית ביותר שהאפליקציות הללו מספקות. היכולת לבדוק במהירות מה המשמעות של קטע טקסט בשפה זרה יכולה להקל בהרבה על הנסיעות שלך לחו"ל. הגיע הזמן לראות כיצד שלושת המתחרים שלנו בינה מלאכותית יבצעו את המשימה.
משימה 1: תמרור אזהרה בגרמנית
אתה מסתובב בפארק בגרמניה כשאתה רואה את השלט שאומר בבירור משהו חשוב. אתה לא יודע גרמנית ואינך רוצה להסתבך, אז אתה שולף את הטלפון שלך ונותן לכוחות הבינה המלאכותית לתרגם אותו. הנה מה שאתה מקבל:

Google Lens

ביקסבי ויז'ן

HiVision
כל השלושה יתנו לך מספיק מידע על מה שהשלט מזהיר אותך לא לעשות, אבל התרגום ב-Huawei מרחיק מעט את השניים האחרים כדי לכלול את המילה "עופרת". השלט המקורי אומר "יש לטייל עם כל הכלבים ברצועה! לא כולל כלבי נחייה"
משימה 2: תמרור אזהרה ביפנית
תרחיש דומה, אבל הפעם אתה ביפן. רק בודק אם יש לך ממה לדאוג:

Google Lens

ביקסבי ויז'ן

HiVision
שוב, די ברור: אם יש לך מכונית, זה לא המקום להחנות אותה. אתה אף פעם לא יודע מתי פעילויות כיבוי אש יתפרצו! השכבות רחוקות מלהיות אידיאליות, אבל הן מעבירות את הנקודה, וזה מה שחשוב במקרה הזה.
משימה 3: טקסט בצרפתית
הגיע הזמן לקחת דברים לרמה אחרת. יש לך קטע טקסט בשפה לא ידועה ואתה רוצה לדעת על מה מדובר? ובכן, הגיע הזמן שהסמארטפון שלך יוכיח כמה הוא חכם. אתה סורק את הטקסט והנה התוצאות:

עדשת Google משמאל, Bixby Vision באמצע, HiVision מימין
אני לא יודע מה קורה עם ביקסבי ויז'ן כאן, אבל אם הייתי גוגל, הייתי רוצה לדבר עם סמסונג בנוגע להצבת "מתורגם על ידי גוגל" תחת התועבה הזו. אתה יכול לראות שגם Google Lens וגם HiVision מתרגמים את הטקסט מספיק טוב כדי שתוכל להבין על מה הסיפור ולספוג את חוכמתו. Google Lens מקבל קרדיט נוסף על שכבת התרגום בצורה טובה יותר, ה-Huawei נראית קצת כמו שטר כופר.
הנה הטקסט האמיתי של האגדה הפופולרית על העורב והשועל:
מר עורב, יושב על עץ,
החזיק חתיכת גבינה במקורו.
מר פוקס, הפה דומע מהריח,
אמר לו כמעט בדיוק את זה:
"היי! בוקר טוב, מר קרואו.
כמה את מקסימה! אתה נראה כל כך יפה!
בלי לשקר, אם השירים שלך
תואמים לנוצות שלך,
אתה הפניקס של תושבי היערות האלה.
"עם המילים האלה העורב לא מרגיש אלא עונג.
וכדי להשוויץ בקולו היפה, הוא פותח מקור רחב ונותן לטרפו ליפול.
השועל תפס אותו ואמר: "אדוני היקר
למד את זה כל חנפן
חי על חשבון מי שמקשיב לו.
השיעור הזה שווה חתיכת גבינה, ללא ספק".
העורב, מתבייש ונבוך,
נשבע, אבל קצת באיחור, שלעולם לא ילך שולל שוב.
מחשבות אחרונות
הגיע הזמן לדבר על איך זה מרגיש בשימוש בכל אחת מהאפליקציות. Google Lens היא האינטואיטיבית ביותר: ברגע שהיא מזהה אובייקט, מופיעה נקודה, אתה מקיש עליה ומקבל מידע נוסף. עם זאת, לפעמים הוא פשוט היה ממשיך לסרוק מבלי להרים את האובייקט שנמצא ממש מולך. אבל סריקת האובייקט מזווית אחרת עשויה לעזור. בסך הכל, כרגע זו האפליקציה המלוטשת והשימושית ביותר מבין השלוש שבדקנו.
Bixby Vision של סמסונג הוא להיט או פספוס - אבל בעיקר פספוס. לקח הכי הרבה זמן להגיע לתוצאות מדויקות, שאנחנו מודעים להן רק בגלל שכבר ידענו מה התשובה הנכונה. אם אתה באמת סומך על Bixby Vision כדי לזהות משהו בשבילך, אז המזל יהיה גורם חשוב. הצעות משתנות לפעמים מספר פעמים בשנייה והן משתנות מאוד בין כל מיני אובייקטים. עדיף שהאפליקציה רק תבחר תשובה אחת ותתמיד בה, גם אם היא השגויה, במקום לזרוק עליך מילים אקראיות בתקווה שתצליח בסופו של דבר.
ה-HiVision של Huawei הצליח די טוב בבדיקות שלנו ובהחלט יכול להיות שימושי במצבים מסוימים. עם זאת, לפעמים זה יכול לתת קצת יותר מדי מידע. אם יש לך חפץ על שולחן אתה לא צריך את האפליקציה כדי להגיד לך שיש גם שולחן בתמונה, או שיש רצפת עץ ברקע. ובכל זאת, זה מטרד קל. מה שהמפתחים צריכים לעבוד עליו הוא עיצוב נעים יותר. תיבות הטקסט השקופות האלה נראות מאוד מיושנות ומעניקות מעין אווירה גימיקית לכל האפליקציה, וזה מצער.
הדבר הטוב בתוכנה מסוג זה הוא שככל שהיא קיימת זמן רב יותר וככל שיותר אנשים משתמשים בה, כך היא משתפרת. ואם עכשיו אנחנו כבר רואים כמה תוצאות די טובות, אז תארו לעצמכם מה יהיה אפשרי בעוד כמה שנים. אנחנו לא רוצים להיכנס יותר מדי לטריטוריה המצמררת, אבל זה לא בלתי אפשרי שיום אחד נוכל לכוון את הטלפון שלך לאדם ולקבל את השמות והמייל שלו כתוצאה מכך. ובכל זאת, זה מרגש לראות לאן הטכנולוגיה תביא אותנו ומבחן דומה בעוד שנה או שנתיים יכול לומר הרבה על כמה מהר דברים זזים. הישארו מעודכנים!